Kalika Bali: The giant leaps in language technology -- and who's left behind | TED

54,015 views

2021-04-26 ・ TED


New videos

Kalika Bali: The giant leaps in language technology -- and who's left behind | TED

54,015 views ・ 2021-04-26

TED


Haga doble clic en los subtítulos en inglés para reproducir el vídeo.

00:00
Transcriber:
0
0
7000
Traductor: Iván Galas Martínez Revisor: Sebastian Betti
00:12
I'm Kalika Bali, I'm a linguist by training
1
12430
2800
Soy Kalika Bali, soy lingüista por formación
00:15
and a technologist by profession,
2
15263
2334
y tecnóloga de profesión.
00:17
I have worked in academia,
3
17630
1667
Durante 20 años he trabajado en educación,
00:19
in startups, in small companies and multinationals for over two decades,
4
19330
5267
en startups, en empresas pequeñas y en multinacionales,
00:24
doing research in and building language technology systems.
5
24630
3733
haciendo investigaciones y creando sistemas de tecnología del lenguaje.
00:28
My dream is to see technology work across the language barrier.
6
28363
4667
Mi sueño es que la tecnología funcione a través de la barrera del lenguaje.
00:33
As a researcher at Microsoft Research Labs India
7
33030
3100
Como investigadora en el Microsoft Research Labs en India,
00:36
I work in the field of language technology and speech technology.
8
36163
5534
trabajo en el campo de la tecnología del lenguaje y la tecnología del habla.
00:41
And I worry about how can we make technology accessible
9
41697
3600
Y me preocupo por cómo podemos hacer la tecnología más accesible
00:45
to people across the board,
10
45330
2200
a las personas en todo el mundo,
00:47
you know, irrespective of the language that they speak.
11
47530
2967
ya saben, sin importar el idioma que hablen.
00:51
So natural language processing,
12
51663
1600
Procesamiento del lenguaje, inteligencia artificial, tecnología del habla...
00:53
artificial intelligence, speech technology,
13
53297
2066
00:55
these are very big words, they are buzzwords right now.
14
55363
2600
Son palabras fuertes, y están de moda ahora mismo.
00:57
Everybody is talking about what exactly is NLP or natural language processing.
15
57997
5533
Todo el mundo habla sobre qué es el PLN o el procesamiento del lenguaje natural.
01:03
So in very simple terms,
16
63530
1533
Así que, en palabras sencillas,
01:05
this is the part of computer science engineering
17
65063
3367
esta es la parte de la ingeniería informática
01:08
that makes machines process,
18
68463
2834
que hace que las máquinas procesen,
01:11
understand and generate natural language,
19
71330
2967
entiendan y generen un lenguaje natural,
01:14
which is the language that humans speak.
20
74330
2233
es decir, el lenguaje que los humanos hablamos.
01:17
When you are interacting with a bot trying to book your train tickets
21
77697
4700
Cuando interactúas con un bot para reservar tus billetes de tren
01:22
or flight tickets,
22
82430
1267
o billetes de avión,
01:23
when you are speaking to a voice-based digital assistant in your phone,
23
83697
4833
cuando estás hablando con un asistente virtual de voz en tu teléfono,
01:28
it's natural language processing
24
88530
1600
es el PLN
01:30
that underpins the entire technology that makes that work.
25
90163
3534
el que sustenta toda la tecnología que hace que eso funcione.
01:34
But how does this work?
26
94797
1266
Pero, ¿cómo funciona?
01:36
How does NLP work?
27
96063
1567
¿Cómo funciona el PLN?
01:37
In a very, very basic way,
28
97663
3900
De manera muy, muy resumida,
01:41
it's about data.
29
101563
1800
se trata de datos.
01:43
So a huge amount of data of how actually humans use language
30
103363
6334
Una gran cantidad de datos sobre cómo los humanos usamos el lenguaje
01:49
is then processed by certain algorithms and techniques
31
109697
5166
se procesa por ciertos algoritmos y técnicas
01:54
that make the machines learn the patterns
32
114863
2767
que hacen que las máquinas aprendan patrones
01:57
of natural language of humans, right?
33
117663
3700
del lenguaje natural de los seres humanos, ¿verdad?
02:01
These days, another buzzword that you hear a lot about is deep neural networks.
34
121363
5367
Actualmente, otra palabra que escuchamos mucho es el aprendizaje profundo.
02:06
And these are the advanced techniques
35
126763
2467
Son las técnicas avanzadas
02:09
that underpin a lot of the NLP stuff that happens right now.
36
129263
4134
que forman la base de muchos de los elementos del PLN que ocurren hoy.
02:13
And I will not go into the details of how that works,
37
133430
3333
No voy a entrar en detalles sobre cómo funciona esto,
02:16
but the thing that you really have to understand and keep in mind
38
136797
3400
pero lo que tienen que entender y tener en mente
02:20
is that all of this requires a humungous amount of data,
39
140197
5000
es que todo esto requiere una cantidad enorme de datos,
02:25
natural language data.
40
145197
1666
datos sobre el lenguaje natural.
02:26
If you want a speech system to converse with you in Gujarati,
41
146863
5267
Si quieren que un sistema de voz hable con Uds. en guyaratí,
02:32
the first thing you require
42
152163
1367
lo primero que necesitará
02:33
is a lot of data of Gujarati people speaking to each other
43
153530
4533
es mucha información sobre la gente guyaratí hablando entre ellos
02:38
in their own language.
44
158063
1867
en su propio idioma.
02:41
So 2017, Microsoft came up with a speech recognition system
45
161663
4734
En 2017, Microsoft desarrolló un sistema de reconocimiento de voz
02:46
which was able to transcribe speech into text
46
166430
3600
que logró transcribir el diálogo a texto
02:50
better than a human did.
47
170030
1733
mejor que los humanos.
02:52
And this system was trained
48
172563
3167
Y se formó a este sistema
02:55
on 200 million transcribed words.
49
175763
2667
con 200 millones de palabras transcritas.
02:58
In 2018, an English-Chinese machine translation system
50
178463
3967
En 2018, un sistema de traducción automática anglo-chino
03:02
was able to translate from English to Chinese
51
182463
2800
logró traducir del inglés al chino
03:05
as well as any human bilingual could.
52
185297
2766
tan bien como cualquier persona bilingüe.
03:08
And this was trained on 18 million bilingual sentence pairs.
53
188063
4934
Y a este se le formó con más de 18 millones de frases bilingües.
03:14
This is a very, very exciting time in natural language processing
54
194330
4433
Es un gran momento para el procesamiento del lenguaje natural
03:18
and in technology as such.
55
198797
1466
y para la tecnología como tal.
03:20
You know, we are seeing science fiction, which we had read about and watched,
56
200297
4466
Estamos viendo la ciencia ficción sobre la que hemos leído y visto
03:24
kind of come true in front of our own eyes.
57
204797
2833
hacerse realidad delante de nuestros propios ojos.
03:27
We are making giant leaps in technical advancement.
58
207663
4467
Estamos dando pasos agigantados en el progreso técnico.
03:32
But these giant leaps are limited to very few languages.
59
212163
6234
Pero estos grandes pasos se limitan a unos pocos idiomas.
03:38
So Monojit Choudhury,
60
218430
1300
Monojit Choudhury,
03:39
who's like a very good friend of mine
61
219763
1867
un gran amigo mío
03:41
and a colleague,
62
221663
2134
además de compañero,
03:43
he has studied this in some detail
63
223830
1733
ha estudiado esto en detalle
03:45
and he has looked at resource distribution across languages in the world.
64
225563
4067
y ha investigado la distribución de recursos en las lenguas del mundo.
03:49
And he says that these follow what is called a power-law distribution,
65
229663
4100
Y afirma que siguen lo que se conoce como distribución de ley potencial,
03:53
which essentially means that there are four languages,
66
233797
2766
lo que básicamente significa que hay cuatro idiomas,
03:56
Arabic, Chinese, English and Spanish,
67
236563
2700
el árabe, el chino, el inglés y el español,
03:59
which have the maximum amount of resources available.
68
239297
3766
que tienen la la máxima cantidad de recursos disponibles.
04:03
There are another handful of languages which can also benefit from, you know,
69
243063
5167
Hay otras muchas lenguas que también pueden beneficiarse de, ya saben,
04:08
the resources and the technology that's available right now.
70
248263
3834
los recursos y la tecnología que están disponibles actualmente.
04:12
But there are 90 percent of the world's languages
71
252130
4833
Pero un 90 % de los idiomas del mundo
04:16
which have no resources
72
256997
1800
no tienen ningún recurso
04:18
or very little resources available.
73
258830
2067
o son recursos escasos.
04:20
This revolution that we are talking about
74
260930
2667
La revolución de la que estamos hablando
04:23
has essentially bypassed 5,000 languages of the world.
75
263630
4100
se ha olvidado de 5000 idiomas de todo el mundo.
04:27
Now, what this means is that resource-rich languages
76
267763
2534
Bien, esto significa que los idiomas con recursos
04:30
have technologies built for them,
77
270330
1800
cuentan con tecnologías a medida,
04:32
so researchers and technologists get attracted towards them.
78
272163
3267
para que investigadores y tecnólogos se sientan atraídos.
04:35
They build more technologies for them. They create more resources.
79
275463
3500
Construyen más tecnologías para ellos. Crean más recursos.
04:38
So it's like a rich getting richer kind of a cycle.
80
278997
2800
Es como un ciclo en el que un rico se hace más rico.
04:41
And the resource-poor languages stay poor,
81
281830
2400
Y los idiomas con pocos recursos, se quedan igual.
04:44
there's no technology for them, nobody works for them.
82
284263
2600
No hay tecnología para ellos, nadie trabaja para ellos.
04:46
And this divide, digital divide between languages
83
286863
3400
Y esta separación digital entre los idiomas
04:50
is ever-expanding
84
290297
1500
continúa creciendo
04:51
and by implication also the divide between the communities
85
291830
4633
y, por consiguiente, también la separación en las comunidades
04:56
that speak these languages is expanding.
86
296497
2500
que hablan estos idiomas crece.
05:00
So in Microsoft, in Project Ellora, we aim to bridge this gap.
87
300763
4767
En Microsoft, con el Proyecto Ellora, queremos frenar esta separación.
05:06
We are trying to see how can we create more data by innovative methods,
88
306663
5567
Estamos investigando cómo podemos crear más datos mediante métodos innovadores,
05:12
have more techniques to build technology without having a lot of resources,
89
312263
5800
tener más técnicas para construir tecnología sin tener muchos recursos
05:18
and what are the applications that can truly benefit these communities.
90
318063
4200
y cuáles son las aplicaciones que realmente pueden beneficiarles.
05:23
So at the moment, this might seem very theoretical,
91
323463
3334
Por ahora esto puede parecer muy teórico,
05:26
like what is he talking about, data and techniques and technology.
92
326830
3133
como ¿de qué está hablando?, información y técnicas y tecnología.
05:29
So let me give you a very concrete example here.
93
329997
3066
Así que les voy a dar un ejemplo muy concreto.
05:33
I'm a linguist at heart, I love languages, and that's what I love talking about.
94
333063
5300
Soy lingüista por naturaleza, amo los idiomas y amo hablar de ello.
05:38
So let me tell you about a language that many of you might not know about.
95
338363
4367
Así que les voy a hablar sobre un idioma que muchos de Uds. quizá no conozcan.
05:42
Gondi.
96
342763
1267
Gondi.
05:44
Gondi is a South-Central Dravidian language.
97
344030
2700
El gondi es una lengua meridional central dravídica.
05:46
It is spoken by three million people in five states of India.
98
346763
4434
La hablan tres millones de personas en cinco estados de la India.
05:51
And to put this in some kind of perspective,
99
351197
3000
Y, para ponerlo un poco en perspectiva,
05:54
Norwegian is spoken by five million people
100
354197
2833
el noruego lo hablan cinco millones de personas
05:57
and Welsh by a little under a million.
101
357030
2933
y el galés menos de un millón.
05:59
So Gondi is actually a pretty robust and pretty large community
102
359997
6200
Por tanto, el gondi forma una comunidad muy sólida y extensa
06:06
of the Gond tribals in India.
103
366197
2900
de las tribus gond en India.
06:09
But by UNESCO's Atlas of Languages in Danger,
104
369130
5067
Pero para el atlas UNESCO de las lenguas en peligro del mundo,
06:14
Gondi is designated vulnerable status.
105
374197
4366
al gondi se le da el estado de vulnerable.
06:19
CGNet Swara is an NGO that provides a citizen journalism portal
106
379030
4533
CGNet Swara es una ONG que cuenta con un portal de periodismo
06:23
for the Gond community
107
383563
1867
para la comunidad gond
06:25
by making local stories accessible through mobile phones.
108
385463
4234
y hace accesibles los sucesos locales a través de los móviles.
06:29
There's absolutely no tech support for Gondi.
109
389697
2933
No hay ningún tipo de ayuda tecnología para el gondi.
06:32
There is no data available for Gondi, no resources available for Gondi.
110
392663
4800
No hay datos disponible sobre el gondi ni recursos disponibles para el gondi.
06:37
So all content that is created, moderated and edited is done manually.
111
397497
5066
Así que todo el contenido que se crea, se regula y se edita, se hace manualmente.
06:42
Now, under Project Ellora,
112
402563
2067
Bien, bajo el Proyecto Ellora,
06:44
what we did was that we brought together all the stakeholders,
113
404663
2967
conseguimos unir a todos los interlocutores,
06:47
an NGOs like CGNet Swara,
114
407663
1800
una ONG como CGNet Swara,
06:49
and academic institutions, like IIIT Naya Raipur,
115
409497
3366
e instituciones académicas, como el I.I.I.T Naya Raipur,
06:52
a not-for-profit children's book publisher,
116
412863
2200
una editorial infantil sin ánimo de lucro,
06:55
like Pratham Books,
117
415063
1300
como Pratham Books,
06:56
and most importantly, the speakers of the community.
118
416363
2434
y, más importante, a los hablantes de la comunidad.
06:58
The Gond tribals themselves participated in this activity
119
418830
4933
Las tribus gond participaron en esta actividad
07:03
and for the first time edited and translated children’s books in Gondi.
120
423797
5633
y, por primera vez, se editaron y tradujeron libros infantiles al gondi.
07:09
We were able to put out 200 books for the very first time in Gondi,
121
429463
5334
Conseguimos publicar 200 libros, por primera vez, en gondi.
07:14
so that the children had access to stories and books in their own language.
122
434830
4700
Para que los niños tuviesen acceso a historias y libros en su propia lengua.
07:19
Another extension of this was Adivasi Radio,
123
439530
2267
Otra extensión de esto fue Adivasi Radio,
07:21
which was like an app that we built and developed in Microsoft Research,
124
441830
4033
que era una aplicación que construimos y desarrollamos en Microsoft Research
07:25
and then put out there, along with our stakeholders,
125
445863
4567
y después la liberamos junto a las partes interesadas,
07:30
which takes a Hindi text-to-speech system
126
450463
3067
que cuenta con un sistema de texto a voz en hindi
07:33
and allows it to read out news and articles provided by CGNet Swara
127
453530
6400
que le permite leer las noticias y artículos de CGNet Swara
07:39
in Gondi language.
128
459963
2434
en la lengua gondi.
07:42
Users can now use this app to read,
129
462430
2767
Los usuarios pueden utilizarla para leer,
07:45
watch news and access any information
130
465197
3433
ver las noticias y acceder a la información
07:48
through text and voice in their own language.
131
468663
3900
mediante texto y audio en su propia lengua.
07:52
A very interesting thing is that this app is now being used to translate --
132
472563
3634
Algo interesante es que esta aplicación se emplea ahora para traducir...
07:56
by the community to translate text from Hindi to Gondi.
133
476197
4833
por la comunidad, para traducir textos de hindi a gondi.
08:01
Now, what that will result in is a lot of parallel data,
134
481030
3333
Bien, todo ello resultará en muchos datos paralelos,
08:04
that we call parallel data,
135
484363
1534
los llamamos datos paralelos,
08:05
that will allow us to build machine translation systems for Gondi,
136
485930
3500
que nos permitirán construir sistemas de traducción para el gondi,
08:09
which will truly open up a window for the Gond community to the world.
137
489463
5900
que podrán abrir muchas puertas para la comunidad gond por el mundo.
08:15
And what is even more important is now we know how to do this.
138
495363
3567
Y lo que es aún más importante es que ahora sabemos cómo hacerlo.
08:18
We have the entire pipeline and we can replicate this for any language
139
498963
4600
Tenemos toda la estructura y podemos replicarla para otras lenguas
08:23
and any language community
140
503563
1900
y cualquier comunidad lingüística
08:25
which is in a similar situation as the Gond tribals.
141
505497
3033
que esté en una situación similar a las tribus gond.
08:29
Also education -- yes, you know, information access -- yes,
142
509630
4833
También la educación, ya saben, el acceso a la información, sí,
08:34
but what about earning a living?
143
514497
2700
pero, ¿qué hay de ganarse la vida?
08:37
Right? What about -- how can we make these people earn a living
144
517830
4200
¿Verdad? ¿Cómo...? ¿Cómo puede la gente ganarse la vida
08:42
through the digital tools that all of us just take for granted these days?
145
522030
3867
a través de las herramientas digitales que ya damos por sentadas?
08:45
Vivek Seshadri, who's another researcher at MSR,
146
525930
2533
Vivek Seshdari, otro investigador en el MSR,
08:48
and his collaborator, Manu Chopra,
147
528497
2100
y su compañero, Manu Chopra
08:50
they've designed a platform called Karya
148
530630
2500
han diseñado una plataforma llamada Karya
08:53
for providing digital microtasks to the underserved communities.
149
533163
4600
para facilitar tareas digitales a comunidades con pocos recursos.
08:57
His aim was basically to find a way to provide a means of dignified labor
150
537797
5433
Su objetivo era, básicamente, encontrar un medio de trabajo digno
09:03
to the populations, the rural populations
151
543263
2034
para las poblaciones, las zonas rurales
09:05
and the urban poor populations of this country.
152
545330
2300
y las zonas urbanas pobres del país.
09:08
They don't have access to all the knowledge
153
548530
3000
No tienen acceso a todo el conocimiento
09:11
to use the digital platforms
154
551530
2567
para usar plataformas digitales
09:14
that all of us use every day without even thinking, right?
155
554130
4200
que todos nosotros usamos sin apenas pensarlo, ¿no?
09:18
But ...
156
558930
1233
Pero...
09:20
Here is a large
157
560863
2434
Hay una gran población culta que quiere trabajar, bien,
09:23
literate population that wants to work, right,
158
563330
4133
09:27
and how can we make this possible for them?
159
567497
2766
¿cómo podemos hacer esto posible?
09:30
So Karya is one such way
160
570297
3500
Karya es una forma
09:33
through which this population can get on to the digital world
161
573830
4033
a través de la cual esta gente puede conectarse al mundo digital
09:37
and, you know,
162
577863
1434
y, ya saben,
09:39
through that find work and do tasks that can then earn them money.
163
579330
4433
encontrar trabajo y realizar tareas que puedan darles dinero.
09:43
So we saw this and we thought, oh, this is wonderful.
164
583797
2500
Vimos esto y pensamos que era maravilloso.
09:46
We could probably use this for data collection as well.
165
586330
2600
También podíamos usarlo para recoger más información.
09:48
So we went to Amale,
166
588963
2000
Así que fuimos a Amale,
09:50
which is a small village of 200 people
167
590997
3266
una pequeña aldea de 200 personas
09:54
in the Wada district of Maharashtra
168
594297
1933
en el distrito Wada de Maharashtra,
09:56
and decided to use Karya to collect Marathi data.
169
596263
2667
y decidimos usar Karya para recolectar datos del maratí.
09:58
Now, I know what you are thinking --
170
598963
1900
Bien, sé lo que estarán pensando,
10:00
I'm sure a lot of Marathi speakers also in the audience --
171
600930
2767
seguro que hay muchos hablantes de maratí entre el público,
10:03
that Marathi is not a low-resource language.
172
603697
2400
que el maratí no es un idioma con bajos recursos.
10:06
Marathi is definitely a mainstream language of the country.
173
606130
3600
El maratí es sin duda una lengua muy común del país.
10:09
But as far as language technology is concerned,
174
609763
2500
Pero, en cuanto a tecnología del idioma,
10:12
Marathi is a low-resource language.
175
612297
2333
el maratí es una lengua con pocos recursos.
10:14
So we went to this village
176
614663
1600
Fuimos a esta aldea
10:16
and we had a very successful data-collection trip.
177
616297
3800
y logramos recoger muchos datos durante el viaje.
10:20
And, you know, this village is very remote.
178
620130
3567
Y, bueno, esta aldea está muy aislada.
10:23
They have no TV, they have no electricity,
179
623697
2700
No tienen televisión, electricidad,
10:26
they have no mobile signal.
180
626430
3833
tampoco hay señal de móvil.
10:30
You have to climb a hill and wave your phone around
181
630297
2633
Hay que subir a una montaña y mover el móvil en el aire
10:32
if you want to, you know, use your mobile to call anyone.
182
632963
3200
si quieren usar el teléfono para llamar a alguien.
10:37
So they gave us all this data.
183
637197
1766
Bien, nos dieron mucha información.
10:38
But more than that, they gave us very valuable lessons in life.
184
638997
3266
Pero, sobre todo, nos dieron lecciones muy valiosas para la vida.
10:43
One is this pride in one's own language.
185
643063
3000
Una es el orgullo por la lengua propia.
10:46
The people of Amale were thrilled to be doing this
186
646063
2667
A la gente de Amale les encantó participar en esto
10:48
because they were advancing their own language by doing this.
187
648763
5834
porque estaban promoviendo su lengua haciendo esto.
10:54
The second was the value of community.
188
654630
1833
Otra fue el valor de la comunidad.
10:56
Very quickly, this became a village community effort.
189
656497
3900
Rápidamente, se convirtió en un esfuerzo conjunto de todo el pueblo.
11:00
People would gather together in tasks and do this together as a group.
190
660430
4867
La gente se reunía para hacer tareas y llevarlas a cabo como un grupo.
11:05
And the third is the importance of storytelling.
191
665330
3767
Y la última es la importancia de contar historias.
11:09
People of Amale were so starved of content that in the morning, during the daytime,
192
669130
6067
La gente de Amale necesitaba tanto el contenido, que, por la mañana,
11:15
they would do recordings of stories in Karya
193
675197
4066
hacían grabaciones de historias en Karya
11:19
and then in the evening they would gather the entire village
194
679297
2833
y, por la tarde, reunían a todo el pueblo
11:22
and retell and recount these stories to the village.
195
682163
3834
y contaban una y otra vez estas historias a todos.
11:27
So as scientists, we get so caught up
196
687563
2167
Como científicos, nos enfrascamos tanto
11:29
in the science and technology part of what we are doing, you know --
197
689763
3700
en la parte científica y tecnológica de lo que hacemos, ya saben,
11:33
which is the next best model to have,
198
693497
1966
cuál será el próximo mejor modelo,
11:35
how can we increase the accuracy of my system,
199
695497
2933
cómo mejorar la precisión de mi sistema,
11:38
how can I build the next best system there is --
200
698463
4600
cómo puedo construir el mejor sistema...
11:43
that we forget the reason why we are doing this: the people.
201
703063
3700
que nos olvidamos de la razón por la que lo estamos haciendo: la gente.
11:46
And any successful technology is the one that keeps the people and the users
202
706797
5466
Y cualquier tecnología óptima es la que pone a la gente y a los usuarios
11:52
up front and center.
203
712297
1566
por delante y en el centro.
11:54
And when they start doing that,
204
714830
1533
Y, cuando empiezan a hacer eso,
11:56
we also realize that technology is probably a very small part of this
205
716363
3667
nos damos cuenta de que la tecnología es una pequeña parte de esto
12:00
and there are other things in the story.
206
720030
2367
y que hay muchas más cosas.
12:02
Maybe there are social, cultural and policy interventions
207
722430
3333
Las intervenciones sociales, culturales y políticas
12:05
that are required, as much as technology.
208
725797
2200
son tan necesarias como la tecnología.
12:09
So some time back, I worked on a project called VideoKheti
209
729030
3267
Hace ya un tiempo trabajé en un proyecto llamado VideoKheti
12:12
that allowed Hindi-speaking farmers in Central India
210
732330
3600
que permitía a los granjeros hablantes de hindi del centro de India
12:15
to search for agricultural videos by speaking into a phone-based app.
211
735963
6667
buscar videos sobre agricultura hablándole a una aplicación del móvil.
12:23
So we went to Madhya Pradesh to collect data for this,
212
743363
3434
Fuimos a Madhya Pradesh a recolectar datos para ello
12:26
and we came back and we were training our models
213
746830
2300
y regresamos, probamos los modelos
12:29
and we discovered we're getting very bad results.
214
749163
2367
y nos dimos cuenta que los resultados eran malos.
12:31
This is not working.
215
751530
1267
No estaba funcionando.
12:32
So we were very confused. Why is this happening?
216
752830
2267
Estábamos muy confusos. ¿Por qué pasaba eso?
12:35
So we looked deeper and deeper into the data
217
755130
2267
Investigamos en profundidad los datos
12:37
and discovered that, yes, we had collected data
218
757430
2233
y nos dimos cuenta de que, sí, teníamos los datos
12:39
from what we thought was a very silent, quiet village in the evening.
219
759697
4666
de lo que creíamos que era una aldea silenciosa y tranquila por las tardes.
12:44
But what we hadn't heard while we were doing this
220
764363
3400
Pero lo que no habíamos oído mientras hacíamos esto
12:47
was that there was this constant buzz of night insects, you know?
221
767797
4100
es que había un zumbido constante de insectos nocturnos.
12:51
So throughout the recordings, we had this "bzz" of the insects,
222
771930
3467
Así que en todos los audios teníamos este zumbido de insectos,
12:55
which was actually distorting our speech.
223
775430
2533
que estaba distorsionando la voz.
12:58
The second thing was that when we went there
224
778797
2233
Lo segundo es que cuando fuimos allí
13:01
to kind of test our app in the village,
225
781030
3867
para poder probar la aplicación en la aldea,
13:04
I and my colleague Indrani Medhi,
226
784930
2533
mi compañera Indrani Medhi,
13:07
who is a very well-regarded design researcher,
227
787497
3600
una prestigiosa investigadora de diseño, y yo,
13:11
we found that the women couldn't pronounce the sanskritized words
228
791130
4400
nos dimos cuenta de que las mujeres no podían pronunciar palabras en sánscrito
13:15
that we had for some of the search terms.
229
795530
2767
que empleamos para algunas búsquedas.
13:18
So, like ...
230
798330
1500
Como...
13:21
(speaks Hindi)
231
801663
2800
(Habla en hindi)
13:24
Which is like the term for chemical pesticides, right?
232
804497
3866
Que es el término para pesticidas químicos.
13:28
Because we got these terms from the agricultural extension center
233
808363
5534
Porque recibimos estos términos del centro de expansión agrícola
13:33
and the women, even though they are farming,
234
813930
2100
y las mujeres, aunque también son granjeras,
13:36
do not interact with that center at all.
235
816030
2867
no interactúan con el centro para nada.
13:38
The men do, the women probably use something much simpler, like ...
236
818930
3967
Los hombres sí. Las mujeres probablemente usen algo más simple, como...
13:42
(speaks Hindi)
237
822930
1300
(Habla en Hindi)
13:44
Which basically means killing pests with medicine.
238
824263
3534
Que básicamente significa matar las plagas con medicina.
13:48
So what I have learned through my journey
239
828430
3867
Lo que he aprendido de mi experiencia
13:52
and what I would like to put across to you --
240
832330
2900
y lo que me gustaría transmitirles,
13:55
by now, I hope you've understood me,
241
835263
2000
espero que me hayan entendido,
13:57
is that there is the majority of the world's languages
242
837297
3433
es que la mayoría de los idiomas mundiales
14:00
that require intensive investment for resource creation
243
840763
4267
necesitan inversiones intensivas para la creación de recursos
14:05
if they are to benefit from language technology.
244
845030
2567
si quieren beneficiarse de la tecnología del lenguaje.
14:07
And this is unlikely to happen in a very fast and efficient manner.
245
847630
5367
Y esto no es probable que ocurra de manera rápida y eficiente.
14:13
So it is extremely important for us to ensure
246
853963
2934
Por ello, es muy importante para nosotros asegurarnos
14:16
that the community derives maximum benefit
247
856930
3533
de que la comunidad tenga el máximo beneficio
14:20
from whatever that we are doing in the language tech area.
248
860497
3966
de cualquier cosa que hagamos en el área de tecnología del lenguaje.
14:24
And to do this and deliver a positive social impact
249
864497
3466
Para lograrlo y tener un impacto social positivo
14:27
on these communities,
250
867997
1466
en estas comunidades,
14:29
we follow what we call the modified 4-D design thinking methodology.
251
869497
4733
seguimos lo que llamamos la metodología de pensar en el diseño modificado 4D.
14:34
So the 4-D means: discover, design, develop and deploy.
252
874263
5200
Las 4 “D” son: descubrir, diseñar, desarrollar y desplegar.
14:39
So discover the problem that language technology can solve
253
879497
3066
Descubrir el problema que la tecnología pueda solucionar
14:42
for a particular language community.
254
882563
2200
en una comunidad lingüística concreta.
14:44
This observation-led approach can help allocate resources
255
884797
3233
Este enfoque basado en la observación nos ayuda a asignar recursos
14:48
where they are most needed,
256
888030
1700
donde más los necesitan,
14:49
designed for the users and their language,
257
889763
2767
diseñados para los usuarios y su idioma,
14:52
understand the diversity in the linguistic properties
258
892530
3367
entender la diversidad en las propiedades lingüísticas
14:55
and the languages of the world.
259
895930
2100
y las lenguas del mundo.
14:58
And don't think, oh, this is made for English.
260
898030
2400
Y no pensar que esto está hecho para el inglés.
15:00
Now, how can we just adapt it for Marathi or for Gondi, right?
261
900463
4334
¿Cómo podemos adaptarlo para el maratí o el gondi?
15:04
Develop rapidly and deploy frequently.
262
904830
2600
Desarrollarlo rápidamente y desplegarlo a menudo.
15:07
It's an iterative process that will help you fail fast
263
907463
3500
Es un proceso interactivo que te permite tener errores enseguida
15:10
and early failures will eventually lead to success.
264
910997
3366
y los errores tempranos acaban en un gran éxito.
15:15
The important thing is to persevere.
265
915497
1966
Lo importante es perseverar.
15:17
Do not give up.
266
917497
1366
No rendirse.
15:18
And I remember the story of these two Aborigine Australian women,
267
918863
5734
Recuerdo la historia de dos mujeres australianas aborígenes.
15:24
Patricia O'Connor and Ysola Best.
268
924630
3800
Patricia O’Connor e Ysola Best.
15:29
In the mid-90s, they went to the University of Queensland
269
929763
3134
A mediados de los 90 fueron a la Universidad de Queensland
15:32
and they wanted to learn their own language, called Yugambeh,
270
932930
3333
y querían aprender su idioma, el yugambeh,
15:36
and they were told very bluntly, "Your language is dead.
271
936297
2633
Y les dijeron sin rodeos: “Vuestra lengua está muerta.
15:38
It's been dead for three decades.
272
938963
1600
Leva muerta tres décadas.
15:40
You cannot work on this. Find something else to work on."
273
940563
3867
No podéis trabajar con esto. Encontrad otra cosa para trabajar”.
15:44
They did not give up.
274
944463
1267
No se rindieron.
15:45
They went to the community,
275
945763
1600
Se dirigieron a la comunidad,
15:47
they dug up oral memories, oral traditions, oral literature,
276
947363
4867
recuperaron recuerdos orales, tradiciones y literatura orales
15:52
and founded the Yugambeh Museum,
277
952263
3367
y fundaron el Museo Yugambeh,
15:55
which became the most important cultural and linguistic center for the language
278
955663
5434
que se convirtió en el centro cultural y lingüístico más importante de la lengua
16:01
and its community.
279
961130
1767
y de su comunidad.
16:02
They did not have technology. They only had their willpower.
280
962930
4033
No tenían tecnología. Solo tenían su fuerza de voluntad.
16:06
Now, with the power of technology,
281
966997
2233
Ahora, con el poder de la tecnología,
16:09
we can ensure that the next page is written in Salmi from Finland,
282
969263
5767
podemos asegurarnos de que la siguiente página se escribe en saami de Finlandia,
16:15
Lillooet from Canada or Mundari from India.
283
975030
3467
en lillooet de Canadá o en mundari de India.
16:19
Thank you.
284
979163
1000
Muchas gracias.
Acerca de este sitio web

Este sitio le presentará vídeos de YouTube útiles para aprender inglés. Verá lecciones de inglés impartidas por profesores de primera categoría de todo el mundo. Haz doble clic en los subtítulos en inglés que aparecen en cada página de vídeo para reproducir el vídeo desde allí. Los subtítulos se desplazan en sincronía con la reproducción del vídeo. Si tiene algún comentario o petición, póngase en contacto con nosotros mediante este formulario de contacto.

https://forms.gle/WvT1wiN1qDtmnspy7