Kalika Bali: The giant leaps in language technology -- and who's left behind | TED

54,150 views ・ 2021-04-26

TED


Por favor, clique duas vezes nas legendas em inglês abaixo para reproduzir o vídeo.

00:00
Transcriber:
0
0
7000
Tradutor: Jovani Laz Revisor: Wanderley Jesus
Eu me chamo Kalika Bali, Eu sou linguista pela vida
e tecnóloga por formação,
Trabalhei em centros acadêmicos,
em startups, em pequenas empresas e multinacionais por mais de duas decádas,
00:12
I'm Kalika Bali, I'm a linguist by training
1
12430
2800
00:15
and a technologist by profession,
2
15263
2334
fazendo pesquisa e construindo sistemas tecnológicos de linguagens.
00:17
I have worked in academia,
3
17630
1667
00:19
in startups, in small companies and multinationals for over two decades,
4
19330
5267
Meu sonho é ver a tecnologia trabalhar através da barreira linguística.
00:24
doing research in and building language technology systems.
5
24630
3733
Como pesquisadora do Laboratório de Pesquisa da Microsoft Índia
Atuo na área da tecnologia da linguagem e tecnologia de fala.
00:28
My dream is to see technology work across the language barrier.
6
28363
4667
00:33
As a researcher at Microsoft Research Labs India
7
33030
3100
E me preocupo sobre como podemos tornar tecnologia mais acessível a todos.
00:36
I work in the field of language technology and speech technology.
8
36163
5534
Independente do idioma que falam.
00:41
And I worry about how can we make technology accessible
9
41697
3600
processamento de linguagem natural (PLN)
inteligência artificial, tecnologia de fala
00:45
to people across the board,
10
45330
2200
são palavras grandes que estão na moda agora.
00:47
you know, irrespective of the language that they speak.
11
47530
2967
Todo mundo está falando disso, mas o que PLN significa exatamente ?
00:51
So natural language processing,
12
51663
1600
00:53
artificial intelligence, speech technology,
13
53297
2066
00:55
these are very big words, they are buzzwords right now.
14
55363
2600
Então, simplificando,
esta é a parte da ciência da computação
00:57
Everybody is talking about what exactly is NLP or natural language processing.
15
57997
5533
que faz com que as maquinas processem,
entendam e criem linguagem natural
01:03
So in very simple terms,
16
63530
1533
01:05
this is the part of computer science engineering
17
65063
3367
que é o idioma que os humanos falam.
01:08
that makes machines process,
18
68463
2834
Quando vocês interagem com um robô para tentar comprar suas passagens de trem
01:11
understand and generate natural language,
19
71330
2967
ou voos de avião,
01:14
which is the language that humans speak.
20
74330
2233
quando falam com um assistente digital por voz no seu celular,
01:17
When you are interacting with a bot trying to book your train tickets
21
77697
4700
é o PLN
que sustenta toda a tecnologia que faz isso funcionar.
01:22
or flight tickets,
22
82430
1267
01:23
when you are speaking to a voice-based digital assistant in your phone,
23
83697
4833
Mas como isso funciona ?
Como funciona o PLN ?
01:28
it's natural language processing
24
88530
1600
De uma forma bem simples,
01:30
that underpins the entire technology that makes that work.
25
90163
3534
é sobre dados.
01:34
But how does this work?
26
94797
1266
Uma grande quantidade de dados da forma como os humanos realmente usam a língua
01:36
How does NLP work?
27
96063
1567
01:37
In a very, very basic way,
28
97663
3900
01:41
it's about data.
29
101563
1800
que então é processada por certos tipos de algoritmos e técnicas
01:43
So a huge amount of data of how actually humans use language
30
103363
6334
que fazem com que as maquinas aprendam os padrões
01:49
is then processed by certain algorithms and techniques
31
109697
5166
da linguagem natural humana, ok ?
Outra palavra bem famosa que se escuta muito é redes neurais profundas.
01:54
that make the machines learn the patterns
32
114863
2767
01:57
of natural language of humans, right?
33
117663
3700
estas são as técnicas avançadas
que sustentam muito do PLN que acontece agora.
02:01
These days, another buzzword that you hear a lot about is deep neural networks.
34
121363
5367
Não entrarei em detalhes de como isso funciona,
02:06
And these are the advanced techniques
35
126763
2467
mas o importante é que entendam e que tenham em mente
02:09
that underpin a lot of the NLP stuff that happens right now.
36
129263
4134
que tudo isso exige uma enorme quantidade de dados,
02:13
And I will not go into the details of how that works,
37
133430
3333
02:16
but the thing that you really have to understand and keep in mind
38
136797
3400
dados da linguagem natural.
Se você quiser que um sistema de fala converse com você em Gujarati,
02:20
is that all of this requires a humungous amount of data,
39
140197
5000
O primeiro que precisa
02:25
natural language data.
40
145197
1666
é de muitos dados de pessoas falando Gurajati uma com as outras
02:26
If you want a speech system to converse with you in Gujarati,
41
146863
5267
em seu próprio idioma.
02:32
the first thing you require
42
152163
1367
02:33
is a lot of data of Gujarati people speaking to each other
43
153530
4533
Em 2017, a Microsoft apresentou um sistema de reconhecimento de fala
que foi capaz de transcrever fala para texto
02:38
in their own language.
44
158063
1867
02:41
So 2017, Microsoft came up with a speech recognition system
45
161663
4734
melhor que um humano conseguia.
e este sistema foi treinado
02:46
which was able to transcribe speech into text
46
166430
3600
com 200 milhões de palavras transcritas.
Em 2018, um sistema de máquina de tradução inglês-chinês
02:50
better than a human did.
47
170030
1733
02:52
And this system was trained
48
172563
3167
foi capaz de traduzir do inglês para o chinês
02:55
on 200 million transcribed words.
49
175763
2667
tão bem quanto qualquer humano bilíngue conseguiria.
02:58
In 2018, an English-Chinese machine translation system
50
178463
3967
e este então foi treinado com 18 milhões de pares bilíngues de frases.
03:02
was able to translate from English to Chinese
51
182463
2800
03:05
as well as any human bilingual could.
52
185297
2766
Este foi um momento muito animador no processamento de linguagem natural
03:08
And this was trained on 18 million bilingual sentence pairs.
53
188063
4934
e dentro da tecnologia em si.
Nós estamos vendo ficção cientifica, que nós havíamos lido sobre e assistido
03:14
This is a very, very exciting time in natural language processing
54
194330
4433
meio que se tornando realidade bem diante dos nossos olhos.
03:18
and in technology as such.
55
198797
1466
Nós estamos dando enormes saltos no avanço técnico.
03:20
You know, we are seeing science fiction, which we had read about and watched,
56
200297
4466
Mas esses enormes saltos estão limitado a poucos idiomas.
03:24
kind of come true in front of our own eyes.
57
204797
2833
03:27
We are making giant leaps in technical advancement.
58
207663
4467
Bem, Monojit Choudhury
um bom amigo meu
03:32
But these giant leaps are limited to very few languages.
59
212163
6234
e um colega de trabalho,
ele estudou isto mais a fundo
e observou distribuição de recursos através de idiomas no mundo.
03:38
So Monojit Choudhury,
60
218430
1300
03:39
who's like a very good friend of mine
61
219763
1867
03:41
and a colleague,
62
221663
2134
e ele diz que estas seguem o que se chama de lei-poder distribuição,
03:43
he has studied this in some detail
63
223830
1733
03:45
and he has looked at resource distribution across languages in the world.
64
225563
4067
o que basicamente significa que há quatro idiomas,
Árabe, chinês, inglês e espanhol,
03:49
And he says that these follow what is called a power-law distribution,
65
229663
4100
que possuem a quantidade máxima de recursos disponível.
03:53
which essentially means that there are four languages,
66
233797
2766
Há alguns outros idiomas que também podem se beneficiar
03:56
Arabic, Chinese, English and Spanish,
67
236563
2700
dos recursos e tecnologias que estão disponíveis agora.
03:59
which have the maximum amount of resources available.
68
239297
3766
04:03
There are another handful of languages which can also benefit from, you know,
69
243063
5167
Porém há 90% dos idiomas do mundo
04:08
the resources and the technology that's available right now.
70
248263
3834
que não tem recursos
ou recursos disponíveis em escassez .
04:12
But there are 90 percent of the world's languages
71
252130
4833
Este revolução que estamos falando
ignorou 5,000 idiomas do mundo.
04:16
which have no resources
72
256997
1800
04:18
or very little resources available.
73
258830
2067
Isso significa que idiomas com abundância de recursos
04:20
This revolution that we are talking about
74
260930
2667
possuem tecnologias feitas para eles
04:23
has essentially bypassed 5,000 languages of the world.
75
263630
4100
então os pesquisadores e tecnólogos são atraídos a esses idiomas.
São criados mais tecnologias e mais recursos para tais idiomas.
04:27
Now, what this means is that resource-rich languages
76
267763
2534
04:30
have technologies built for them,
77
270330
1800
É basicamente como o ciclo do rico se tornando mais rico.
04:32
so researchers and technologists get attracted towards them.
78
272163
3267
E idiomas pobres de recursos continuam sem recursos
04:35
They build more technologies for them. They create more resources.
79
275463
3500
não há tecnologia para eles, ninguém trabalha neles.
04:38
So it's like a rich getting richer kind of a cycle.
80
278997
2800
E esta divisão, divisão digital entre idiomas
04:41
And the resource-poor languages stay poor,
81
281830
2400
está em constante expansão
e implicitamente também é a divisão das comunidades
04:44
there's no technology for them, nobody works for them.
82
284263
2600
04:46
And this divide, digital divide between languages
83
286863
3400
que falam esses idiomas está aumentando.
04:50
is ever-expanding
84
290297
1500
04:51
and by implication also the divide between the communities
85
291830
4633
Na Microsoft,no Projeto Ellora, nós visamos preencher esta lacuna.
04:56
that speak these languages is expanding.
86
296497
2500
Estamos tentando ver como podemos criar mais dados com métodos inovadores,
05:00
So in Microsoft, in Project Ellora, we aim to bridge this gap.
87
300763
4767
como ter mais técnicas para construir tecnologia sem possuir muitos recursos,
05:06
We are trying to see how can we create more data by innovative methods,
88
306663
5567
e quais são as aplicações que genuinamente possam beneficiar essas comunidades.
05:12
have more techniques to build technology without having a lot of resources,
89
312263
5800
No momento, isto pode parecer bem teórico,
05:18
and what are the applications that can truly benefit these communities.
90
318063
4200
como sobre o que ele está falando, dados e técnicas e tecnologia.
Então, eu darei um exemplo concreto.
05:23
So at the moment, this might seem very theoretical,
91
323463
3334
Sou linguista de coração, amo idiomas, e amo falar sobre isso.
05:26
like what is he talking about, data and techniques and technology.
92
326830
3133
05:29
So let me give you a very concrete example here.
93
329997
3066
Bem, vou falar sobre um idioma que muitos de vocês talvez não conheçam.
05:33
I'm a linguist at heart, I love languages, and that's what I love talking about.
94
333063
5300
Gondi.
Gondi é uma língua Dravídica Sul-Central.
05:38
So let me tell you about a language that many of you might not know about.
95
338363
4367
É falado por três milhões de pessoas em cinco estados da Índia.
05:42
Gondi.
96
342763
1267
E para colocar em perspectiva,
05:44
Gondi is a South-Central Dravidian language.
97
344030
2700
Norueguês é falado por cinco milhões de pessoas
05:46
It is spoken by three million people in five states of India.
98
346763
4434
e galês por pouco menos de um milhão de pessoas
05:51
And to put this in some kind of perspective,
99
351197
3000
Então gondi é na verdade uma comunidade bem robusta e grande
05:54
Norwegian is spoken by five million people
100
354197
2833
05:57
and Welsh by a little under a million.
101
357030
2933
dos tribais de Gondi na Índia.
05:59
So Gondi is actually a pretty robust and pretty large community
102
359997
6200
Mas pelo Atlas dos Idiomas em Perigo da UNESCO
Gondi foi dado estado de vulnerabilidade.
06:06
of the Gond tribals in India.
103
366197
2900
06:09
But by UNESCO's Atlas of Languages in Danger,
104
369130
5067
GGNet Swara é uma ONG que fornece um portal de jornalismo do cidadão
06:14
Gondi is designated vulnerable status.
105
374197
4366
para a comunidade de gondi
fazendo com que historias locais sejam acessível através dos celulares.
06:19
CGNet Swara is an NGO that provides a citizen journalism portal
106
379030
4533
Não há absolutamente nenhum suporte técnico para gondi.
06:23
for the Gond community
107
383563
1867
Não há dados disponíveis nem recursos disponíveis para gondi.
06:25
by making local stories accessible through mobile phones.
108
385463
4234
06:29
There's absolutely no tech support for Gondi.
109
389697
2933
Então todo o conteúdo que é criado, moderado e editado é feito manualmente.
06:32
There is no data available for Gondi, no resources available for Gondi.
110
392663
4800
Agora, baixo o Projeto Ellora,
o que fizemos foi reunir os grupos interessados,
06:37
So all content that is created, moderated and edited is done manually.
111
397497
5066
e ONGs como CGNet Swara,
e instituições acadêmicas, como IIIT Naya Raipur,
06:42
Now, under Project Ellora,
112
402563
2067
06:44
what we did was that we brought together all the stakeholders,
113
404663
2967
uma editora voluntária de livros infantis
como Livros Pratham,
06:47
an NGOs like CGNet Swara,
114
407663
1800
e o mais importante, os falantes da comunidade.
06:49
and academic institutions, like IIIT Naya Raipur,
115
409497
3366
Os próprios tribais de gondi participaram nesta atividade
06:52
a not-for-profit children's book publisher,
116
412863
2200
06:55
like Pratham Books,
117
415063
1300
e pela primeira vez editaram e traduziram livros infantis para a língua gondi.
06:56
and most importantly, the speakers of the community.
118
416363
2434
06:58
The Gond tribals themselves participated in this activity
119
418830
4933
Conseguimos publicar mais de 200 livros em gondi pela primeira vez,
07:03
and for the first time edited and translated children’s books in Gondi.
120
423797
5633
para que as crianças tenham acesso a histórias e livros em seu próprio idioma
07:09
We were able to put out 200 books for the very first time in Gondi,
121
429463
5334
Outra extensão disso foi a Rádio Adivasi,
que foi como um aplicativo que criamos e desenvolvemos na Pesquisa da Microsoft,
07:14
so that the children had access to stories and books in their own language.
122
434830
4700
e então entregamos aos nossos parceiros,
07:19
Another extension of this was Adivasi Radio,
123
439530
2267
07:21
which was like an app that we built and developed in Microsoft Research,
124
441830
4033
que usam um sistema hindi de texto para fala
07:25
and then put out there, along with our stakeholders,
125
445863
4567
e permite que sejam lidas noticias e artigos fornecidos pelo CGNet Swara
07:30
which takes a Hindi text-to-speech system
126
450463
3067
na língua gondi.
07:33
and allows it to read out news and articles provided by CGNet Swara
127
453530
6400
Usuários podem usar este app para ler,
assistir noticias e acessar qualquer informação
07:39
in Gondi language.
128
459963
2434
através de texto e voz em seu próprio idioma.
07:42
Users can now use this app to read,
129
462430
2767
Algo bem interessante é que este app está sendo usado para tradução
07:45
watch news and access any information
130
465197
3433
pela comunidade para traduzir texto do hindi para gondi.
07:48
through text and voice in their own language.
131
468663
3900
07:52
A very interesting thing is that this app is now being used to translate --
132
472563
3634
Isso resultará no que chamamos de dados paralelos,
07:56
by the community to translate text from Hindi to Gondi.
133
476197
4833
que nos permitirão construir sistemas de máquinas de tradução para gondi,
que abrirá uma janela da comunidade gondi para o mundo .
08:01
Now, what that will result in is a lot of parallel data,
134
481030
3333
08:04
that we call parallel data,
135
484363
1534
08:05
that will allow us to build machine translation systems for Gondi,
136
485930
3500
e o que é ainda mais importante é que agora nós sabemos como fazer isso.
08:09
which will truly open up a window for the Gond community to the world.
137
489463
5900
Nós temos a fórmula e podemos replicá-la com qualquer língua
08:15
And what is even more important is now we know how to do this.
138
495363
3567
e qualquer comunidade linguística
que estão em uma situação similar dos tribais de gondi.
08:18
We have the entire pipeline and we can replicate this for any language
139
498963
4600
Educação também, bem, acesso à informação sim,
08:23
and any language community
140
503563
1900
08:25
which is in a similar situation as the Gond tribals.
141
505497
3033
mas e sobre ganhar dinheiro?
08:29
Also education -- yes, you know, information access -- yes,
142
509630
4833
Certo?, e como podemos fazer com que essas pessoas ganhem dinheiro
através das ferramentas digitais que para nós são óbvias?
08:34
but what about earning a living?
143
514497
2700
08:37
Right? What about -- how can we make these people earn a living
144
517830
4200
Vivek Seshadri, outro pesquisador da MSR,
e seu colaborador, Manu Chropra,
08:42
through the digital tools that all of us just take for granted these days?
145
522030
3867
desenvolveram uma plataforma chamada Karya
para fornecer microatividades para as comunidades carentes.
08:45
Vivek Seshadri, who's another researcher at MSR,
146
525930
2533
08:48
and his collaborator, Manu Chopra,
147
528497
2100
Seu objetivo era basicamente encontrar um meio de prover trabalho digno
08:50
they've designed a platform called Karya
148
530630
2500
08:53
for providing digital microtasks to the underserved communities.
149
533163
4600
para as populações, as populações rurais
e as populações urbanas pobres deste país.
08:57
His aim was basically to find a way to provide a means of dignified labor
150
537797
5433
Eles não tem acesso a todo o conhecimento
09:03
to the populations, the rural populations
151
543263
2034
para usar as plataformas digitais
09:05
and the urban poor populations of this country.
152
545330
2300
que todos nós usamos diariamente sem nem mesmo pensar, né ?
09:08
They don't have access to all the knowledge
153
548530
3000
Porém ...
09:11
to use the digital platforms
154
551530
2567
Aqui há uma grande
09:14
that all of us use every day without even thinking, right?
155
554130
4200
população alfabetizada que quer trabalhar, certo,
09:18
But ...
156
558930
1233
e como podemos tornar isto possível para eles?
09:20
Here is a large
157
560863
2434
Bem, Karya é uma dessas formas
09:23
literate population that wants to work, right,
158
563330
4133
pela qual esta população pode se conectar ao mundo digital
09:27
and how can we make this possible for them?
159
567497
2766
e bem,
09:30
So Karya is one such way
160
570297
3500
através dela encontrar e fazer tarefas que possam então fazê-los ganhar dinheiro.
09:33
through which this population can get on to the digital world
161
573830
4033
Vimos isto e pensamos, nossa, isto é maravilhoso.
09:37
and, you know,
162
577863
1434
Talvez poderíamos usar isto para coleção de dados.
09:39
through that find work and do tasks that can then earn them money.
163
579330
4433
Então fomos para Amale
uma pequena aldeia de 200 pessoas
09:43
So we saw this and we thought, oh, this is wonderful.
164
583797
2500
no distrito Wada de Maharashtra
09:46
We could probably use this for data collection as well.
165
586330
2600
e decidimos usar Karya para coletar dados de marathi.
09:48
So we went to Amale,
166
588963
2000
09:50
which is a small village of 200 people
167
590997
3266
Sei o que estão pensando
Tenho certeza muitos falantes de marathi também no auditório
09:54
in the Wada district of Maharashtra
168
594297
1933
que marathi não é uma língua com poucos recursos.
09:56
and decided to use Karya to collect Marathi data.
169
596263
2667
Marathi é com certeza um idioma importante do país.
09:58
Now, I know what you are thinking --
170
598963
1900
10:00
I'm sure a lot of Marathi speakers also in the audience --
171
600930
2767
Mas a tecnologia de linguagem conta marathi como língua com pouco recursos
10:03
that Marathi is not a low-resource language.
172
603697
2400
10:06
Marathi is definitely a mainstream language of the country.
173
606130
3600
Então fomos à esta aldeia
e tivemos grande sucesso no passeio de coleta de dados.
10:09
But as far as language technology is concerned,
174
609763
2500
e, bem, está aldeia é bem remota.
10:12
Marathi is a low-resource language.
175
612297
2333
10:14
So we went to this village
176
614663
1600
Eles não tem TV nem eletricidade,
10:16
and we had a very successful data-collection trip.
177
616297
3800
eles não tem sinal de celular.
10:20
And, you know, this village is very remote.
178
620130
3567
Você tem que subir uma colina e balançar seu celular
10:23
They have no TV, they have no electricity,
179
623697
2700
se você quiser usar seu celular para ligar para alguém.
10:26
they have no mobile signal.
180
626430
3833
Eles nos deram todos estes dados.
10:30
You have to climb a hill and wave your phone around
181
630297
2633
Mas mais que isso, eles nos deram lições de vida bem valorosas.
10:32
if you want to, you know, use your mobile to call anyone.
182
632963
3200
Uma é este orgulho de seu próprio idioma
10:37
So they gave us all this data.
183
637197
1766
As pessoas de Amale estavam felizes por fazer isto,
10:38
But more than that, they gave us very valuable lessons in life.
184
638997
3266
pois estavam evoluindo seu idioma fazendo isto.
10:43
One is this pride in one's own language.
185
643063
3000
10:46
The people of Amale were thrilled to be doing this
186
646063
2667
A segunda foi o valor de comunidade.
10:48
because they were advancing their own language by doing this.
187
648763
5834
Rapidamente, isto se tornou um esforço de toda a aldeia.
As pessoas se juntavam para as tarefas e as faziam juntas em grupo.
10:54
The second was the value of community.
188
654630
1833
10:56
Very quickly, this became a village community effort.
189
656497
3900
e a segunda é a importância de contar histórias.
11:00
People would gather together in tasks and do this together as a group.
190
660430
4867
O povo de Amale estavam tão ávidos por conteúdo que durante todo o dia,
11:05
And the third is the importance of storytelling.
191
665330
3767
gravavam histórias em karya
11:09
People of Amale were so starved of content that in the morning, during the daytime,
192
669130
6067
e então durante a noite eles reuniam toda a aldeia
e recontavam essas histórias para a aldeia
11:15
they would do recordings of stories in Karya
193
675197
4066
11:19
and then in the evening they would gather the entire village
194
679297
2833
Nós como cientistas nos concentramos
na parte cientifica e tecnológica do que estamos fazendo,
11:22
and retell and recount these stories to the village.
195
682163
3834
qual é o próximo melhor modelo a usar
11:27
So as scientists, we get so caught up
196
687563
2167
como podemos aumentar a precisão do meu sistema,
11:29
in the science and technology part of what we are doing, you know --
197
689763
3700
como posso melhorar o próximo sistema
11:33
which is the next best model to have,
198
693497
1966
e acabamos esquecendo o porquê de estarmos fazendo isto: as pessoas.
11:35
how can we increase the accuracy of my system,
199
695497
2933
11:38
how can I build the next best system there is --
200
698463
4600
e a tecnologia de sucesso é aquela que mantem as pessoas e os usuários
11:43
that we forget the reason why we are doing this: the people.
201
703063
3700
frente a frente e centrados.
11:46
And any successful technology is the one that keeps the people and the users
202
706797
5466
E quando começam a fazer isto,
percebemos que a tecnologia é talvez uma parte bem pequena disto
e que há outras coisas na história.
11:52
up front and center.
203
712297
1566
Talvez existam intervenções sociais, culturais e politicas
11:54
And when they start doing that,
204
714830
1533
11:56
we also realize that technology is probably a very small part of this
205
716363
3667
que são tão necessárias quanto a tecnologia.
12:00
and there are other things in the story.
206
720030
2367
Um tempo atrás, trabalhei num projeto chamado VideoKheti
12:02
Maybe there are social, cultural and policy interventions
207
722430
3333
que permitia agricultores falantes de hindi na Índia Central
12:05
that are required, as much as technology.
208
725797
2200
a buscar vídeos de agricultura falando com um app de celular.
12:09
So some time back, I worked on a project called VideoKheti
209
729030
3267
12:12
that allowed Hindi-speaking farmers in Central India
210
732330
3600
Fomos a Madhya Pradesh para coletar dados para isto,
12:15
to search for agricultural videos by speaking into a phone-based app.
211
735963
6667
e voltamos e estávamos treinando nossos modelos
e descobrimos que obtínhamos péssimos resultados.
12:23
So we went to Madhya Pradesh to collect data for this,
212
743363
3434
Isto não está funcionando.
Então ficamos confusos. O que está acontecendo?
12:26
and we came back and we were training our models
213
746830
2300
Analisamos com mais profundidade os dados
e descobrimos que, de fato, coletamos os dados
12:29
and we discovered we're getting very bad results.
214
749163
2367
12:31
This is not working.
215
751530
1267
do que pensávamos que era uma aldeia quieta e silenciosa durante a noite.
12:32
So we were very confused. Why is this happening?
216
752830
2267
12:35
So we looked deeper and deeper into the data
217
755130
2267
Mas o que não havíamos escutado enquanto fazíamos isto
12:37
and discovered that, yes, we had collected data
218
757430
2233
12:39
from what we thought was a very silent, quiet village in the evening.
219
759697
4666
eram os barulhos constante dos insetos noturnos
Durante as gravações, nós tínhamos esse “bzz” dos insetos,
12:44
But what we hadn't heard while we were doing this
220
764363
3400
que estava distorcendo nossa fala.
12:47
was that there was this constant buzz of night insects, you know?
221
767797
4100
A segunda coisa foi que ao irmos lá
12:51
So throughout the recordings, we had this "bzz" of the insects,
222
771930
3467
para iniciar os testes do nosso app na aldeia,
12:55
which was actually distorting our speech.
223
775430
2533
Eu e meu colega de trabalho Indrani Medhi,
12:58
The second thing was that when we went there
224
778797
2233
que é um pesquisador de design ilustre,
13:01
to kind of test our app in the village,
225
781030
3867
descobrimos que as mulheres não conseguiam pronunciar as palavras em sânscrito
13:04
I and my colleague Indrani Medhi,
226
784930
2533
13:07
who is a very well-regarded design researcher,
227
787497
3600
que nós tínhamos entre os termos da pesquisa.
Por exemplo:
13:11
we found that the women couldn't pronounce the sanskritized words
228
791130
4400
(falando em hindi)
13:15
that we had for some of the search terms.
229
795530
2767
Que é tipo o termo correto para inseticidas químicos?
13:18
So, like ...
230
798330
1500
Como nós pegamos esses termos do centro de extensão agrícola
13:21
(speaks Hindi)
231
801663
2800
13:24
Which is like the term for chemical pesticides, right?
232
804497
3866
as mulheres, apesar de trabalharem na fazenda
elas não interagem com aquele centro.
13:28
Because we got these terms from the agricultural extension center
233
808363
5534
Os homens que interagem, as mulheres usam algo muito mais simples, como...
13:33
and the women, even though they are farming,
234
813930
2100
(falando em hindi)
Que basicamente significa, matar pestes com remédio.
13:36
do not interact with that center at all.
235
816030
2867
13:38
The men do, the women probably use something much simpler, like ...
236
818930
3967
O que eu aprendi durante minha jornada
13:42
(speaks Hindi)
237
822930
1300
e o que eu gostaria de lhes passar
13:44
Which basically means killing pests with medicine.
238
824263
3534
espero que tenham me entendido até agora,
13:48
So what I have learned through my journey
239
828430
3867
é que a maioria dos idiomas do mundo
13:52
and what I would like to put across to you --
240
832330
2900
que exigem investimentos intensivos para criação de recursos
13:55
by now, I hope you've understood me,
241
835263
2000
se quiserem se beneficiar da tecnologia de linguagem
13:57
is that there is the majority of the world's languages
242
837297
3433
e isto é bem improvável de acontecer de forma rápida e eficiente.
14:00
that require intensive investment for resource creation
243
840763
4267
14:05
if they are to benefit from language technology.
244
845030
2567
É de extrema importância que nós garantamos
14:07
And this is unlikely to happen in a very fast and efficient manner.
245
847630
5367
que a comunidade se beneficiará ao máximo
do que for estivermos fazendo na área de tecnologia de linguagem.
14:13
So it is extremely important for us to ensure
246
853963
2934
14:16
that the community derives maximum benefit
247
856930
3533
E para fazer isso e levar um impacto social positivo
nessas comunidades,
14:20
from whatever that we are doing in the language tech area.
248
860497
3966
seguimos a metodologia de pensamento que chamamos de design dos 4-D.
14:24
And to do this and deliver a positive social impact
249
864497
3466
Bem os 4-D significam: descobrir, projetar, desenvolver e implantar.
14:27
on these communities,
250
867997
1466
14:29
we follow what we call the modified 4-D design thinking methodology.
251
869497
4733
Descubram o problema que a tecnologia de linguagem possa resolver
14:34
So the 4-D means: discover, design, develop and deploy.
252
874263
5200
para uma comunidade linguística.
Esta abordagem observacional pode ajudar a alocar os recursos
14:39
So discover the problem that language technology can solve
253
879497
3066
onde eles são mais necessitados
projetado para os usuários e seus idiomas,
14:42
for a particular language community.
254
882563
2200
14:44
This observation-led approach can help allocate resources
255
884797
3233
entender a diversidade nas propriedades linguísticas
e os idiomas do mundo.
14:48
where they are most needed,
256
888030
1700
14:49
designed for the users and their language,
257
889763
2767
E não pense que isto foi feito para o inglês.
Não tem como só adaptar para marathi ou gondi, né ?
14:52
understand the diversity in the linguistic properties
258
892530
3367
14:55
and the languages of the world.
259
895930
2100
Desenvolver rapidamente e entregar frequentemente.
14:58
And don't think, oh, this is made for English.
260
898030
2400
É um processo iterativo que vai ajudar a errar logo
15:00
Now, how can we just adapt it for Marathi or for Gondi, right?
261
900463
4334
e erros precoces ao final levam ao sucesso.
15:04
Develop rapidly and deploy frequently.
262
904830
2600
15:07
It's an iterative process that will help you fail fast
263
907463
3500
O mais importante é perseverar.
Não desistir.
15:10
and early failures will eventually lead to success.
264
910997
3366
E eu me lembro a história dessas duas mulheres aborígines australianas
15:15
The important thing is to persevere.
265
915497
1966
Patricia O’Connor and Ysola Best.
15:17
Do not give up.
266
917497
1366
15:18
And I remember the story of these two Aborigine Australian women,
267
918863
5734
Nos meados dos anos 90, elas foram á Universidade de Queensland
15:24
Patricia O'Connor and Ysola Best.
268
924630
3800
e queriam aprender seu próprio idioma chamado Yugambeh,
e foram informadas “O idioma de vocês está morto.
15:29
In the mid-90s, they went to the University of Queensland
269
929763
3134
Faz 3 décadas que está morto.
15:32
and they wanted to learn their own language, called Yugambeh,
270
932930
3333
Você não podem trabalhar nisto. Encontrem outra coisa para trabalhar.”
Elas nunca desistiram.
15:36
and they were told very bluntly, "Your language is dead.
271
936297
2633
Elas foram para a comunidade,
15:38
It's been dead for three decades.
272
938963
1600
elas desvendaram memorias orais, tradições orais, literatura oral,
15:40
You cannot work on this. Find something else to work on."
273
940563
3867
e fundaram o Museu de Yugambeh,
15:44
They did not give up.
274
944463
1267
15:45
They went to the community,
275
945763
1600
15:47
they dug up oral memories, oral traditions, oral literature,
276
947363
4867
que se tornou o mais importante centro cultural e linguístico para o idioma
15:52
and founded the Yugambeh Museum,
277
952263
3367
e sua comunidade.
Elas não possuíam tecnologia. Elas somente tinham sua força de vontade.
15:55
which became the most important cultural and linguistic center for the language
278
955663
5434
Agora, com o poder da tecnologia,
nós podemos garantir que a próxima pagina seja escrita em salmi do finlandês,
16:01
and its community.
279
961130
1767
16:02
They did not have technology. They only had their willpower.
280
962930
4033
16:06
Now, with the power of technology,
281
966997
2233
lillooet do Canada ou mundari da Índia.
16:09
we can ensure that the next page is written in Salmi from Finland,
282
969263
5767
Muito obrigada.
16:15
Lillooet from Canada or Mundari from India.
283
975030
3467
16:19
Thank you.
284
979163
1000
Sobre este site

Este site apresentará a você vídeos do YouTube que são úteis para o aprendizado do inglês. Você verá aulas de inglês ministradas por professores de primeira linha de todo o mundo. Clique duas vezes nas legendas em inglês exibidas em cada página de vídeo para reproduzir o vídeo a partir daí. As legendas rolarão em sincronia com a reprodução do vídeo. Se você tiver algum comentário ou solicitação, por favor, entre em contato conosco usando este formulário de contato.

https://forms.gle/WvT1wiN1qDtmnspy7