Kalika Bali: The giant leaps in language technology -- and who's left behind | TED

54,150 views ・ 2021-04-26

TED


Por favor, faça duplo clique nas legendas em inglês abaixo para reproduzir o vídeo.

00:00
Transcriber:
0
0
7000
Tradutor: Ana Sofia Ferreira Revisora: Margarida Ferreira
00:12
I'm Kalika Bali, I'm a linguist by training
1
12430
2800
O meu nome é Kalika Bali. Sou linguista de formação
00:15
and a technologist by profession,
2
15263
2334
e tecnóloga de profissão.
00:17
I have worked in academia,
3
17630
1667
Trabalhei na universidade,
00:19
in startups, in small companies and multinationals for over two decades,
4
19330
5267
em “start-ups”, em pequenas empresas e em multinacionais
durante de 20 anos,
00:24
doing research in and building language technology systems.
5
24630
3733
a fazer pesquisa e a construir sistemas de tecnologia de linguagem.
00:28
My dream is to see technology work across the language barrier.
6
28363
4667
O meu sonho é ver a tecnologia a trabalhar na barreira linguística.
00:33
As a researcher at Microsoft Research Labs India
7
33030
3100
Como investigadora na Microsoft Research, na Índia,
00:36
I work in the field of language technology and speech technology.
8
36163
5534
trabalho na área das tecnologias da linguagem e da fala.
00:41
And I worry about how can we make technology accessible
9
41697
3600
E preocupo-me em tornar acessível a tecnologia
00:45
to people across the board,
10
45330
2200
a toda a gente,
00:47
you know, irrespective of the language that they speak.
11
47530
2967
independentemente da língua que falem.
00:51
So natural language processing,
12
51663
1600
O processamento da língua natural
00:53
artificial intelligence, speech technology,
13
53297
2066
da inteligência artificial, e da tecnologia da fala,
00:55
these are very big words, they are buzzwords right now.
14
55363
2600
são tudo palavras de ordem hoje em dia.
00:57
Everybody is talking about what exactly is NLP or natural language processing.
15
57997
5533
Toda a gente fala do que é a PLN, o processamento de língua natural.
01:03
So in very simple terms,
16
63530
1533
Então, em termos simples,
01:05
this is the part of computer science engineering
17
65063
3367
esta é a parte da engenharia informática
01:08
that makes machines process,
18
68463
2834
que faz com que as máquinas processem,
01:11
understand and generate natural language,
19
71330
2967
compreendam e originem linguagem natural,
01:14
which is the language that humans speak.
20
74330
2233
que é a linguagem que os seres humanos falam.
01:17
When you are interacting with a bot trying to book your train tickets
21
77697
4700
Quando interagimos com um robô para reservar bilhetes de comboio
01:22
or flight tickets,
22
82430
1267
ou bilhetes de avião,
01:23
when you are speaking to a voice-based digital assistant in your phone,
23
83697
4833
quando falamos com um assistente digital à base de voz no telemóvel,
01:28
it's natural language processing
24
88530
1600
é o processamento de língua natural
01:30
that underpins the entire technology that makes that work.
25
90163
3534
que sustenta toda a tecnologia que permite que isso funcione.
01:34
But how does this work?
26
94797
1266
Mas como funciona? Como funciona a PLN?
01:36
How does NLP work?
27
96063
1567
01:37
In a very, very basic way,
28
97663
3900
De forma muito, muito simplificada,
01:41
it's about data.
29
101563
1800
tem a ver com dados.
01:43
So a huge amount of data of how actually humans use language
30
103363
6334
Uma grande quantidade de dados sobre como os humanos usam a linguagem
01:49
is then processed by certain algorithms and techniques
31
109697
5166
é processada por certos algoritmos e técnicas
01:54
that make the machines learn the patterns
32
114863
2767
que fazem as máquinas aprenderem os padrões
01:57
of natural language of humans, right?
33
117663
3700
da linguagem natural dos seres humanos.
02:01
These days, another buzzword that you hear a lot about is deep neural networks.
34
121363
5367
Atualmente, outra palavra de ordem muito ouvida é “redes neurais profundas”.
02:06
And these are the advanced techniques
35
126763
2467
São técnicas avançadas
02:09
that underpin a lot of the NLP stuff that happens right now.
36
129263
4134
que estão na base de grande parte do PLN.
02:13
And I will not go into the details of how that works,
37
133430
3333
Não vou entrar em detalhes sobre como funciona,
02:16
but the thing that you really have to understand and keep in mind
38
136797
3400
mas aquilo que têm de perceber e ter em conta
02:20
is that all of this requires a humungous amount of data,
39
140197
5000
é que tudo isto requer uma enormíssima quantidade de dados,
02:25
natural language data.
40
145197
1666
dados de linguagem natural.
02:26
If you want a speech system to converse with you in Gujarati,
41
146863
5267
Se quisermos que um sistema de voz fale connosco em guzerate,
02:32
the first thing you require
42
152163
1367
primeiro precisamos
02:33
is a lot of data of Gujarati people speaking to each other
43
153530
4533
de muitos dados de pessoas guzerate a falarem entre si
02:38
in their own language.
44
158063
1867
na sua língua.
02:41
So 2017, Microsoft came up with a speech recognition system
45
161663
4734
Em 2017, a Microsoft criou um sistema de reconhecimento de fala,
02:46
which was able to transcribe speech into text
46
166430
3600
capaz de transcrever fala para texto
02:50
better than a human did.
47
170030
1733
melhor do que um ser humano faz.
02:52
And this system was trained
48
172563
3167
Este sistema foi treinado
02:55
on 200 million transcribed words.
49
175763
2667
com 200 milhões de palavras transcritas.
02:58
In 2018, an English-Chinese machine translation system
50
178463
3967
Em 2018, um sistema de tradução automática inglês-chinês
03:02
was able to translate from English to Chinese
51
182463
2800
foi capaz de traduzir de inglês para chinês
03:05
as well as any human bilingual could.
52
185297
2766
tal como qualquer pessoa bilingue.
03:08
And this was trained on 18 million bilingual sentence pairs.
53
188063
4934
Isso foi treinado em 18 milhões de pares de frases bilingues.
03:14
This is a very, very exciting time in natural language processing
54
194330
4433
Isto é um momento muito empolgante no processamento de linguagem natural
03:18
and in technology as such.
55
198797
1466
e na tecnologia.
03:20
You know, we are seeing science fiction, which we had read about and watched,
56
200297
4466
Estamos a assistir a ficção científica que lemos
03:24
kind of come true in front of our own eyes.
57
204797
2833
e vimos tornar-se realidade à frente dos nossos olhos.
03:27
We are making giant leaps in technical advancement.
58
207663
4467
Estamos a dar saltos gigantes no avanço técnico.
03:32
But these giant leaps are limited to very few languages.
59
212163
6234
Mas estes saltos gigantes estão limitados a muito poucas línguas.
03:38
So Monojit Choudhury,
60
218430
1300
Monojit Choudhury, um grande amigo meu e colega,
03:39
who's like a very good friend of mine
61
219763
1867
03:41
and a colleague,
62
221663
2134
03:43
he has studied this in some detail
63
223830
1733
estudou isto detalhadamente
03:45
and he has looked at resource distribution across languages in the world.
64
225563
4067
e olhou para a distribuição de recursos pelas línguas do mundo.
03:49
And he says that these follow what is called a power-law distribution,
65
229663
4100
Ele diz que os recursos seguem o que se chama
distribuição da lei de potência,
03:53
which essentially means that there are four languages,
66
233797
2766
o que significa essencialmente que há quatro línguas,
03:56
Arabic, Chinese, English and Spanish,
67
236563
2700
árabe, chinês, inglês e espanhol,
03:59
which have the maximum amount of resources available.
68
239297
3766
que têm o máximo de recursos disponíveis.
04:03
There are another handful of languages which can also benefit from, you know,
69
243063
5167
Há outras línguas que também podem beneficiar
dos recursos e das tecnologias disponíveis neste momento.
04:08
the resources and the technology that's available right now.
70
248263
3834
04:12
But there are 90 percent of the world's languages
71
252130
4833
Mas cerca de 90% das línguas mundiais
04:16
which have no resources
72
256997
1800
não têm recursos
04:18
or very little resources available.
73
258830
2067
ou têm muito poucos recursos disponíveis.
04:20
This revolution that we are talking about
74
260930
2667
Esta revolução de que falamos
04:23
has essentially bypassed 5,000 languages of the world.
75
263630
4100
essencialmente deixou de fora 5000 línguas no mundo.
04:27
Now, what this means is that resource-rich languages
76
267763
2534
O que significa é que as línguas ricas em recursos
04:30
have technologies built for them,
77
270330
1800
têm tecnologias criadas para elas,
04:32
so researchers and technologists get attracted towards them.
78
272163
3267
portanto os investigadores e tecnólogos são atraídos para elas.
04:35
They build more technologies for them. They create more resources.
79
275463
3500
Constroem mais tecnologias para elas. Criam mais recursos.
04:38
So it's like a rich getting richer kind of a cycle.
80
278997
2800
É como um ciclo em que os ricos ficam mais ricos.
04:41
And the resource-poor languages stay poor,
81
281830
2400
E as línguas pobres em recursos continuam pobres,
04:44
there's no technology for them, nobody works for them.
82
284263
2600
não há tecnologia para elas, ninguém trabalha com elas.
04:46
And this divide, digital divide between languages
83
286863
3400
E esta divisão digital entre línguas
04:50
is ever-expanding
84
290297
1500
está em constante expansão
04:51
and by implication also the divide between the communities
85
291830
4633
e, implicitamente, também está em expansão a divisão entre comunidades
04:56
that speak these languages is expanding.
86
296497
2500
que falam essas ínguas.
05:00
So in Microsoft, in Project Ellora, we aim to bridge this gap.
87
300763
4767
Na Microsoft, no Projeto Ellora, visamos colmatar essa lacuna.
05:06
We are trying to see how can we create more data by innovative methods,
88
306663
5567
Estamos a tentar ver como podemos criar mais dados com métodos inovadores,
05:12
have more techniques to build technology without having a lot of resources,
89
312263
5800
ter mais técnicas para construir tecnologia sem ter muitos recursos,
05:18
and what are the applications that can truly benefit these communities.
90
318063
4200
e quais as aplicações que podem beneficiar essas comunidades.
05:23
So at the moment, this might seem very theoretical,
91
323463
3334
Neste momento, isto pode parecer muito teórico,
05:26
like what is he talking about, data and techniques and technology.
92
326830
3133
— de que é que ela está a falar? — dados, técnicas e tecnologias.
05:29
So let me give you a very concrete example here.
93
329997
3066
Por isso, vou dar-vos um exemplo muito concreto.
05:33
I'm a linguist at heart, I love languages, and that's what I love talking about.
94
333063
5300
No fundo, sou uma linguista por amor,
adoro línguas e é disso que gosto de falar.
05:38
So let me tell you about a language that many of you might not know about.
95
338363
4367
Portanto vou falar-vos de uma língua que muitos de vocês não conhecem.
05:42
Gondi.
96
342763
1267
O gondi.
05:44
Gondi is a South-Central Dravidian language.
97
344030
2700
O gondi é uma língua dravídica sul-central.
05:46
It is spoken by three million people in five states of India.
98
346763
4434
É falada por mais de 3 milhões de pessoas em cinco estados da Índia.
05:51
And to put this in some kind of perspective,
99
351197
3000
E para pôr isso em perspetiva,
05:54
Norwegian is spoken by five million people
100
354197
2833
o norueguês é falado por cinco milhões de pessoas
05:57
and Welsh by a little under a million.
101
357030
2933
e o galês por quase um milhão.
05:59
So Gondi is actually a pretty robust and pretty large community
102
359997
6200
Portanto, Gondi é uma comunidade bastante grande e robusta
06:06
of the Gond tribals in India.
103
366197
2900
das tribos Gond na Índia.
06:09
But by UNESCO's Atlas of Languages in Danger,
104
369130
5067
Mas pelo Atlas Mundial das Línguas em Perigo, da UNESCO,
06:14
Gondi is designated vulnerable status.
105
374197
4366
o Ggondi está classificado em estado vulnerável.
06:19
CGNet Swara is an NGO that provides a citizen journalism portal
106
379030
4533
A CGNet Swara é uma ONG que oferece um portal de jornalismo-cidadão
06:23
for the Gond community
107
383563
1867
à comunidade gond
06:25
by making local stories accessible through mobile phones.
108
385463
4234
tornando histórias locais acessíveis nos telemóveis.
06:29
There's absolutely no tech support for Gondi.
109
389697
2933
Não há qualquer apoio tecnológico para o gondi.
06:32
There is no data available for Gondi, no resources available for Gondi.
110
392663
4800
Não há dados, não há recursos disponíveis para o gondi.
06:37
So all content that is created, moderated and edited is done manually.
111
397497
5066
Então todo o conteúdo é criado, moderado e editado manualmente.
06:42
Now, under Project Ellora,
112
402563
2067
No Projeto Ellora,
06:44
what we did was that we brought together all the stakeholders,
113
404663
2967
o que nós fizemos foi reunir todas as partes interessadas,
06:47
an NGOs like CGNet Swara,
114
407663
1800
ONGs como a CGNet Swara,
06:49
and academic institutions, like IIIT Naya Raipur,
115
409497
3366
e instituições académicas, como o IIIT Naya Raipur,
06:52
a not-for-profit children's book publisher,
116
412863
2200
uma editora infantil sem fins lucrativos, como a Pratham Books,
06:55
like Pratham Books,
117
415063
1300
06:56
and most importantly, the speakers of the community.
118
416363
2434
e, mais importante ainda, os porta-vozes da comunidade.
06:58
The Gond tribals themselves participated in this activity
119
418830
4933
As próprias tribos gond participaram nesta atividade
07:03
and for the first time edited and translated children’s books in Gondi.
120
423797
5633
e, pela primeira vez, editou e traduziu livros infantis em gondi.
07:09
We were able to put out 200 books for the very first time in Gondi,
121
429463
5334
Conseguimos publicar 200 livros pela primeira vez em gondi
07:14
so that the children had access to stories and books in their own language.
122
434830
4700
para as crianças terem acesso a histórias e livros na sua própria língua.
07:19
Another extension of this was Adivasi Radio,
123
439530
2267
Outra extensão disto foi a Rádio Adivasi,
07:21
which was like an app that we built and developed in Microsoft Research,
124
441830
4033
uma espécie de aplicação que construímos e desenvolvemos na Microsoft Research,
07:25
and then put out there, along with our stakeholders,
125
445863
4567
e lançámos, juntamente com os nossos parceiros,
07:30
which takes a Hindi text-to-speech system
126
450463
3067
que pega num sistema de tradução de texto para fala em hindi
07:33
and allows it to read out news and articles provided by CGNet Swara
127
453530
6400
e possibilita a leitura em voz alta de notícias e artigos da CGNet Swara
07:39
in Gondi language.
128
459963
2434
em língua gondi.
07:42
Users can now use this app to read,
129
462430
2767
Os utilizadores podem usar esta aplicação
07:45
watch news and access any information
130
465197
3433
para ler, para ver notícias e para aceder a quaisquer informações
07:48
through text and voice in their own language.
131
468663
3900
através de texto e voz na sua própria língua.
07:52
A very interesting thing is that this app is now being used to translate --
132
472563
3634
O que é interessante é que esta aplicação está a ser usada
pela comunidade para traduzir texto de hindi para gondi.
07:56
by the community to translate text from Hindi to Gondi.
133
476197
4833
08:01
Now, what that will result in is a lot of parallel data,
134
481030
3333
Isto vai originar imensos dados paralelos,
08:04
that we call parallel data,
135
484363
1534
a que chamamos dados paralelos,
08:05
that will allow us to build machine translation systems for Gondi,
136
485930
3500
que nos vão permitir construir sistemas de tradução automática para gondi,
08:09
which will truly open up a window for the Gond community to the world.
137
489463
5900
o que vai abrir a janela da comunidade gond para o mundo.
08:15
And what is even more important is now we know how to do this.
138
495363
3567
E o que é ainda mais importante é que agora sabemos como o fazer.
08:18
We have the entire pipeline and we can replicate this for any language
139
498963
4600
Temos todo este canal e podemos replicá-lo a qualquer língua
08:23
and any language community
140
503563
1900
e a qualquer comunidade linguística
08:25
which is in a similar situation as the Gond tribals.
141
505497
3033
que esteja numa situação semelhante à das tribos gond.
08:29
Also education -- yes, you know, information access -- yes,
142
509630
4833
Também o ensino — sim, o acesso à informação,
08:34
but what about earning a living?
143
514497
2700
mas e quanto e ganhar a vida?
08:37
Right? What about -- how can we make these people earn a living
144
517830
4200
Como podemos fazer com que estas pessoas ganhem a vida
08:42
through the digital tools that all of us just take for granted these days?
145
522030
3867
com as ferramentas digitais que todos tomamos como garantidas hoje em dia?
08:45
Vivek Seshadri, who's another researcher at MSR,
146
525930
2533
Vivek Seshadri, outro investigador no MSR,
08:48
and his collaborator, Manu Chopra,
147
528497
2100
e o seu colaborador, Manu Chopra,
08:50
they've designed a platform called Karya
148
530630
2500
conceberam uma plataforma chamada Karya
08:53
for providing digital microtasks to the underserved communities.
149
533163
4600
para fornecer microtarefas digitais às comunidades menos favorecidas.
08:57
His aim was basically to find a way to provide a means of dignified labor
150
537797
5433
O objetivo dele é encontrar uma forma de proporcionar um meio de trabalho digno
09:03
to the populations, the rural populations
151
543263
2034
às populações, às populações rurais
09:05
and the urban poor populations of this country.
152
545330
2300
e às populações urbanas pobres deste país
09:08
They don't have access to all the knowledge
153
548530
3000
que não têm acesso a todo o conhecimento
09:11
to use the digital platforms
154
551530
2567
para usar as plataformas digitais
09:14
that all of us use every day without even thinking, right?
155
554130
4200
que nós usamos todos os dias até sem pensar, certo?
09:18
But ...
156
558930
1233
Mas...
09:20
Here is a large
157
560863
2434
Há aqui uma larga população instruída que quer trabalhar.
09:23
literate population that wants to work, right,
158
563330
4133
09:27
and how can we make this possible for them?
159
567497
2766
Como podemos possibilitar-lhes isso?
09:30
So Karya is one such way
160
570297
3500
A Karya é uma dessas formas
09:33
through which this population can get on to the digital world
161
573830
4033
através da qual esta população pode chegar ao mundo digital
09:37
and, you know,
162
577863
1434
e, através disso encontrar trabalho
09:39
through that find work and do tasks that can then earn them money.
163
579330
4433
e fazer tarefas em que podem gerar dinheiro.
09:43
So we saw this and we thought, oh, this is wonderful.
164
583797
2500
Então vimos isto e pensámos: “Isto é maravilhoso.
09:46
We could probably use this for data collection as well.
165
586330
2600
“Também devemos poder usar isto para recolha de dados.”
09:48
So we went to Amale,
166
588963
2000
Então fomos até Amale,
09:50
which is a small village of 200 people
167
590997
3266
uma pequena aldeia de 200 pessoas,
09:54
in the Wada district of Maharashtra
168
594297
1933
no distrito de Wada de Maharashtra
09:56
and decided to use Karya to collect Marathi data.
169
596263
2667
e decidimos usar a Karya para recolher dados de marata.
09:58
Now, I know what you are thinking --
170
598963
1900
Eu sei o que estão a pensar.
10:00
I'm sure a lot of Marathi speakers also in the audience --
171
600930
2767
De certeza que há muitas pessoas que falam marata no público.
10:03
that Marathi is not a low-resource language.
172
603697
2400
O marata não é uma língua com poucos recursos.
10:06
Marathi is definitely a mainstream language of the country.
173
606130
3600
O marata é, sem dúvida, uma língua dominante do país
10:09
But as far as language technology is concerned,
174
609763
2500
Mas no que toca a tecnologia da linguagem,
10:12
Marathi is a low-resource language.
175
612297
2333
o marata é uma língua com poucos recursos.
10:14
So we went to this village
176
614663
1600
Então fomos a essa aldeia
10:16
and we had a very successful data-collection trip.
177
616297
3800
e tivemos muito sucesso a recolher dados.
10:20
And, you know, this village is very remote.
178
620130
3567
Esta aldeia é muito longínqua.
10:23
They have no TV, they have no electricity,
179
623697
2700
Não têm televisão, nem eletricidade,
10:26
they have no mobile signal.
180
626430
3833
nem rede de telemóvel.
10:30
You have to climb a hill and wave your phone around
181
630297
2633
Têm de subir uma colina e procurar com o telemóvel
10:32
if you want to, you know, use your mobile to call anyone.
182
632963
3200
para poderem ligar a alguém.
10:37
So they gave us all this data.
183
637197
1766
Deram-nos todas estas informações.
10:38
But more than that, they gave us very valuable lessons in life.
184
638997
3266
Mas, mais do que isso, deram-nos lições de vida muito valiosas.
10:43
One is this pride in one's own language.
185
643063
3000
Uma delas é o orgulho na própria língua.
10:46
The people of Amale were thrilled to be doing this
186
646063
2667
As pessoas de Amale estavam contentes por fazer isto
10:48
because they were advancing their own language by doing this.
187
648763
5834
porque ao fazê-lo estavam a promover a sua língua.
10:54
The second was the value of community.
188
654630
1833
A segunda é o valor da comunidade.
10:56
Very quickly, this became a village community effort.
189
656497
3900
Rapidamente, isto tornou-se um esforço comunitário da aldeia.
11:00
People would gather together in tasks and do this together as a group.
190
660430
4867
As pessoas reuniam-se em tarefas e faziam isto juntos, em grupo.
11:05
And the third is the importance of storytelling.
191
665330
3767
E o terceiro é a importância de contar histórias.
11:09
People of Amale were so starved of content that in the morning, during the daytime,
192
669130
6067
As pessoas de Amale estavam tão carentes de conteúdo que de manhã, durante o dia,
11:15
they would do recordings of stories in Karya
193
675197
4066
gravavam histórias na Karya
11:19
and then in the evening they would gather the entire village
194
679297
2833
e à noite reuniam a aldeia inteira
11:22
and retell and recount these stories to the village.
195
682163
3834
e voltavam a contar essas histórias à aldeia.
11:27
So as scientists, we get so caught up
196
687563
2167
Como cientistas, ficamos tão envolvidos
11:29
in the science and technology part of what we are doing, you know --
197
689763
3700
na parte científica e tecnológica do que fazemos,
11:33
which is the next best model to have,
198
693497
1966
em qual é o melhor modelo que se segue,
11:35
how can we increase the accuracy of my system,
199
695497
2933
como podemos aumentar a precisão do meu sistema,
11:38
how can I build the next best system there is --
200
698463
4600
como posso construir o melhor sistema seguinte.
11:43
that we forget the reason why we are doing this: the people.
201
703063
3700
que nos esquecemos da razão por que fazemos isto: as pessoas.
11:46
And any successful technology is the one that keeps the people and the users
202
706797
5466
E qualquer tecnologia de sucesso é aquela que mantém as pessoas e utilizadores
11:52
up front and center.
203
712297
1566
na linha da frente e no centro.
11:54
And when they start doing that,
204
714830
1533
Quando eles começaram a fazer isso,
11:56
we also realize that technology is probably a very small part of this
205
716363
3667
também percebemos que a tecnologia é provavelmente uma pequena parte disto
12:00
and there are other things in the story.
206
720030
2367
e que há outras coisas na história.
12:02
Maybe there are social, cultural and policy interventions
207
722430
3333
Talvez haja intervenções sociais, culturais e políticas
12:05
that are required, as much as technology.
208
725797
2200
que sejam necessárias, tal como a tecnologia.
12:09
So some time back, I worked on a project called VideoKheti
209
729030
3267
Há algum tempo trabalhei num projeto chamado VideoKheti
12:12
that allowed Hindi-speaking farmers in Central India
210
732330
3600
que permitia aos agricultores da Índia central de língua hindi
12:15
to search for agricultural videos by speaking into a phone-based app.
211
735963
6667
procurarem vídeos de agricultura falando para uma aplicação no telemóvel.
12:23
So we went to Madhya Pradesh to collect data for this,
212
743363
3434
Fomos até Madhya Pradesh para recolher dados para isto,
12:26
and we came back and we were training our models
213
746830
2300
e voltámos, treinámos os nossos modelos
12:29
and we discovered we're getting very bad results.
214
749163
2367
e descobrimos que obtínhamos resultados muito maus.
12:31
This is not working.
215
751530
1267
Não estava a funcionar.
12:32
So we were very confused. Why is this happening?
216
752830
2267
Ficámos muito confusos. Porque é que isso acontecia?
12:35
So we looked deeper and deeper into the data
217
755130
2267
Olhámos mais profundamente para os dados
12:37
and discovered that, yes, we had collected data
218
757430
2233
e descobrimos que sim, tínhamos recolhido dados
12:39
from what we thought was a very silent, quiet village in the evening.
219
759697
4666
numa aldeia que julgámos ser muito silenciosa à noite.
12:44
But what we hadn't heard while we were doing this
220
764363
3400
Mas o que não tínhamos ouvido enquanto o fazíamos
12:47
was that there was this constant buzz of night insects, you know?
221
767797
4100
era que havia um constante zumbido de insetos noturnos.
12:51
So throughout the recordings, we had this "bzz" of the insects,
222
771930
3467
Ao longo das gravações, tínhamos este “bzz” dos insetos,
12:55
which was actually distorting our speech.
223
775430
2533
que estava a distorcer a nossa fala.
12:58
The second thing was that when we went there
224
778797
2233
A segunda coisa é que, quando lá chegámos
13:01
to kind of test our app in the village,
225
781030
3867
para testar a nossa aplicação na aldeia,
13:04
I and my colleague Indrani Medhi,
226
784930
2533
eu e o meu colega Indrani Medhi,
13:07
who is a very well-regarded design researcher,
227
787497
3600
que é um conceituado investigador em “design”,
13:11
we found that the women couldn't pronounce the sanskritized words
228
791130
4400
descobrimos que as mulheres não conseguiam pronunciar as palavras em sânscrito
13:15
that we had for some of the search terms.
229
795530
2767
que nós tínhamos como alguns dos termos de pesquisa.
13:18
So, like ...
230
798330
1500
Por exemplo...
13:21
(speaks Hindi)
231
801663
2800
(fala em hindi)
13:24
Which is like the term for chemical pesticides, right?
232
804497
3866
que é o termo para pesticidas químicos.
13:28
Because we got these terms from the agricultural extension center
233
808363
5534
Obtivemos estes termos no centro de extensão agrícola
13:33
and the women, even though they are farming,
234
813930
2100
e as mulheres, embora estejam na agricultura,
13:36
do not interact with that center at all.
235
816030
2867
não interagem de todo com esse centro.
13:38
The men do, the women probably use something much simpler, like ...
236
818930
3967
Os homens sim.
As mulheres usam algo muito mais simples, como...
13:42
(speaks Hindi)
237
822930
1300
(fala em hindi)
13:44
Which basically means killing pests with medicine.
238
824263
3534
o que significa, basicamente, matar pragas com remédios.
13:48
So what I have learned through my journey
239
828430
3867
Portanto, o que aprendi no meu percurso
13:52
and what I would like to put across to you --
240
832330
2900
e o que gostava de vos transmitir
13:55
by now, I hope you've understood me,
241
835263
2000
— e espero que me tenham percebido até agora —
13:57
is that there is the majority of the world's languages
242
837297
3433
é que a maioria das línguas mundiais
14:00
that require intensive investment for resource creation
243
840763
4267
requerem um investimento intensivo para criação de recursos
14:05
if they are to benefit from language technology.
244
845030
2567
se quiserem tirar proveito da tecnologia linguística.
14:07
And this is unlikely to happen in a very fast and efficient manner.
245
847630
5367
E isto não acontecerá de uma forma muito rápida e eficiente.
14:13
So it is extremely important for us to ensure
246
853963
2934
É extremamente importante que possamos garantir
14:16
that the community derives maximum benefit
247
856930
3533
que a comunidade obtém o máximo benefício
14:20
from whatever that we are doing in the language tech area.
248
860497
3966
do que quer que façamos na área da tecnologia linguística.
14:24
And to do this and deliver a positive social impact
249
864497
3466
Para fazer isto e provocar um impacto social positivo
14:27
on these communities,
250
867997
1466
nestas comunidades
14:29
we follow what we call the modified 4-D design thinking methodology.
251
869497
4733
seguimos o que chamamos metodologia
de pensamento de “design” modificada a 4.D.
14:34
So the 4-D means: discover, design, develop and deploy.
252
874263
5200
Os 4-D significam: descobrir, “design”, desenvolver e implantar [deploy].
14:39
So discover the problem that language technology can solve
253
879497
3066
Descobrimos o problema que a tecnologia linguística pode resolver
14:42
for a particular language community.
254
882563
2200
numa determinada comunidade linguística.
14:44
This observation-led approach can help allocate resources
255
884797
3233
Esta abordagem por observação pode ajudar a afetar recursos
14:48
where they are most needed,
256
888030
1700
onde são mais necessários,
14:49
designed for the users and their language,
257
889763
2767
concebidos para os utilizadores e para a sua língua,
14:52
understand the diversity in the linguistic properties
258
892530
3367
compreender a diversidade nas propriedades linguísticas
14:55
and the languages of the world.
259
895930
2100
e nas línguas mundiais.
14:58
And don't think, oh, this is made for English.
260
898030
2400
E não pensem: “Isto foi feito para o inglês.
15:00
Now, how can we just adapt it for Marathi or for Gondi, right?
261
900463
4334
“Agora, como adaptar para o marathi ou para o gondi?”
15:04
Develop rapidly and deploy frequently.
262
904830
2600
Desenvolver rapidamente e implantar frequentemente
15:07
It's an iterative process that will help you fail fast
263
907463
3500
é um processo iterativo que vai ajudar-nos a falhar rapidamente
15:10
and early failures will eventually lead to success.
264
910997
3366
e os fracassos iniciais acabam por levar ao sucesso.
15:15
The important thing is to persevere.
265
915497
1966
O importante aqui é perseverar.
15:17
Do not give up.
266
917497
1366
Não desistir.
15:18
And I remember the story of these two Aborigine Australian women,
267
918863
5734
Lembro-me da história de duas mulheres aborígenes australianas,
15:24
Patricia O'Connor and Ysola Best.
268
924630
3800
a Patricia O’Connor e a Ysola Best.
15:29
In the mid-90s, they went to the University of Queensland
269
929763
3134
Em meados dos anos 90, foram para a Universidade de Queensland.
15:32
and they wanted to learn their own language, called Yugambeh,
270
932930
3333
Queriam aprender a sua língua, chamada yugambeh,
mas disseram-lhes sem rodeios:
15:36
and they were told very bluntly, "Your language is dead.
271
936297
2633
“A vossa língua está morta. Está morta há três décadas.
15:38
It's been dead for three decades.
272
938963
1600
15:40
You cannot work on this. Find something else to work on."
273
940563
3867
“Não podem trabalhar nisso. Encontrem outra coisa.”
15:44
They did not give up.
274
944463
1267
Elas não desistiram.
15:45
They went to the community,
275
945763
1600
Foram à comunidade,
15:47
they dug up oral memories, oral traditions, oral literature,
276
947363
4867
desenterraram memórias orais, tradições orais, literatura oral,
15:52
and founded the Yugambeh Museum,
277
952263
3367
e fundaram o Museu Yugambeh,
15:55
which became the most important cultural and linguistic center for the language
278
955663
5434
que se tornou o mais importante centro cultural e linguístico da língua
16:01
and its community.
279
961130
1767
e da comunidade.
16:02
They did not have technology. They only had their willpower.
280
962930
4033
Elas não tinham tecnologia. Só tinham força de vontade.
16:06
Now, with the power of technology,
281
966997
2233
Agora, com o poder da tecnologia,
16:09
we can ensure that the next page is written in Salmi from Finland,
282
969263
5767
podemos assegurar que a próxima página está escrita em Salmi da Finlândia,
16:15
Lillooet from Canada or Mundari from India.
283
975030
3467
em Lillooet do Canadá ou em Mundari da Índia.
16:19
Thank you.
284
979163
1000
Obrigada.
Sobre este site

Este sítio irá apresentar-lhe vídeos do YouTube que são úteis para a aprendizagem do inglês. Verá lições de inglês ensinadas por professores de primeira linha de todo o mundo. Faça duplo clique nas legendas em inglês apresentadas em cada página de vídeo para reproduzir o vídeo a partir daí. As legendas deslocam-se em sincronia com a reprodução do vídeo. Se tiver quaisquer comentários ou pedidos, por favor contacte-nos utilizando este formulário de contacto.

https://forms.gle/WvT1wiN1qDtmnspy7