Kalika Bali: The giant leaps in language technology -- and who's left behind | TED

54,015 views

2021-04-26 ・ TED


New videos

Kalika Bali: The giant leaps in language technology -- and who's left behind | TED

54,015 views ・ 2021-04-26

TED


Veuillez double-cliquer sur les sous-titres anglais ci-dessous pour lire la vidéo.

00:00
Transcriber:
0
0
7000
Traducteur: Eloïse Delarue Relecteur: Elisabeth Buffard
Je m’appelle Kalika Bali, je suis linguiste de formation
et technologue de métier.
J’ai travaillé dans l’éducation,
dans des start-up, dans des petite entreprises
00:12
I'm Kalika Bali, I'm a linguist by training
1
12430
2800
et des multinationales pendant 20 ans,
00:15
and a technologist by profession,
2
15263
2334
faisant de la recherche et créant des systèmes de technologie linguistiques.
00:17
I have worked in academia,
3
17630
1667
00:19
in startups, in small companies and multinationals for over two decades,
4
19330
5267
Mon rêve est de voir la technologie dépasser la barrière de la langue.
00:24
doing research in and building language technology systems.
5
24630
3733
En tant que chercheuse pour Microsoft Research Labs en Inde,
je travaille dans le domaine de la technologie linguistique
00:28
My dream is to see technology work across the language barrier.
6
28363
4667
et de la technologie du langage.
00:33
As a researcher at Microsoft Research Labs India
7
33030
3100
Je cherche à savoir comment nous pouvons rendre la technologie accessible
00:36
I work in the field of language technology and speech technology.
8
36163
5534
à l’ensemble des gens,
quelle que soit la langue de la langue qu’ils parlent.
00:41
And I worry about how can we make technology accessible
9
41697
3600
Donc, traitement du langage naturel,
intelligence artificielle, technologie de la parole,
00:45
to people across the board,
10
45330
2200
00:47
you know, irrespective of the language that they speak.
11
47530
2967
voilà des mots compliqués, à la mode en ce moment.
Tout le monde parle de ce qu’est le TAL, ou traitement automatique des langues.
00:51
So natural language processing,
12
51663
1600
00:53
artificial intelligence, speech technology,
13
53297
2066
00:55
these are very big words, they are buzzwords right now.
14
55363
2600
En termes très simples,
c’est la partie du génie informatique
00:57
Everybody is talking about what exactly is NLP or natural language processing.
15
57997
5533
qui fait que les machine traitent,
comprennent et génèrent un language naturel,
01:03
So in very simple terms,
16
63530
1533
01:05
this is the part of computer science engineering
17
65063
3367
qui est le language parlé par les humains.
01:08
that makes machines process,
18
68463
2834
Lorsque vous interagissez
avec un bot pour essayer de réserver vos billets de train,
01:11
understand and generate natural language,
19
71330
2967
ou vos billets d’avion,
01:14
which is the language that humans speak.
20
74330
2233
lorsque vous parlez à un assistant vocal lors d’un appel téléphonique,
01:17
When you are interacting with a bot trying to book your train tickets
21
77697
4700
c’est le traitement automatique des langues
qui est à la base de toute la technologie qui fait que ça fonctionne.
01:22
or flight tickets,
22
82430
1267
01:23
when you are speaking to a voice-based digital assistant in your phone,
23
83697
4833
Mais comment ça marche ?
Comment le TAL fonctionne-t-il ?
01:28
it's natural language processing
24
88530
1600
Pour simplifier,
01:30
that underpins the entire technology that makes that work.
25
90163
3534
tout est une histoire de données.
01:34
But how does this work?
26
94797
1266
Une grande quantité de données
01:36
How does NLP work?
27
96063
1567
01:37
In a very, very basic way,
28
97663
3900
sur la façon dont les humains utilisent le langage
01:41
it's about data.
29
101563
1800
est ensuite traitée par certains algorithmes et techniques
01:43
So a huge amount of data of how actually humans use language
30
103363
6334
qui font apprendre aux machines
01:49
is then processed by certain algorithms and techniques
31
109697
5166
les modèles du langage naturel des hommes.
Aujourd’hui, un autre mot à la mode : les réseaux neuronaux profonds.
01:54
that make the machines learn the patterns
32
114863
2767
01:57
of natural language of humans, right?
33
117663
3700
Ce sont les techniques avancées
qui sont à la base d’une grande partie
02:01
These days, another buzzword that you hear a lot about is deep neural networks.
34
121363
5367
de ce qui se passe en ce moment avec le TAL
Je ne rentrerai pas dans les détails de leur fonctionnement,
02:06
And these are the advanced techniques
35
126763
2467
mais ce que vous devez savoir et garder en tête,
02:09
that underpin a lot of the NLP stuff that happens right now.
36
129263
4134
c’est que tout cela nécessite des quantités de données gigantesques,
02:13
And I will not go into the details of how that works,
37
133430
3333
02:16
but the thing that you really have to understand and keep in mind
38
136797
3400
des données sur le langage naturel.
Si vous voulez qu’un système vocal converse avec vous en gujarati,
02:20
is that all of this requires a humungous amount of data,
39
140197
5000
vous avez d’abord besoin
02:25
natural language data.
40
145197
1666
d’une grande quantité de données sur le gujarati parlé par les gens
02:26
If you want a speech system to converse with you in Gujarati,
41
146863
5267
dans leur langue maternelle.
02:32
the first thing you require
42
152163
1367
02:33
is a lot of data of Gujarati people speaking to each other
43
153530
4533
Ainsi en 2017, Microsoft a élaboré un système de reconnaissance vocale
capable de transcrire un discours en texte
02:38
in their own language.
44
158063
1867
02:41
So 2017, Microsoft came up with a speech recognition system
45
161663
4734
mieux qu’un humain ne l’aurait fait.
Ce système a été entrainé
02:46
which was able to transcribe speech into text
46
166430
3600
avec 200 millions de mots transcrits.
En 2018, un système de traduction automatique anglais-chinois
02:50
better than a human did.
47
170030
1733
02:52
And this system was trained
48
172563
3167
a été capable de traduire de l’anglais vers le chinois
02:55
on 200 million transcribed words.
49
175763
2667
aussi bien qu’un humain bilingue.
02:58
In 2018, an English-Chinese machine translation system
50
178463
3967
Et ce système a été entrainé
03:02
was able to translate from English to Chinese
51
182463
2800
sur 18 millions de paires de phrases bilingues.
03:05
as well as any human bilingual could.
52
185297
2766
C’est une époque formidable pour le traitement automatique des langues
03:08
And this was trained on 18 million bilingual sentence pairs.
53
188063
4934
et pour la technologie elle-même.
Vous savez, c’est la science-fiction, que nous avons lue et regardée,
03:14
This is a very, very exciting time in natural language processing
54
194330
4433
qui devient réalité devant nos propres yeux.
03:18
and in technology as such.
55
198797
1466
Nous faisons des pas de géants dans le progrès technique.
03:20
You know, we are seeing science fiction, which we had read about and watched,
56
200297
4466
Mais ces avancées sont limitées à très peu de langues.
03:24
kind of come true in front of our own eyes.
57
204797
2833
03:27
We are making giant leaps in technical advancement.
58
207663
4467
Alors Monojit Choudhury,
qui est un très bon ami à moi,
03:32
But these giant leaps are limited to very few languages.
59
212163
6234
et un collègue,
a étudié ça en détail
et a observé la distribution de ressources à travers les langues du monde.
03:38
So Monojit Choudhury,
60
218430
1300
03:39
who's like a very good friend of mine
61
219763
1867
03:41
and a colleague,
62
221663
2134
Et il dit qu’elles suivent ce que l’on appelle la loi de puissance,
03:43
he has studied this in some detail
63
223830
1733
03:45
and he has looked at resource distribution across languages in the world.
64
225563
4067
ce qui veut essentiellement dire qu’il y a quatre langues,
arabe, chinois, anglais et espagnol,
03:49
And he says that these follow what is called a power-law distribution,
65
229663
4100
qui ont le maximum de ressources disponibles.
03:53
which essentially means that there are four languages,
66
233797
2766
Il y a quelques autres langues qui peuvent bénéficier
03:56
Arabic, Chinese, English and Spanish,
67
236563
2700
03:59
which have the maximum amount of resources available.
68
239297
3766
des ressources et de la technologie disponibles à présent.
04:03
There are another handful of languages which can also benefit from, you know,
69
243063
5167
Mais il y a 90% des langues du monde
04:08
the resources and the technology that's available right now.
70
248263
3834
qui n’ont aucune ressource
ou très peu de ressources disponibles.
04:12
But there are 90 percent of the world's languages
71
252130
4833
Cette révolution dont nous parlons
a quasiment ignoré 5000 langues dans le monde.
04:16
which have no resources
72
256997
1800
04:18
or very little resources available.
73
258830
2067
Ça signifie que les langues riches en ressources
04:20
This revolution that we are talking about
74
260930
2667
ont des technologies construites pour elles,
04:23
has essentially bypassed 5,000 languages of the world.
75
263630
4100
donc les chercheurs et technologues sont attirés vers elles.
Ils développent plus de technologies pour elles, créent plus de ressources.
04:27
Now, what this means is that resource-rich languages
76
267763
2534
04:30
have technologies built for them,
77
270330
1800
C’est un cycle : les riches continuent de s’enrichir.
04:32
so researchers and technologists get attracted towards them.
78
272163
3267
Et les langues pauvres en ressources restent pauvres,
04:35
They build more technologies for them. They create more resources.
79
275463
3500
il n’y a pas de technologies, personne ne travaille pour elles.
04:38
So it's like a rich getting richer kind of a cycle.
80
278997
2800
Et cette fracture numérique entre les langues
04:41
And the resource-poor languages stay poor,
81
281830
2400
ne cesse de progresser
et du même coup, le fossé entre les communautés
04:44
there's no technology for them, nobody works for them.
82
284263
2600
04:46
And this divide, digital divide between languages
83
286863
3400
qui parlent ces langues s’élargit aussi.
04:50
is ever-expanding
84
290297
1500
04:51
and by implication also the divide between the communities
85
291830
4633
Donc chez Microsoft, avec le Projet Ellora nous voulons combler ce fossé.
04:56
that speak these languages is expanding.
86
296497
2500
Nous essayons de créer plus de données avec des méthodes innovantes,
05:00
So in Microsoft, in Project Ellora, we aim to bridge this gap.
87
300763
4767
d’avoir plus de techniques pour développer des technologies avec peu de ressources
05:06
We are trying to see how can we create more data by innovative methods,
88
306663
5567
et de voir les applications qui peuvent vraiment aider ces communautés.
05:12
have more techniques to build technology without having a lot of resources,
89
312263
5800
Pour le moment, ça semble très théorique,
05:18
and what are the applications that can truly benefit these communities.
90
318063
4200
comme ce dont il parle, données et techniques et technologie.
Alors laissez-moi vous donner un exemple très concret ici.
05:23
So at the moment, this might seem very theoretical,
91
323463
3334
Je suis une linguiste dans l’âme, j’adore les langues, et j’aime en parler.
05:26
like what is he talking about, data and techniques and technology.
92
326830
3133
05:29
So let me give you a very concrete example here.
93
329997
3066
Alors laissez-moi vous parler d’une langue que peu d’entre vous doivent connaître.
05:33
I'm a linguist at heart, I love languages, and that's what I love talking about.
94
333063
5300
Le gondi.
Le Gondi est une langue dravidienne du centre-sud.
05:38
So let me tell you about a language that many of you might not know about.
95
338363
4367
Il est parlé par trois millions de gens dans cinq états de l’Inde.
05:42
Gondi.
96
342763
1267
Et pour mettre cela en perspective,
05:44
Gondi is a South-Central Dravidian language.
97
344030
2700
le norvégien est parlé par cinq millions de gens
05:46
It is spoken by three million people in five states of India.
98
346763
4434
et le gallois par un peu moins d’un million.
05:51
And to put this in some kind of perspective,
99
351197
3000
Alors le gondi est donc en fait une communauté assez large
05:54
Norwegian is spoken by five million people
100
354197
2833
05:57
and Welsh by a little under a million.
101
357030
2933
des tribus Gond en Inde.
05:59
So Gondi is actually a pretty robust and pretty large community
102
359997
6200
Mais selon l’Atlas des Langues en Danger de l’UNESCO,
le gondi est classé comme vulnérable.
06:06
of the Gond tribals in India.
103
366197
2900
06:09
But by UNESCO's Atlas of Languages in Danger,
104
369130
5067
CGNet Swara est une ONG qui offre un portail de journalisme citoyen
06:14
Gondi is designated vulnerable status.
105
374197
4366
à la communauté des Gonds
en rendant des histoires locales accessibles par téléphones portables.
06:19
CGNet Swara is an NGO that provides a citizen journalism portal
106
379030
4533
Il n’y a aucun support technique pour le gondi.
06:23
for the Gond community
107
383563
1867
Il n’y a pas de données ni de ressources disponibles pour le gondi.
06:25
by making local stories accessible through mobile phones.
108
385463
4234
06:29
There's absolutely no tech support for Gondi.
109
389697
2933
Donc tout le contenu est créé, modéré et édité manuellement.
06:32
There is no data available for Gondi, no resources available for Gondi.
110
392663
4800
Dans le cadre du Projet Ellora,
nous avons réuni toutes les parties intéressées,
06:37
So all content that is created, moderated and edited is done manually.
111
397497
5066
un ONG comme CGNet Swara,
des institutions universitaires, comme IIIT Naya Raipur,
06:42
Now, under Project Ellora,
112
402563
2067
un éditeur de livres pour enfant à but non lucratif,
06:44
what we did was that we brought together all the stakeholders,
113
404663
2967
comme les livres Pratham,
06:47
an NGOs like CGNet Swara,
114
407663
1800
et surtout, les gens de la communauté qui parlent la langue.
06:49
and academic institutions, like IIIT Naya Raipur,
115
409497
3366
Les tribus Gonds elles-mêmes ont participé à cette activité
06:52
a not-for-profit children's book publisher,
116
412863
2200
06:55
like Pratham Books,
117
415063
1300
et pour la première fois ont édité et traduit un livre pour enfant en gondi.
06:56
and most importantly, the speakers of the community.
118
416363
2434
06:58
The Gond tribals themselves participated in this activity
119
418830
4933
Nous avons pu sortir 200 livres pour la première fois en gondi,
07:03
and for the first time edited and translated children’s books in Gondi.
120
423797
5633
pour que les enfants aient accès à des histoires
07:09
We were able to put out 200 books for the very first time in Gondi,
121
429463
5334
et des livres dans leur langue.
Une autre extension du projet était Adivasi Radio,
qui était une app, construite et développée à Microsoft Research,
07:14
so that the children had access to stories and books in their own language.
122
434830
4700
et qui a été sortie, avec nos parties intéressées,
07:19
Another extension of this was Adivasi Radio,
123
439530
2267
07:21
which was like an app that we built and developed in Microsoft Research,
124
441830
4033
elle prend une synthèse vocale en Hindi
07:25
and then put out there, along with our stakeholders,
125
445863
4567
et lui permet de lire les informations et articles fournies par CGNet Swara
07:30
which takes a Hindi text-to-speech system
126
450463
3067
en langue gondi.
07:33
and allows it to read out news and articles provided by CGNet Swara
127
453530
6400
Les utilisateurs peuvent maintenant utiliser cette app pour lire,
regarder et accéder aux informations
07:39
in Gondi language.
128
459963
2434
à travers le texte et la voix dans leur propre langue.
07:42
Users can now use this app to read,
129
462430
2767
Ce qui est intéressant avec cette app, c’est qu’elle est utilisée
07:45
watch news and access any information
130
465197
3433
par la communauté pour traduire du texte de l’hindi au gondi.
07:48
through text and voice in their own language.
131
468663
3900
07:52
A very interesting thing is that this app is now being used to translate --
132
472563
3634
Maintenant, cela va produire beaucoup de données parallèles,
07:56
by the community to translate text from Hindi to Gondi.
133
476197
4833
ce qui va nous permettre de construire un système de traduction automatique gondi
08:01
Now, what that will result in is a lot of parallel data,
134
481030
3333
qui va réellement ouvrir une fenêtre pour la communauté Gond vers le monde.
08:04
that we call parallel data,
135
484363
1534
08:05
that will allow us to build machine translation systems for Gondi,
136
485930
3500
Et le plus important est que maintenant, nous savons comment faire.
08:09
which will truly open up a window for the Gond community to the world.
137
489463
5900
Nous avons l’accès total et nous pouvons le répliquer pour n’importe quelle langue
et n’importe quelle langue communautaire
08:15
And what is even more important is now we know how to do this.
138
495363
3567
dans la même situation que les tribus Gond.
08:18
We have the entire pipeline and we can replicate this for any language
139
498963
4600
L’éducation, l’accès à l’information, oui,
08:23
and any language community
140
503563
1900
08:25
which is in a similar situation as the Gond tribals.
141
505497
3033
mais comment gagner sa vie ?
08:29
Also education -- yes, you know, information access -- yes,
142
509630
4833
Comment pouvons-nous aider ces gens à gagner leur vie
à travers les outils numériques que nous tenons tous pour acquis ?
08:34
but what about earning a living?
143
514497
2700
08:37
Right? What about -- how can we make these people earn a living
144
517830
4200
Vivek Seshadri, un autre chercheur au MSR,
et son collaborateur, Manu Chopra,
08:42
through the digital tools that all of us just take for granted these days?
145
522030
3867
ont conçu la plateforme Karya
afin de donner des micro-tâches numériques aux communautés vulnérables.
08:45
Vivek Seshadri, who's another researcher at MSR,
146
525930
2533
08:48
and his collaborator, Manu Chopra,
147
528497
2100
Son objectif était de trouver le moyen de fournir du travail décent
08:50
they've designed a platform called Karya
148
530630
2500
08:53
for providing digital microtasks to the underserved communities.
149
533163
4600
aux populations rurales
et aux populations urbaines pauvres de son pays.
08:57
His aim was basically to find a way to provide a means of dignified labor
150
537797
5433
Elles n’ont pas accès à toute cette connaissance
09:03
to the populations, the rural populations
151
543263
2034
sur l’utilisation des plateformes numériques
09:05
and the urban poor populations of this country.
152
545330
2300
que nous utilisons tous facilement au quotidien.
09:08
They don't have access to all the knowledge
153
548530
3000
Mais...
09:11
to use the digital platforms
154
551530
2567
Voila une grande population alphabète qui veut travailler
09:14
that all of us use every day without even thinking, right?
155
554130
4200
09:18
But ...
156
558930
1233
et comment rendre cela possible pour elles ?
09:20
Here is a large
157
560863
2434
Alors, Karya est une façon unique
09:23
literate population that wants to work, right,
158
563330
4133
grâce à laquelle ces populations ont accès au numérique
09:27
and how can we make this possible for them?
159
567497
2766
pour ensuite,
09:30
So Karya is one such way
160
570297
3500
trouver du travail et accomplir des tâches génératrices de revenus.
09:33
through which this population can get on to the digital world
161
573830
4033
Quand on a vu ça, on s’est dit que c’était génial,
09:37
and, you know,
162
577863
1434
et que ça pourrait nous servir à collecter des données.
09:39
through that find work and do tasks that can then earn them money.
163
579330
4433
Nous sommes allés à Amale,
un petit village de 200 personnes
09:43
So we saw this and we thought, oh, this is wonderful.
164
583797
2500
dans le district de Maharashtra
09:46
We could probably use this for data collection as well.
165
586330
2600
afin de collecter des données sur le marathi à l’aide de Karya.
09:48
So we went to Amale,
166
588963
2000
09:50
which is a small village of 200 people
167
590997
3266
Je sais, vous vous dites :
il y a sûrement des gens qui parlent le marathi dans le public.
09:54
in the Wada district of Maharashtra
168
594297
1933
Ce n’est pas une langue à faible ressource.
09:56
and decided to use Karya to collect Marathi data.
169
596263
2667
Le marathi est vraiment une langue très répandue dans le pays.
09:58
Now, I know what you are thinking --
170
598963
1900
10:00
I'm sure a lot of Marathi speakers also in the audience --
171
600930
2767
Mais en ce qui concerne la technologie de la langue,
10:03
that Marathi is not a low-resource language.
172
603697
2400
le marathi est une langue à faible ressource.
10:06
Marathi is definitely a mainstream language of the country.
173
606130
3600
Donc, on est allé dans ce village,
et on a fait une bonne collecte de données.
10:09
But as far as language technology is concerned,
174
609763
2500
Le village était très isolé.
10:12
Marathi is a low-resource language.
175
612297
2333
10:14
So we went to this village
176
614663
1600
Ils n’ont ni accès à la télé, ni à l’électricité,
10:16
and we had a very successful data-collection trip.
177
616297
3800
ils n’ont pas de réseau.
10:20
And, you know, this village is very remote.
178
620130
3567
Il faut franchir une colline et agiter son téléphone
10:23
They have no TV, they have no electricity,
179
623697
2700
pour espérer appeler qui que ce soit.
10:26
they have no mobile signal.
180
626430
3833
Ils nous ont fourni ces données.
10:30
You have to climb a hill and wave your phone around
181
630297
2633
Mais plus encore, ils nous ont donné de solides leçons de vie.
10:32
if you want to, you know, use your mobile to call anyone.
182
632963
3200
Une de ces leçons, c’est être fier de sa langue.
10:37
So they gave us all this data.
183
637197
1766
Les gens de l’Amale étaient heureux de faire cela
10:38
But more than that, they gave us very valuable lessons in life.
184
638997
3266
car, ils savaient qu’ils faisaient progresser leur propre langue.
10:43
One is this pride in one's own language.
185
643063
3000
une autre leçon, c’était la valeur d’une communauté.
10:46
The people of Amale were thrilled to be doing this
186
646063
2667
10:48
because they were advancing their own language by doing this.
187
648763
5834
Très rapidement, c’est devenu un effort communautaire généralisé.
Les gens se retrouvaient pour exécuter des tâches en groupe.
10:54
The second was the value of community.
188
654630
1833
10:56
Very quickly, this became a village community effort.
189
656497
3900
et enfin, l’importance du storytelling.
11:00
People would gather together in tasks and do this together as a group.
190
660430
4867
Les gens de l’Amale avaient tellement soif de contenus que le matin,
11:05
And the third is the importance of storytelling.
191
665330
3767
ils enregistraient des histoires dans Karya
11:09
People of Amale were so starved of content that in the morning, during the daytime,
192
669130
6067
et dans la soirée, ils rassemblaient tout le village
et les racontaient de nouveau à tous les villageois.
11:15
they would do recordings of stories in Karya
193
675197
4066
11:19
and then in the evening they would gather the entire village
194
679297
2833
Nous, scientifiques, nous sommes si attachés
à la partie science et technologie de ce que nous faisons -
11:22
and retell and recount these stories to the village.
195
682163
3834
c’est le meilleur modèle d’ailleurs,
11:27
So as scientists, we get so caught up
196
687563
2167
comment rendre le système plus fiable,
11:29
in the science and technology part of what we are doing, you know --
197
689763
3700
comment construire le prochain meilleur système qui soit -
11:33
which is the next best model to have,
198
693497
1966
que nous oublions pourquoi nous le faisons : pour les gens.
11:35
how can we increase the accuracy of my system,
199
695497
2933
11:38
how can I build the next best system there is --
200
698463
4600
Et une technologie réussie est celle qui met les utilisateurs
11:43
that we forget the reason why we are doing this: the people.
201
703063
3700
au devant, au centre.
11:46
And any successful technology is the one that keeps the people and the users
202
706797
5466
Et quand c’est comme cela,
on voit que la technologie n’est qu’une toute petite partie,
et qu’il y a d’autres aspects de l’histoire.
11:52
up front and center.
203
712297
1566
Il y a peut-être des interventions sociales, culturelles et politiques
11:54
And when they start doing that,
204
714830
1533
11:56
we also realize that technology is probably a very small part of this
205
716363
3667
tout autant nécessaires que la technologie.
12:00
and there are other things in the story.
206
720030
2367
Par le passé, j’ai travaillé sur un projet appelé VidéoKheti
12:02
Maybe there are social, cultural and policy interventions
207
722430
3333
qui a permis aux agriculteurs de langue hindi du entre de l’Inde
12:05
that are required, as much as technology.
208
725797
2200
de rechercher des vidéos agricoles en parlant à une appli mobile.
12:09
So some time back, I worked on a project called VideoKheti
209
729030
3267
12:12
that allowed Hindi-speaking farmers in Central India
210
732330
3600
On est donc allés au Madhya Pradesh pour collecter les données,
12:15
to search for agricultural videos by speaking into a phone-based app.
211
735963
6667
puis revenus entrainer nos modèles
et on a découvert qu’on obtenait de mauvais résultats.
12:23
So we went to Madhya Pradesh to collect data for this,
212
743363
3434
Ça ne marchait pas.
On ne comprenait pas. Qu’est ce qui se passait?
12:26
and we came back and we were training our models
213
746830
2300
On a examiné de près les données
et découvert qu’on avait collecté des données
12:29
and we discovered we're getting very bad results.
214
749163
2367
12:31
This is not working.
215
751530
1267
de ce qu’on pensait être un village calme en soirée.
12:32
So we were very confused. Why is this happening?
216
752830
2267
12:35
So we looked deeper and deeper into the data
217
755130
2267
Mais ce qui nous avait échappé lors de notre collecte,
12:37
and discovered that, yes, we had collected data
218
757430
2233
12:39
from what we thought was a very silent, quiet village in the evening.
219
759697
4666
est le bourdonnement incessant des insectes de nuit.
On entendait les insectes sur les enregistrements,
12:44
But what we hadn't heard while we were doing this
220
764363
3400
ce qui déformait en fait notre discours.
12:47
was that there was this constant buzz of night insects, you know?
221
767797
4100
Deuxième chose : quand on y est allé,
12:51
So throughout the recordings, we had this "bzz" of the insects,
222
771930
3467
pour tester notre appli au village,
12:55
which was actually distorting our speech.
223
775430
2533
avec mon collègue Indrani Medhi
12:58
The second thing was that when we went there
224
778797
2233
un chercheur designer réputé, nous avions remarqué
13:01
to kind of test our app in the village,
225
781030
3867
que les femmes n’arrivaient pas à prononcer les mots en Sanskrit
13:04
I and my colleague Indrani Medhi,
226
784930
2533
13:07
who is a very well-regarded design researcher,
227
787497
3600
qu’il fallait pour nos recherches.
Donc
13:11
we found that the women couldn't pronounce the sanskritized words
228
791130
4400
(en Hindi)
13:15
that we had for some of the search terms.
229
795530
2767
le terme pour désigner les pesticides.
13:18
So, like ...
230
798330
1500
Car ces termes nous avaient été communiqués
13:21
(speaks Hindi)
231
801663
2800
par le centre de développement agricole
13:24
Which is like the term for chemical pesticides, right?
232
804497
3866
et les femmes, même si elles pratiquent l’agriculture,
13:28
Because we got these terms from the agricultural extension center
233
808363
5534
n’interagissaient pas avec le centre.
Les hommes oui, les femmes utilisent sans doute des mots bien plus simples,
13:33
and the women, even though they are farming,
234
813930
2100
comme (en Hindou)
ce qui veut dire : tuer les parasites avec des médicaments.
13:36
do not interact with that center at all.
235
816030
2867
13:38
The men do, the women probably use something much simpler, like ...
236
818930
3967
Ce que j’ai appris durant mon aventure
13:42
(speaks Hindi)
237
822930
1300
et que j’aimerais vous transmettre -
13:44
Which basically means killing pests with medicine.
238
824263
3534
j’espère que vous m’aviez comprise -
13:48
So what I have learned through my journey
239
828430
3867
c’est qu’il y a une majorité de langues à travers le monde
13:52
and what I would like to put across to you --
240
832330
2900
qui demandent beaucoup d’investissement pour créer des ressources
13:55
by now, I hope you've understood me,
241
835263
2000
pour bénéficier de la technologie de la langue.
13:57
is that there is the majority of the world's languages
242
837297
3433
Et il est peu probable que ça se produise de manière rapide et efficace.
14:00
that require intensive investment for resource creation
243
840763
4267
14:05
if they are to benefit from language technology.
244
845030
2567
Il est donc très important de nous assurer
14:07
And this is unlikely to happen in a very fast and efficient manner.
245
847630
5367
que la communauté tire le meilleur profit
de tout ce que nous faisons dans la technologie linguistique.
14:13
So it is extremely important for us to ensure
246
853963
2934
14:16
that the community derives maximum benefit
247
856930
3533
Et pour ce faire et apporter un impact social positif
sur ces communautés,
14:20
from whatever that we are doing in the language tech area.
248
860497
3966
nous suivons ce que nous appelons la méthodologie 4-D modifiée.
14:24
And to do this and deliver a positive social impact
249
864497
3466
Découvrir, Designer, Développer et Déployer.
14:27
on these communities,
250
867997
1466
14:29
we follow what we call the modified 4-D design thinking methodology.
251
869497
4733
Découvrir le problème que la technologie linguistique peut résoudre
14:34
So the 4-D means: discover, design, develop and deploy.
252
874263
5200
pour une communauté spécifique.
Cette méthode fondée sur l’observation permet d’allouer des ressources
14:39
So discover the problem that language technology can solve
253
879497
3066
où elles sont nécessaires,
conçue pour les utilisateurs et leur langue,
14:42
for a particular language community.
254
882563
2200
14:44
This observation-led approach can help allocate resources
255
884797
3233
comprendre la diversité dans les propriétés linguistiques
et les langues du monde.
14:48
where they are most needed,
256
888030
1700
14:49
designed for the users and their language,
257
889763
2767
Ne pensez pas que c’est fait pour l’anglais
Comment adapter cela au marathi ou au gondi ?
14:52
understand the diversity in the linguistic properties
258
892530
3367
14:55
and the languages of the world.
259
895930
2100
Développer rapidement et déployer fréquemment.
14:58
And don't think, oh, this is made for English.
260
898030
2400
C’est un processus itératif qui vous fera vite échouer
15:00
Now, how can we just adapt it for Marathi or for Gondi, right?
261
900463
4334
et les échecs vous mèneront finalement au succès.
15:04
Develop rapidly and deploy frequently.
262
904830
2600
15:07
It's an iterative process that will help you fail fast
263
907463
3500
Le plus important est de persévérer.
Ne jamais abandonner.
15:10
and early failures will eventually lead to success.
264
910997
3366
Je me souviens de l’histoire de deux femmes aborigènes australiennes,
15:15
The important thing is to persevere.
265
915497
1966
Patricia O’Connor et Ysola Best.
15:17
Do not give up.
266
917497
1366
15:18
And I remember the story of these two Aborigine Australian women,
267
918863
5734
Au milieu des années 90, elles étaient à l’Université de Queensland
15:24
Patricia O'Connor and Ysola Best.
268
924630
3800
pour apprendre leur propre langue, le yugambeh,
et on leur a dit clairement : « votre langue est morte,
15:29
In the mid-90s, they went to the University of Queensland
269
929763
3134
depuis des décennies.
15:32
and they wanted to learn their own language, called Yugambeh,
270
932930
3333
Vous ne pouvez pas l’étudier, trouvez autre chose. »
Elles n’ont pas abandonné.
15:36
and they were told very bluntly, "Your language is dead.
271
936297
2633
Grâce à leurs communautés,
15:38
It's been dead for three decades.
272
938963
1600
elles ont déterré des mémoires, des traditions, de la littérature orales,
15:40
You cannot work on this. Find something else to work on."
273
940563
3867
pour enfin fonder le musée Yugambeh,
15:44
They did not give up.
274
944463
1267
15:45
They went to the community,
275
945763
1600
15:47
they dug up oral memories, oral traditions, oral literature,
276
947363
4867
qui est ensuite devenu le centre culturel linguistique le plus important
15:52
and founded the Yugambeh Museum,
277
952263
3367
pour la langue et sa communauté.
Elles n’avaient pas la technologie, juste de la volonté.
15:55
which became the most important cultural and linguistic center for the language
278
955663
5434
Avec la force de la technologie,
on peut s’assurer que la page suivante soit écrite en salmi de Finlande,
16:01
and its community.
279
961130
1767
16:02
They did not have technology. They only had their willpower.
280
962930
4033
16:06
Now, with the power of technology,
281
966997
2233
Salmi de la Finlande, Lillooet du Canada ou Mundari de l’Inde.
16:09
we can ensure that the next page is written in Salmi from Finland,
282
969263
5767
Merci.
16:15
Lillooet from Canada or Mundari from India.
283
975030
3467
16:19
Thank you.
284
979163
1000
À propos de ce site Web

Ce site vous présentera des vidéos YouTube utiles pour apprendre l'anglais. Vous verrez des leçons d'anglais dispensées par des professeurs de premier ordre du monde entier. Double-cliquez sur les sous-titres anglais affichés sur chaque page de vidéo pour lire la vidéo à partir de là. Les sous-titres défilent en synchronisation avec la lecture de la vidéo. Si vous avez des commentaires ou des demandes, veuillez nous contacter en utilisant ce formulaire de contact.

https://forms.gle/WvT1wiN1qDtmnspy7