Kalika Bali: The giant leaps in language technology -- and who's left behind | TED

54,094 views ・ 2021-04-26

TED


Fare doppio clic sui sottotitoli in inglese per riprodurre il video.

00:00
Transcriber:
0
0
7000
Traduttore: Wardy 48 Revisore: Samridh Aggarwal
00:12
I'm Kalika Bali, I'm a linguist by training
1
12430
2800
Sono Kalika Bali, sono una linguista di formazione
00:15
and a technologist by profession,
2
15263
2334
e una tecnologa di professione,
00:17
I have worked in academia,
3
17630
1667
ho lavorato nel mondo accademico,
00:19
in startups, in small companies and multinationals for over two decades,
4
19330
5267
in startup, in piccole imprese e multinazionali per più di vent’anni,
00:24
doing research in and building language technology systems.
5
24630
3733
ho fatto ricerche e sviluppato sistemi di tecnologia linguistica.
00:28
My dream is to see technology work across the language barrier.
6
28363
4667
Il mio sogno è di vedere la tecnologia che supera le barriere linguistiche.
00:33
As a researcher at Microsoft Research Labs India
7
33030
3100
Come ricercatrice al Microsoft Research Labs India
00:36
I work in the field of language technology and speech technology.
8
36163
5534
mi occupo di tecnologia linguistica e di tecnologia del linguaggio.
00:41
And I worry about how can we make technology accessible
9
41697
3600
E mi preoccupo di come possiamo rendere la tecnologia accessibile
00:45
to people across the board,
10
45330
2200
alle persone in tutto il mondo,
00:47
you know, irrespective of the language that they speak.
11
47530
2967
insomma, indipendentemente dalla lingua che parlano.
Elaborazione del linguaggio naturale,
00:51
So natural language processing,
12
51663
1600
intelligenza artificiale,
00:53
artificial intelligence, speech technology,
13
53297
2066
tecnologia del linguaggio.
00:55
these are very big words, they are buzzwords right now.
14
55363
2600
Parole molto difficili, ora sono parole chiave.
00:57
Everybody is talking about what exactly is NLP or natural language processing.
15
57997
5533
Tutti parlano di cos’è esattamente la PNL o l’elaborazione del linguaggio naturale.
01:03
So in very simple terms,
16
63530
1533
Dunque, in parole povere,
01:05
this is the part of computer science engineering
17
65063
3367
questa è la parte di ingegneria informatica
01:08
that makes machines process,
18
68463
2834
che permette alle macchine di elaborare,
01:11
understand and generate natural language,
19
71330
2967
capire e generare il linguaggio naturale,
01:14
which is the language that humans speak.
20
74330
2233
che è la lingua parlata dagli esseri umani.
01:17
When you are interacting with a bot trying to book your train tickets
21
77697
4700
Quando interagite con un bot per prenotare i biglietti del treno
01:22
or flight tickets,
22
82430
1267
o i biglietti aerei,
01:23
when you are speaking to a voice-based digital assistant in your phone,
23
83697
4833
quando parlate con un assistente digitale sul vostro telefono
01:28
it's natural language processing
24
88530
1600
l’elaborazione del linguaggio naturale
01:30
that underpins the entire technology that makes that work.
25
90163
3534
è alla base di tutta la tecnologia che lo fa funzionare.
01:34
But how does this work?
26
94797
1266
Ma come funziona?
01:36
How does NLP work?
27
96063
1567
Come funziona la PNL?
01:37
In a very, very basic way,
28
97663
3900
In un modo molto, molto semplice,
01:41
it's about data.
29
101563
1800
Si tratta di dati.
01:43
So a huge amount of data of how actually humans use language
30
103363
6334
Allora, una quantità enorme di dati di come gli esseri umani usano la lingua
01:49
is then processed by certain algorithms and techniques
31
109697
5166
viene processata da alcuni algoritmi e tecnologie
01:54
that make the machines learn the patterns
32
114863
2767
che insegnano alle macchine le strutture
01:57
of natural language of humans, right?
33
117663
3700
della linguaggio naturale umano, ok?
02:01
These days, another buzzword that you hear a lot about is deep neural networks.
34
121363
5367
Di questi tempi, un’altra espressione che si sente spesso è reti neurali profonde.
02:06
And these are the advanced techniques
35
126763
2467
E queste sono le tecniche avanzate
02:09
that underpin a lot of the NLP stuff that happens right now.
36
129263
4134
che sono alla base di molto materiale di PNL ultimamente.
02:13
And I will not go into the details of how that works,
37
133430
3333
E non entro nel dettaglio di come funziona,
02:16
but the thing that you really have to understand and keep in mind
38
136797
3400
ma quello che dovete capire e tenere a mente
02:20
is that all of this requires a humungous amount of data,
39
140197
5000
è che tutto questo richiede un’enorme quantità di dati,
02:25
natural language data.
40
145197
1666
dati sul linguaggio naturale.
02:26
If you want a speech system to converse with you in Gujarati,
41
146863
5267
Se volete un sistema vocale che parli con voi in gujarati,
02:32
the first thing you require
42
152163
1367
la prima cosa che vi serve
02:33
is a lot of data of Gujarati people speaking to each other
43
153530
4533
sono molti dati di gujarati che parlano tra di loro
02:38
in their own language.
44
158063
1867
nella loro lingua madre.
02:41
So 2017, Microsoft came up with a speech recognition system
45
161663
4734
Nel 2017, Microsoft ha inventato un sistema di riconoscimento vocale
02:46
which was able to transcribe speech into text
46
166430
3600
che riusciva a trascrivere un discorso in un testo
02:50
better than a human did.
47
170030
1733
meglio di un essere umano.
02:52
And this system was trained
48
172563
3167
E questo sistema è stato formato
02:55
on 200 million transcribed words.
49
175763
2667
con 200 milioni di parole trascritte.
02:58
In 2018, an English-Chinese machine translation system
50
178463
3967
Nel 2018, un sistema di traduzione automatica
03:02
was able to translate from English to Chinese
51
182463
2800
riusciva a tradurre dall’inglese al cinese
03:05
as well as any human bilingual could.
52
185297
2766
come una qualunque persona bilingue.
03:08
And this was trained on 18 million bilingual sentence pairs.
53
188063
4934
E questo è stato creato con 18 milioni di coppie di frasi bilingue.
03:14
This is a very, very exciting time in natural language processing
54
194330
4433
È un momento molto, molto emozionante nell’elaborazione del linguaggio naturale
03:18
and in technology as such.
55
198797
1466
come anche nella tecnologia.
03:20
You know, we are seeing science fiction, which we had read about and watched,
56
200297
4466
Insomma, vediamo la fantascienza che prima leggevamo e guardavamo,
03:24
kind of come true in front of our own eyes.
57
204797
2833
che sta diventando realtà davanti ai nostri occhi.
03:27
We are making giant leaps in technical advancement.
58
207663
4467
Stiamo facendo passi da gigante nelle nuove tecnologie.
03:32
But these giant leaps are limited to very few languages.
59
212163
6234
Ma questi passi da gigante sono limitati a molte poche lingue.
03:38
So Monojit Choudhury,
60
218430
1300
Monojit Choudhury,
03:39
who's like a very good friend of mine
61
219763
1867
che è un mio grande amico
03:41
and a colleague,
62
221663
2134
e collega,
03:43
he has studied this in some detail
63
223830
1733
l’ha studiato nel dettaglio
03:45
and he has looked at resource distribution across languages in the world.
64
225563
4067
e ha esaminato la distribuzione delle risorse nelle lingue del mondo.
03:49
And he says that these follow what is called a power-law distribution,
65
229663
4100
E dice che queste seguono la cosiddetta distribuzione esponenziale,
03:53
which essentially means that there are four languages,
66
233797
2766
che essenzialmente significa che ci sono quattro lingue,
03:56
Arabic, Chinese, English and Spanish,
67
236563
2700
arabo, cinese, inglese e spagnolo,
03:59
which have the maximum amount of resources available.
68
239297
3766
che hanno il massimo livello di risorse disponibili.
04:03
There are another handful of languages which can also benefit from, you know,
69
243063
5167
C’è un altro gruppo di lingue che può trarre beneficio
04:08
the resources and the technology that's available right now.
70
248263
3834
dalle risorse e dalla tecnologia disponibili al momento.
04:12
But there are 90 percent of the world's languages
71
252130
4833
Ma c’è un altro 90 percento delle lingue del mondo
04:16
which have no resources
72
256997
1800
che non ha risorse
04:18
or very little resources available.
73
258830
2067
o ha pochissime risorse a disposizione.
04:20
This revolution that we are talking about
74
260930
2667
Questa rivoluzione di cui stiamo parlando
04:23
has essentially bypassed 5,000 languages of the world.
75
263630
4100
in pratica ha bypassato 5.000 lingue del mondo.
04:27
Now, what this means is that resource-rich languages
76
267763
2534
Ora, ciò significa che le lingue ricche di risorse
04:30
have technologies built for them,
77
270330
1800
dispongono di tecnologie adeguate,
04:32
so researchers and technologists get attracted towards them.
78
272163
3267
quindi i ricercatori e i tecnici sono attratti da loro.
04:35
They build more technologies for them. They create more resources.
79
275463
3500
Costruiscono più tecnologie. Creano più risorse.
04:38
So it's like a rich getting richer kind of a cycle.
80
278997
2800
Quindi è come un ciclo in cui i ricchi si arricchiscono.
04:41
And the resource-poor languages stay poor,
81
281830
2400
E le lingue povere di risorse rimangono povere,
04:44
there's no technology for them, nobody works for them.
82
284263
2600
non ci sono tecnologie, nessuno lavora per loro.
04:46
And this divide, digital divide between languages
83
286863
3400
E questo divario, il divario digitale tra le lingue
04:50
is ever-expanding
84
290297
1500
è in continua espansione
04:51
and by implication also the divide between the communities
85
291830
4633
e implicitamente anche il divario tra le comunità
04:56
that speak these languages is expanding.
86
296497
2500
che parlano queste lingue si sta espandendo.
05:00
So in Microsoft, in Project Ellora, we aim to bridge this gap.
87
300763
4767
Quindi in Microsoft, nel progetto Ellora, puntiamo a colmare questa lacuna.
05:06
We are trying to see how can we create more data by innovative methods,
88
306663
5567
Stiamo cercando di capire come creare più dati con metodi innovativi,
05:12
have more techniques to build technology without having a lot of resources,
89
312263
5800
avere più tecniche per sviluppare tecnologia senza molte risorse,
05:18
and what are the applications that can truly benefit these communities.
90
318063
4200
e quali applicazioni possono veramente dare benefici a queste comunità.
05:23
So at the moment, this might seem very theoretical,
91
323463
3334
Quindi al momento, questo potrebbe sembrare molto teorico,
05:26
like what is he talking about, data and techniques and technology.
92
326830
3133
stiamo parlando di dati, tecniche e tecnologia.
05:29
So let me give you a very concrete example here.
93
329997
3066
Lasciate che vi faccia un esempio molto concreto.
05:33
I'm a linguist at heart, I love languages, and that's what I love talking about.
94
333063
5300
Sono una linguista nel cuore, amo le lingue, e amo parlarne.
05:38
So let me tell you about a language that many of you might not know about.
95
338363
4367
Lasciate che vi parli di una lingua che molti di voi potrebbero non conoscere.
05:42
Gondi.
96
342763
1267
Il gondi.
05:44
Gondi is a South-Central Dravidian language.
97
344030
2700
Il gondi è una lingua dravidica centro-meridionale.
05:46
It is spoken by three million people in five states of India.
98
346763
4434
È parlata da tre milioni di persone in cinque stati dell’India.
05:51
And to put this in some kind of perspective,
99
351197
3000
E, per darvi un’idea,
05:54
Norwegian is spoken by five million people
100
354197
2833
il norvegese è parlato da cinque milioni di persone
05:57
and Welsh by a little under a million.
101
357030
2933
e il gallese da poco meno di un milione.
05:59
So Gondi is actually a pretty robust and pretty large community
102
359997
6200
Quindi il gondi è in realtà una comunità abbastanza robusta e abbastanza grande
06:06
of the Gond tribals in India.
103
366197
2900
delle tribù Gond in India.
06:09
But by UNESCO's Atlas of Languages in Danger,
104
369130
5067
Ma nell’Atlante UNESCO delle Lingue a Rischio di Estinzione,
06:14
Gondi is designated vulnerable status.
105
374197
4366
il gondi è considerato stato vulnerabile.
06:19
CGNet Swara is an NGO that provides a citizen journalism portal
106
379030
4533
Cgnet Swara è una ONG che fornisce un portale di giornalismo cittadino
06:23
for the Gond community
107
383563
1867
per la comunità Gond
06:25
by making local stories accessible through mobile phones.
108
385463
4234
rendendo accessibili le storie locali attraverso i telefoni cellulari.
06:29
There's absolutely no tech support for Gondi.
109
389697
2933
Non c’è nessun supporto tecnico per il gondi.
06:32
There is no data available for Gondi, no resources available for Gondi.
110
392663
4800
Non ci sono né dati né risorse disponibili per il gondi.
06:37
So all content that is created, moderated and edited is done manually.
111
397497
5066
Quindi tutti i contenuti creati, moderati e modificati sono fatti manualmente.
06:42
Now, under Project Ellora,
112
402563
2067
Ora, nell’ambito del Progetto Ellora,
06:44
what we did was that we brought together all the stakeholders,
113
404663
2967
abbiamo riunito tutte le parti interessate,
06:47
an NGOs like CGNet Swara,
114
407663
1800
ONG come Cgnet Swara,
06:49
and academic institutions, like IIIT Naya Raipur,
115
409497
3366
e istituzioni accademiche, come IIIT Naya Raipur,
06:52
a not-for-profit children's book publisher,
116
412863
2200
un editore di libri per bambini no-profit,
06:55
like Pratham Books,
117
415063
1300
come Pratham Books,
06:56
and most importantly, the speakers of the community.
118
416363
2434
e, cosa più importante, gli oratori della comunità.
06:58
The Gond tribals themselves participated in this activity
119
418830
4933
07:03
and for the first time edited and translated children’s books in Gondi.
120
423797
5633
Per la prima volta hanno pubblicato e tradotto libri per bambini in Gondi.
07:09
We were able to put out 200 books for the very first time in Gondi,
121
429463
5334
Per la prima volta abbiamo pubblicato 200 libri in gondi,
07:14
so that the children had access to stories and books in their own language.
122
434830
4700
in modo che i bambini avessero accesso a storie e libri nella loro lingua.
07:19
Another extension of this was Adivasi Radio,
123
439530
2267
Un’altro progetto è stato Adivasi Radio,
07:21
which was like an app that we built and developed in Microsoft Research,
124
441830
4033
un’applicazione che abbiamo creato e sviluppato a Microsoft Research,
07:25
and then put out there, along with our stakeholders,
125
445863
4567
e poi rilasciato insieme ai nostri stakeholder,
07:30
which takes a Hindi text-to-speech system
126
450463
3067
che integra un sistema di text-to-speech in hindi
07:33
and allows it to read out news and articles provided by CGNet Swara
127
453530
6400
e gli permette di leggere le notizie e gli articoli forniti da Cgnet Swara
07:39
in Gondi language.
128
459963
2434
in lingua gondi.
07:42
Users can now use this app to read,
129
462430
2767
Ora gli usano questa applicazione per leggere,
07:45
watch news and access any information
130
465197
3433
guardare le news e accedere a qualsiasi informazione
07:48
through text and voice in their own language.
131
468663
3900
attraverso il testo e la voce nella propria lingua.
07:52
A very interesting thing is that this app is now being used to translate --
132
472563
3634
Una cosa molto interessante è che questa app viene ora usata per tradurre
07:56
by the community to translate text from Hindi to Gondi.
133
476197
4833
la comunità traduce testi da hindi a gondi.
08:01
Now, what that will result in is a lot of parallel data,
134
481030
3333
Ora, il risultato saranno un sacco di dati paralleli,
08:04
that we call parallel data,
135
484363
1534
che chiamiamo dati paralleli,
08:05
that will allow us to build machine translation systems for Gondi,
136
485930
3500
che permetteranno di costruire sistemi di traduzione automatica in gondi,
08:09
which will truly open up a window for the Gond community to the world.
137
489463
5900
che apriranno una finestra sul mondo per la comunità Gond.
08:15
And what is even more important is now we know how to do this.
138
495363
3567
E la cosa ancora più importante è che ora sappiamo come fare.
08:18
We have the entire pipeline and we can replicate this for any language
139
498963
4600
Abbiamo l’intera pipeline e possiamo replicarla per qualsiasi lingua
08:23
and any language community
140
503563
1900
e qualsiasi comunità linguistica
08:25
which is in a similar situation as the Gond tribals.
141
505497
3033
che si trova in una situazione come quella delle tribù Gond.
08:29
Also education -- yes, you know, information access -- yes,
142
509630
4833
Anche l’istruzione, insomma l’accesso alle informazioni, sì,
08:34
but what about earning a living?
143
514497
2700
ma come ci si guadagna da vivere?
08:37
Right? What about -- how can we make these people earn a living
144
517830
4200
Giusto? Come possiamo permettere a queste persone di guadagnare
08:42
through the digital tools that all of us just take for granted these days?
145
522030
3867
attraverso gli strumenti digitali che tutti noi diamo per scontati oggi?
08:45
Vivek Seshadri, who's another researcher at MSR,
146
525930
2533
Vivek Seshadri, un altro ricercatore della MSR,
08:48
and his collaborator, Manu Chopra,
147
528497
2100
e il suo collaboratore, Manu Chopra,
08:50
they've designed a platform called Karya
148
530630
2500
hanno progettato una piattaforma chiamata Karya
08:53
for providing digital microtasks to the underserved communities.
149
533163
4600
per fornire microattività digitali alle comunità scarsamente servite.
08:57
His aim was basically to find a way to provide a means of dignified labor
150
537797
5433
Lo scopo era quello di trovare un modo per fornire un mezzo di lavoro dignitoso
09:03
to the populations, the rural populations
151
543263
2034
alle popolazioni, le popolazioni rurali,
09:05
and the urban poor populations of this country.
152
545330
2300
e le popolazioni povere urbane di questo paese.
09:08
They don't have access to all the knowledge
153
548530
3000
Non hanno accesso alle conoscenze
09:11
to use the digital platforms
154
551530
2567
per utilizzare le piattaforme digitali
09:14
that all of us use every day without even thinking, right?
155
554130
4200
che tutti noi usiamo ogni giorno senza neanche pensarci, giusto?
09:18
But ...
156
558930
1233
Ma...
09:20
Here is a large
157
560863
2434
Qui c’è una grande
09:23
literate population that wants to work, right,
158
563330
4133
popolazione alfabetizzata che vuole lavorare, giusto,
09:27
and how can we make this possible for them?
159
567497
2766
e come possiamo renderlo possibile?
09:30
So Karya is one such way
160
570297
3500
Quindi Karya è uno dei modi
09:33
through which this population can get on to the digital world
161
573830
4033
con cui questa popolazione può raggiungere il mondo digitale
09:37
and, you know,
162
577863
1434
e, insomma,
09:39
through that find work and do tasks that can then earn them money.
163
579330
4433
con cui trovare lavoro e mansioni che facciano guadagnare dei soldi.
09:43
So we saw this and we thought, oh, this is wonderful.
164
583797
2500
Quindi nel vederlo abbiamo pensato, è meraviglioso.
09:46
We could probably use this for data collection as well.
165
586330
2600
Potremmo usarlo anche per la raccolta dati.
09:48
So we went to Amale,
166
588963
2000
Così siamo andati ad Amale,
09:50
which is a small village of 200 people
167
590997
3266
che è un piccolo villaggio di 200 persone
09:54
in the Wada district of Maharashtra
168
594297
1933
nel distretto di Wada di Maharashtra
09:56
and decided to use Karya to collect Marathi data.
169
596263
2667
e abbiamo usato Karya per raccogliere dati marathi.
09:58
Now, I know what you are thinking --
170
598963
1900
Ora, so cosa state pensando,
10:00
I'm sure a lot of Marathi speakers also in the audience --
171
600930
2767
Sono sicura che ci sono parlanti Marathi nel pubblico,
10:03
that Marathi is not a low-resource language.
172
603697
2400
che il marathi non è una lingua con poche risorse.
10:06
Marathi is definitely a mainstream language of the country.
173
606130
3600
Il marathi è una lingua tradizionale del paese.
10:09
But as far as language technology is concerned,
174
609763
2500
Ma per quanto riguarda la tecnologia linguistica,
10:12
Marathi is a low-resource language.
175
612297
2333
Il marathi è una lingua con poche risorse.
10:14
So we went to this village
176
614663
1600
Quindi siamo andati nel villaggio
10:16
and we had a very successful data-collection trip.
177
616297
3800
e abbiamo fatto un giro di raccolta dati di grande successo.
10:20
And, you know, this village is very remote.
178
620130
3567
E, insomma, questo villaggio è molto remoto.
10:23
They have no TV, they have no electricity,
179
623697
2700
Non hanno la TV, non hanno l’elettricità,
10:26
they have no mobile signal.
180
626430
3833
non hanno segnale mobile.
10:30
You have to climb a hill and wave your phone around
181
630297
2633
Devi scalare una collina e agitare il telefono
10:32
if you want to, you know, use your mobile to call anyone.
182
632963
3200
Se vuoi usare il cellulare e chiamare qualcuno.
10:37
So they gave us all this data.
183
637197
1766
Ci hanno dato tutti questi dati.
10:38
But more than that, they gave us very valuable lessons in life.
184
638997
3266
Ma soprattutto ci hanno dato preziose lezioni di vita.
10:43
One is this pride in one's own language.
185
643063
3000
Uno è l’orgoglio della propria lingua.
10:46
The people of Amale were thrilled to be doing this
186
646063
2667
La gente di Amale era entusiasta di partecipare
10:48
because they were advancing their own language by doing this.
187
648763
5834
perché stavano facendo avanzare la loro lingua.
10:54
The second was the value of community.
188
654630
1833
Il secondo è il valore della comunità.
10:56
Very quickly, this became a village community effort.
189
656497
3900
Molto rapidamente, questo divenne un impegno per la comunità del villaggio.
11:00
People would gather together in tasks and do this together as a group.
190
660430
4867
Le persone si riunivano per lavorare e lo facevano insieme come un gruppo.
11:05
And the third is the importance of storytelling.
191
665330
3767
E il terzo è l’importanza della narrazione.
11:09
People of Amale were so starved of content that in the morning, during the daytime,
192
669130
6067
La persone di Amale avevano così bisogno di contenuti che la mattina e in giornata
11:15
they would do recordings of stories in Karya
193
675197
4066
facevano registrazioni di storie a Karya
11:19
and then in the evening they would gather the entire village
194
679297
2833
e poi la sera radunano tutto il villaggio
11:22
and retell and recount these stories to the village.
195
682163
3834
e raccontare di nuovo queste storie a tutti.
11:27
So as scientists, we get so caught up
196
687563
2167
Quindi da scienziati, ci siamo fatti prendere
11:29
in the science and technology part of what we are doing, you know --
197
689763
3700
dalla scienza e della tecnologia di ciò che stiamo facendo,
11:33
which is the next best model to have,
198
693497
1966
qual è modello migliore da seguire,
11:35
how can we increase the accuracy of my system,
199
695497
2933
come possiamo aumentare la precisione del sistema,
11:38
how can I build the next best system there is --
200
698463
4600
come possiamo sviluppare il prossimo miglior sistema esistente
11:43
that we forget the reason why we are doing this: the people.
201
703063
3700
che dimentichiamo il motivo per cui lo stiamo facendo: le persone.
11:46
And any successful technology is the one that keeps the people and the users
202
706797
5466
E la tecnologia di successo è quella che mantiene le persone e gli utenti
11:52
up front and center.
203
712297
1566
in primo piano e al centro.
11:54
And when they start doing that,
204
714830
1533
E quando hanno iniziato a farlo,
11:56
we also realize that technology is probably a very small part of this
205
716363
3667
abbiamo anche capito che la tecnologia forse è una piccola parte
12:00
and there are other things in the story.
206
720030
2367
e ci sono altre cose nella storia.
12:02
Maybe there are social, cultural and policy interventions
207
722430
3333
Forse ci sono interventi sociali, culturali e politici
12:05
that are required, as much as technology.
208
725797
2200
che sono necessari, tanto quanto la tecnologia,
12:09
So some time back, I worked on a project called VideoKheti
209
729030
3267
Qualche tempo fa, ho lavorato ad un progetto chiamato Videokheti
12:12
that allowed Hindi-speaking farmers in Central India
210
732330
3600
che ha permesso agli agricoltori di lingua hindi nell’India centrale
12:15
to search for agricultural videos by speaking into a phone-based app.
211
735963
6667
di cercare video agricoli parlando ad un app sul telefono.
12:23
So we went to Madhya Pradesh to collect data for this,
212
743363
3434
Così siamo andati in Madhya Pradesh per raccogliere dati,
12:26
and we came back and we were training our models
213
746830
2300
siamo tornati e mentre controllavamo gli appunti
12:29
and we discovered we're getting very bad results.
214
749163
2367
e abbiamo scoperto che i risultati molto negativi.
12:31
This is not working.
215
751530
1267
Non aveva funzionato.
12:32
So we were very confused. Why is this happening?
216
752830
2267
Quindi eravamo confusi. Perché è successo?
12:35
So we looked deeper and deeper into the data
217
755130
2267
Abbiamo guardato meglio i dati
12:37
and discovered that, yes, we had collected data
218
757430
2233
e abbiamo scoperto che avevamo raccolto i dati
12:39
from what we thought was a very silent, quiet village in the evening.
219
759697
4666
in quello che pensavamo un villaggio molto silenzioso e tranquillo la sera.
12:44
But what we hadn't heard while we were doing this
220
764363
3400
Ma quello che non avevamo sentito mentre lo facevamo
12:47
was that there was this constant buzz of night insects, you know?
221
767797
4100
Era un ronzio costante di insetti notturni.
12:51
So throughout the recordings, we had this "bzz" of the insects,
222
771930
3467
Quindi nelle registrazioni, si sentiva questo “bzz” degli insetti,
12:55
which was actually distorting our speech.
223
775430
2533
che in realtà distorceva i discorsi.
12:58
The second thing was that when we went there
224
778797
2233
La seconda cosa è che quando siamo andati
13:01
to kind of test our app in the village,
225
781030
3867
per provare la nostra app nel villaggio,
13:04
I and my colleague Indrani Medhi,
226
784930
2533
Io e la mia collega Indrani Medhi,
13:07
who is a very well-regarded design researcher,
227
787497
3600
che è un ricercatore di design molto stimato,
13:11
we found that the women couldn't pronounce the sanskritized words
228
791130
4400
abbiamo scoperto che le donne non sanno pronunciare le parole sanscrite
13:15
that we had for some of the search terms.
229
795530
2767
che avevamo portato per alcuni dei termini di ricerca.
13:18
So, like ...
230
798330
1500
Quindi, tipo...
13:21
(speaks Hindi)
231
801663
2800
(parla in Hindi)
13:24
Which is like the term for chemical pesticides, right?
232
804497
3866
Che è l’espressione per pesticidi chimici, ok?
13:28
Because we got these terms from the agricultural extension center
233
808363
5534
Perché abbiamo sentito queste parole al centro di estensione agricola
13:33
and the women, even though they are farming,
234
813930
2100
e le donne, anche se si lavorano la terra,
13:36
do not interact with that center at all.
235
816030
2867
non interagisca affatto con quel centro.
13:38
The men do, the women probably use something much simpler, like ...
236
818930
3967
Gli uomini sì, le donne probabilmente usano qualcosa di più semplice, come...
13:42
(speaks Hindi)
237
822930
1300
(parla in Hindi)
13:44
Which basically means killing pests with medicine.
238
824263
3534
Il che significa uccidere i parassiti con la medicina.
13:48
So what I have learned through my journey
239
828430
3867
Quindi quello che ho imparato con il mio viaggio
13:52
and what I would like to put across to you --
240
832330
2900
e quello che vorrei trasmettervi,
13:55
by now, I hope you've understood me,
241
835263
2000
ma spero che lo abbiate già capito,
13:57
is that there is the majority of the world's languages
242
837297
3433
è che la maggior parte delle lingue del mondo
14:00
that require intensive investment for resource creation
243
840763
4267
richiede investimenti intensivi per la creazione di risorse
14:05
if they are to benefit from language technology.
244
845030
2567
se deve beneficiare della tecnologia linguistica.
14:07
And this is unlikely to happen in a very fast and efficient manner.
245
847630
5367
E questo è difficile che accada in modo molto veloce ed efficiente.
14:13
So it is extremely important for us to ensure
246
853963
2934
Dunque è estremamente importante per noi garantire
14:16
that the community derives maximum benefit
247
856930
3533
che la comunità tragga il beneficio
14:20
from whatever that we are doing in the language tech area.
248
860497
3966
da qualsiasi cosa stiamo facendo nel campo della tecnologia linguistica.
14:24
And to do this and deliver a positive social impact
249
864497
3466
E per fare questo e produrre un impatto sociale positivo
14:27
on these communities,
250
867997
1466
per queste comunità,
14:29
we follow what we call the modified 4-D design thinking methodology.
251
869497
4733
Seguiamo quella che chiamiamo una variante della metodologia di design thinking 4D.
14:34
So the 4-D means: discover, design, develop and deploy.
252
874263
5200
Quindi, le 4 D sono: scoprire, progettare, sviluppare e distribuire.
14:39
So discover the problem that language technology can solve
253
879497
3066
Scoprire il problema che la tecnologia linguistica può risolvere
14:42
for a particular language community.
254
882563
2200
per una specifica comunità linguistica.
14:44
This observation-led approach can help allocate resources
255
884797
3233
L’approccio basato sull’osservazione aiuta ad allocare le risorse
14:48
where they are most needed,
256
888030
1700
dove ce n’è più bisogno,
14:49
designed for the users and their language,
257
889763
2767
progettato per gli utenti e la loro lingua,
14:52
understand the diversity in the linguistic properties
258
892530
3367
comprendere la diversità delle proprietà linguistiche
14:55
and the languages of the world.
259
895930
2100
e delle lingue del mondo.
14:58
And don't think, oh, this is made for English.
260
898030
2400
E non pensate: oh, questo è fatto per l’inglese.
15:00
Now, how can we just adapt it for Marathi or for Gondi, right?
261
900463
4334
Ma: come possiamo adattarlo per Marathi o per Gondi, va bene?
15:04
Develop rapidly and deploy frequently.
262
904830
2600
Sviluppare rapidamente e distribuire frequentemente.
15:07
It's an iterative process that will help you fail fast
263
907463
3500
È un processo iterativo che ti farà fallire velocemente
15:10
and early failures will eventually lead to success.
264
910997
3366
e i primi fallimenti alla fine porteranno al successo.
15:15
The important thing is to persevere.
265
915497
1966
La cosa importante è perseverare.
15:17
Do not give up.
266
917497
1366
Non arrendersi.
15:18
And I remember the story of these two Aborigine Australian women,
267
918863
5734
E ricordo la storia di due donne australiane,
15:24
Patricia O'Connor and Ysola Best.
268
924630
3800
Patricia O’Connor e Ysola Best.
15:29
In the mid-90s, they went to the University of Queensland
269
929763
3134
A metà degli anni ’90, sono andate all’Università del Queensland
15:32
and they wanted to learn their own language, called Yugambeh,
270
932930
3333
e volevano imparare la loro lingua, chiamata Yugambeh,
15:36
and they were told very bluntly, "Your language is dead.
271
936297
2633
E fu detto loro bruscamente: “La vostra lingua è morta.
15:38
It's been dead for three decades.
272
938963
1600
È morta da trent’anni.
15:40
You cannot work on this. Find something else to work on."
273
940563
3867
Non puoi lavorarci. Trovate qualcos’altro su cui lavorare.”
15:44
They did not give up.
274
944463
1267
Non si sono arrese.
15:45
They went to the community,
275
945763
1600
Sono andate dalla comunità,
15:47
they dug up oral memories, oral traditions, oral literature,
276
947363
4867
hanno dissotterrato ricordi orali, tradizioni orali, letteratura orale,
15:52
and founded the Yugambeh Museum,
277
952263
3367
e hanno fondato il Museo Yugambeh,
15:55
which became the most important cultural and linguistic center for the language
278
955663
5434
che è diventato il più importante centro culturale e linguistico per la lingua
16:01
and its community.
279
961130
1767
e la sua comunità.
16:02
They did not have technology. They only had their willpower.
280
962930
4033
Non avevano la tecnologia. Avevano solo la loro forza di volontà.
16:06
Now, with the power of technology,
281
966997
2233
Ora, con il potere della tecnologia,
16:09
we can ensure that the next page is written in Salmi from Finland,
282
969263
5767
possiamo far sì che la prossima pagina sia scritta in Salmi dalla Finlandia,
16:15
Lillooet from Canada or Mundari from India.
283
975030
3467
in Lillooet dal Canada o in Mundari dall’India.
16:19
Thank you.
284
979163
1000
Grazie.
A proposito di questo sito web

Questo sito vi presenterà i video di YouTube utili per l'apprendimento dell'inglese. Vedrete lezioni di inglese tenute da insegnanti di alto livello provenienti da tutto il mondo. Fate doppio clic sui sottotitoli in inglese visualizzati su ogni pagina video per riprodurre il video da lì. I sottotitoli scorrono in sincronia con la riproduzione del video. Se avete commenti o richieste, contattateci tramite questo modulo di contatto.

https://forms.gle/WvT1wiN1qDtmnspy7