Kalika Bali: The giant leaps in language technology -- and who's left behind | TED

54,015 views ・ 2021-04-26

TED


Dubbelklicka på de engelska undertexterna nedan för att spela upp videon.

00:00
Transcriber:
0
0
7000
Översättare: Daniel Lindoff Granskare: Lisbeth Pekkari
Jag heter Kalika Bali och jag är utbildad lingvist
och teknolog till yrket.
Jag har arbetat inom den akademiska världen, i startups,
00:12
I'm Kalika Bali, I'm a linguist by training
1
12430
2800
i små företag och multinationella företag i över två decennier.
00:15
and a technologist by profession,
2
15263
2334
Med forskning och med att bygga språkteknologiska system.
00:17
I have worked in academia,
3
17630
1667
00:19
in startups, in small companies and multinationals for over two decades,
4
19330
5267
Min dröm är att se tekniken fungera över språkbarriärer.
00:24
doing research in and building language technology systems.
5
24630
3733
Som forskare på “Microsoft Research Labs India”
arbetar jag med språkteknologi
00:28
My dream is to see technology work across the language barrier.
6
28363
4667
och talteknologi.
00:33
As a researcher at Microsoft Research Labs India
7
33030
3100
Och jag oroar mig för hur vi ska kunna göra tekniken tillgänglig
00:36
I work in the field of language technology and speech technology.
8
36163
5534
för människor över språkbarriärer.
Oavsett vilket språk de talar.
00:41
And I worry about how can we make technology accessible
9
41697
3600
Så, den naturliga processen av språk,
artificiell intelligens, språkteknologi.
00:45
to people across the board,
10
45330
2200
Det är stora begrepp och de är modeord just nu.
00:47
you know, irrespective of the language that they speak.
11
47530
2967
Alla pratar om NLP ”natural language processing”. Vad är det egentligen?
00:51
So natural language processing,
12
51663
1600
00:53
artificial intelligence, speech technology,
13
53297
2066
00:55
these are very big words, they are buzzwords right now.
14
55363
2600
Väldigt enkelt uttryckt
så är detta en gren inom datavetenskapen där man
00:57
Everybody is talking about what exactly is NLP or natural language processing.
15
57997
5533
utvecklar maskiner som bearbetar,
förstår och genererar språk.
01:03
So in very simple terms,
16
63530
1533
01:05
this is the part of computer science engineering
17
65063
3367
Språket som människor talar.
01:08
that makes machines process,
18
68463
2834
När du interagerar med en bot som försöker boka dina tågbiljetter
01:11
understand and generate natural language,
19
71330
2967
eller flygbiljetter.
01:14
which is the language that humans speak.
20
74330
2233
När du pratar med en röstbaserad digital assistent över telefon.
01:17
When you are interacting with a bot trying to book your train tickets
21
77697
4700
Då är det datorlingvistik som
ligger till grund för hela teknologin som gör det möjligt.
01:22
or flight tickets,
22
82430
1267
01:23
when you are speaking to a voice-based digital assistant in your phone,
23
83697
4833
Men hur fungerar det? Hur fungerar NLP?
01:28
it's natural language processing
24
88530
1600
På en grundläggande nivå rör det sig om information.
01:30
that underpins the entire technology that makes that work.
25
90163
3534
01:34
But how does this work?
26
94797
1266
Så...
01:36
How does NLP work?
27
96063
1567
enorma mängder av information om hur människor faktiskt använder språk.
01:37
In a very, very basic way,
28
97663
3900
01:41
it's about data.
29
101563
1800
Som sedan bearbetas av särskilda algoritmer och teknik
01:43
So a huge amount of data of how actually humans use language
30
103363
6334
som gör att maskiner lär sig mönstren
01:49
is then processed by certain algorithms and techniques
31
109697
5166
i människors naturliga språk.
Nuförtiden är ett annat hett ämne som
01:54
that make the machines learn the patterns
32
114863
2767
man hör mycket om, djupa neurala nätverk.
01:57
of natural language of humans, right?
33
117663
3700
Och det är den avancerade vetenskapen
som datorlingvistik byggs på och som är aktuell just nu.
02:01
These days, another buzzword that you hear a lot about is deep neural networks.
34
121363
5367
Och jag låter bli att gå in i detalj hur det fungerar.
02:06
And these are the advanced techniques
35
126763
2467
Men något som du verkligen måste förstå och ha i åtanke är
02:09
that underpin a lot of the NLP stuff that happens right now.
36
129263
4134
att allt detta kräver oerhörda mängder av information
02:13
And I will not go into the details of how that works,
37
133430
3333
02:16
but the thing that you really have to understand and keep in mind
38
136797
3400
om det naturligt talade språket.
Om du vill ha ett språkteknologiskt system
02:20
is that all of this requires a humungous amount of data,
39
140197
5000
som kan konversera på gujarati,
så är det första du behöver
02:25
natural language data.
40
145197
1666
en massa information om gujaratier som pratar med varandra
02:26
If you want a speech system to converse with you in Gujarati,
41
146863
5267
på sitt eget språk.
02:32
the first thing you require
42
152163
1367
02:33
is a lot of data of Gujarati people speaking to each other
43
153530
4533
Så 2017 kom Microsoft med ett tal- igenkänningssystem som kunde
transkribera tal till text, bättre än en människa kunde.
02:38
in their own language.
44
158063
1867
02:41
So 2017, Microsoft came up with a speech recognition system
45
161663
4734
Och detta system baserades på
02:46
which was able to transcribe speech into text
46
166430
3600
200 miljoner transkriberade ord.
Och 2018 kunde ett engelskt- kinesiskt program för översättning,
02:50
better than a human did.
47
170030
1733
02:52
And this system was trained
48
172563
3167
översätta från engelska till kinesiska
02:55
on 200 million transcribed words.
49
175763
2667
lika bra som en tvåspråkig kunde.
02:58
In 2018, an English-Chinese machine translation system
50
178463
3967
Och detta grundades på 18 miljoner tvåspråkiga meningspar.
03:02
was able to translate from English to Chinese
51
182463
2800
03:05
as well as any human bilingual could.
52
185297
2766
Detta är en väldigt, väldigt spännande tid inom datorlingvistiken och i
03:08
And this was trained on 18 million bilingual sentence pairs.
53
188063
4934
teknologin som sådan.
Ni förstår, idag ser vi science fiction som vi tidigare bara läst om eller sett
03:14
This is a very, very exciting time in natural language processing
54
194330
4433
liksom bli verklighet framför våra egna ögon.
03:18
and in technology as such.
55
198797
1466
Vi tar nu gigantiska kliv i teknologisk utveckling.
03:20
You know, we are seeing science fiction, which we had read about and watched,
56
200297
4466
Men dessa gigantiska kliv är begränsade till väldigt få språk.
03:24
kind of come true in front of our own eyes.
57
204797
2833
03:27
We are making giant leaps in technical advancement.
58
207663
4467
Monojit Choudhury, som är en mycket god vän till mig
03:32
But these giant leaps are limited to very few languages.
59
212163
6234
och kollega,
han har studerat detta i detalj.
Och han har tittat på fördelningen av resurser sett till alla språk i världen.
03:38
So Monojit Choudhury,
60
218430
1300
03:39
who's like a very good friend of mine
61
219763
1867
03:41
and a colleague,
62
221663
2134
Och han säger att dessa följer vad som kallas lagen om maktfördelning.
03:43
he has studied this in some detail
63
223830
1733
03:45
and he has looked at resource distribution across languages in the world.
64
225563
4067
Vilket i huvudsak betyder att det finns fyra språk;
arabiska, kinesiska, engelska och spanska.
03:49
And he says that these follow what is called a power-law distribution,
65
229663
4100
De har den största mängden tillgängliga resurser.
03:53
which essentially means that there are four languages,
66
233797
2766
Det finns ytterligare en handfull språk som också får en fördel av de
03:56
Arabic, Chinese, English and Spanish,
67
236563
2700
03:59
which have the maximum amount of resources available.
68
239297
3766
resurser och den teknologin som finns tillgänglig just nu.
04:03
There are another handful of languages which can also benefit from, you know,
69
243063
5167
Men...
90 procent av världens språk har inga resurser
04:08
the resources and the technology that's available right now.
70
248263
3834
eller väldigt små resurser tillgängliga.
04:12
But there are 90 percent of the world's languages
71
252130
4833
Denna revolution som vi talar om
har i princip kringgått 5 000 språk i världen.
04:16
which have no resources
72
256997
1800
04:18
or very little resources available.
73
258830
2067
Det betyder att språk som har gott om resurser
04:20
This revolution that we are talking about
74
260930
2667
får den teknologiska utvecklingen
04:23
has essentially bypassed 5,000 languages of the world.
75
263630
4100
och attraherar forskare och ingenjörer.
De utvecklar mer teknik åt dem. Det skapar i sin tur mer resurser.
04:27
Now, what this means is that resource-rich languages
76
267763
2534
04:30
have technologies built for them,
77
270330
1800
Så det skapar en sorts spiral där rik blir rikare.
04:32
so researchers and technologists get attracted towards them.
78
272163
3267
Och de resursfattiga språken förblir fattiga.
04:35
They build more technologies for them. They create more resources.
79
275463
3500
De utvecklas inte. Ingen arbetar för dem.
Och denna digitala klyfta mellan språken
04:38
So it's like a rich getting richer kind of a cycle.
80
278997
2800
04:41
And the resource-poor languages stay poor,
81
281830
2400
expanderar ständigt samtidigt som klyftan mellan samhällena
04:44
there's no technology for them, nobody works for them.
82
284263
2600
04:46
And this divide, digital divide between languages
83
286863
3400
som talar dessa språk, expanderar.
04:50
is ever-expanding
84
290297
1500
04:51
and by implication also the divide between the communities
85
291830
4633
Så hos Microsoft, i projektet Ellora, strävar vi efter att överbrygga klyftan.
04:56
that speak these languages is expanding.
86
296497
2500
Vi försöker se hur vi kan skapa mer information med innovativa metoder.
05:00
So in Microsoft, in Project Ellora, we aim to bridge this gap.
87
300763
4767
Använda annan teknologi eller
skapa ny teknologi utan att ha tillgång till så mycket resurser.
05:06
We are trying to see how can we create more data by innovative methods,
88
306663
5567
Och se var dessa applikationer verkligen kan gynna dessa samhällen.
05:12
have more techniques to build technology without having a lot of resources,
89
312263
5800
Så just nu kan detta upplevas vara väldigt teoretiskt.
05:18
and what are the applications that can truly benefit these communities.
90
318063
4200
Vad betyder det egentligen? Data, teknologisk utveckling.
Så låt mig ge dig några väldigt konkreta exempel här.
05:23
So at the moment, this might seem very theoretical,
91
323463
3334
I mitt hjärta är jag lingvist och
05:26
like what is he talking about, data and techniques and technology.
92
326830
3133
jag älskar språk och det är det jag älskar att prata om.
05:29
So let me give you a very concrete example here.
93
329997
3066
Så låt mig berätta om ett språk som många av er kanske inte känner till.
05:33
I'm a linguist at heart, I love languages, and that's what I love talking about.
94
333063
5300
Gondi.
Gondi är ett dravidiskt språk talat i den centrala södern.
05:38
So let me tell you about a language that many of you might not know about.
95
338363
4367
Det talas av tre miljoner människor fördelat på fem delstater i Indien.
05:42
Gondi.
96
342763
1267
Och för att sätta detta i något slags perspektiv så
05:44
Gondi is a South-Central Dravidian language.
97
344030
2700
talas norska av fem miljoner människor.
05:46
It is spoken by three million people in five states of India.
98
346763
4434
Och walesiska av knappt en miljon.
05:51
And to put this in some kind of perspective,
99
351197
3000
Så gondi är faktiskt ett ganska robust språk i ett ganska stort samhälle,
05:54
Norwegian is spoken by five million people
100
354197
2833
05:57
and Welsh by a little under a million.
101
357030
2933
hos Gond-stammen i Indien.
05:59
So Gondi is actually a pretty robust and pretty large community
102
359997
6200
Men i UNESCO:s “Atlas of Languages in Danger”,
så har gondi statusen “sårbar”.
06:06
of the Gond tribals in India.
103
366197
2900
06:09
But by UNESCO's Atlas of Languages in Danger,
104
369130
5067
Den oberoende organisationen CGNet Swara bidrar med en portal för
06:14
Gondi is designated vulnerable status.
105
374197
4366
medborgarjournalism i Gond-samhället
genom att sprida lokala nyheter som blir tillgängliga i deras mobiltelefoner.
06:19
CGNet Swara is an NGO that provides a citizen journalism portal
106
379030
4533
Det finns absolut ingen teknisk support på gondi.
06:23
for the Gond community
107
383563
1867
Det finns ingen tillgänglig information om gondi.
06:25
by making local stories accessible through mobile phones.
108
385463
4234
Det finns inga resurser tillgängliga för gondi.
06:29
There's absolutely no tech support for Gondi.
109
389697
2933
Så allt innehåll som skapas, modereras eller redigeras, görs manuellt.
06:32
There is no data available for Gondi, no resources available for Gondi.
110
392663
4800
I Ellora-projektet förde vi samman alla intressenter.
06:37
So all content that is created, moderated and edited is done manually.
111
397497
5066
Så som CGNet Swara och
akademiska instutioner så som IIIT Naya Raipur,
06:42
Now, under Project Ellora,
112
402563
2067
06:44
what we did was that we brought together all the stakeholders,
113
404663
2967
icke vinstdrivande barnboksförlag som Pratham Books.
06:47
an NGOs like CGNet Swara,
114
407663
1800
Och viktigast av allt, samhällets språkrör.
06:49
and academic institutions, like IIIT Naya Raipur,
115
409497
3366
Gond-stammen själva deltog i denna aktivitet
06:52
a not-for-profit children's book publisher,
116
412863
2200
06:55
like Pratham Books,
117
415063
1300
och för första gången redigerade och översatte de barnböcker till gondi.
06:56
and most importantly, the speakers of the community.
118
416363
2434
06:58
The Gond tribals themselves participated in this activity
119
418830
4933
Vi kunde för första gången publicera 200 böcker i språket gondi.
07:03
and for the first time edited and translated children’s books in Gondi.
120
423797
5633
Så att barnen hade tillgång till berättelser och böcker på deras språk.
07:09
We were able to put out 200 books for the very first time in Gondi,
121
429463
5334
En annan utveckling av detta var Adivasi Radio.
Det var en app som vi byggde och utvecklade hos Microsoft Research.
07:14
so that the children had access to stories and books in their own language.
122
434830
4700
Som vi sedan erbjöd tillsammans med våra intressenter.
07:19
Another extension of this was Adivasi Radio,
123
439530
2267
07:21
which was like an app that we built and developed in Microsoft Research,
124
441830
4033
Appen tar ett text till talsystem på hindi
07:25
and then put out there, along with our stakeholders,
125
445863
4567
och låter appen läsa upp nyheter och artiklar från CGNet Swara
07:30
which takes a Hindi text-to-speech system
126
450463
3067
på gondi.
07:33
and allows it to read out news and articles provided by CGNet Swara
127
453530
6400
Nu kan användaren använda appen för att läsa,
se nyheter och få tillgång till all information
07:39
in Gondi language.
128
459963
2434
genom text och röst på sitt eget språk.
07:42
Users can now use this app to read,
129
462430
2767
Något väldigt intressant är att appen nu används till att översätta.
07:45
watch news and access any information
130
465197
3433
Den används av samhället för att översätta text från hindi till gondi.
07:48
through text and voice in their own language.
131
468663
3900
07:52
A very interesting thing is that this app is now being used to translate --
132
472563
3634
Det kommer att resultera i en stor mängd av parallell information.
Vi menar parallell information som
07:56
by the community to translate text from Hindi to Gondi.
133
476197
4833
kommer låta oss utveckla system för maskinöversättning på gondi.
Vilket verkligen öppnar upp ett fönster för Gond-samhället mot resten av världen.
08:01
Now, what that will result in is a lot of parallel data,
134
481030
3333
08:04
that we call parallel data,
135
484363
1534
08:05
that will allow us to build machine translation systems for Gondi,
136
485930
3500
Och vad som är ännu viktigare, är att nu vet vi hur vi ska göra det.
08:09
which will truly open up a window for the Gond community to the world.
137
489463
5900
Vi har tillvägagångssättet och kan upprepa det för vilket språk som helst
08:15
And what is even more important is now we know how to do this.
138
495363
3567
och vilka folkgrupper som helst
som är i en liknande situation som Gond-stammen.
08:18
We have the entire pipeline and we can replicate this for any language
139
498963
4600
Så utbildning, och tillgång till information, ja visst.
08:23
and any language community
140
503563
1900
08:25
which is in a similar situation as the Gond tribals.
141
505497
3033
Men...
vad med att tjäna till sitt uppehälle?
08:29
Also education -- yes, you know, information access -- yes,
142
509630
4833
Hur kan vi låta dessa människor tjäna sitt uppehälle
genom de digitala verktyg som vi alla idag tar för givet?
08:34
but what about earning a living?
143
514497
2700
08:37
Right? What about -- how can we make these people earn a living
144
517830
4200
Vivek Seshadri som är en annan forskare vid MSR
och hans medarbetare Manu Chopra
08:42
through the digital tools that all of us just take for granted these days?
145
522030
3867
har skapat en plattform som heter Karya.
För att erbjuda digitala mikro- uppgifter till missgynnade samhällen.
08:45
Vivek Seshadri, who's another researcher at MSR,
146
525930
2533
08:48
and his collaborator, Manu Chopra,
147
528497
2100
Hans mål var att hitta ett sätt att erbjuda ett en väg till värdigt arbete
08:50
they've designed a platform called Karya
148
530630
2500
08:53
for providing digital microtasks to the underserved communities.
149
533163
4600
för folk på landsbygden och fattig befolkning i städerna.
08:57
His aim was basically to find a way to provide a means of dignified labor
150
537797
5433
De har varken tillgång till eller
kunskap för att använda sig av de digitala plattformarna som
09:03
to the populations, the rural populations
151
543263
2034
09:05
and the urban poor populations of this country.
152
545330
2300
vi alla använder varje dag, utan att vi tänker på hur vi gör.
09:08
They don't have access to all the knowledge
153
548530
3000
Men...
09:11
to use the digital platforms
154
551530
2567
här är en stor...
09:14
that all of us use every day without even thinking, right?
155
554130
4200
läskunnig befolkning som vill arbeta.
09:18
But ...
156
558930
1233
Hur ska vi då göra det möjligt för dem?
09:20
Here is a large
157
560863
2434
Så, Karya är ett sådant sätt
09:23
literate population that wants to work, right,
158
563330
4133
för den här gruppen att komma in i den digitala världen.
09:27
and how can we make this possible for them?
159
567497
2766
Och på så sätt
09:30
So Karya is one such way
160
570297
3500
hitta arbete och göra uppgifter som de sedan kan tjäna pengar på.
09:33
through which this population can get on to the digital world
161
573830
4033
Så vi såg detta och tänkte: Det här är underbart,
09:37
and, you know,
162
577863
1434
vi kan förmodligen samla information samtidigt.
09:39
through that find work and do tasks that can then earn them money.
163
579330
4433
Så vi åkte till Amale.
Det är en liten by med 200 boende i Wada-distriktet i Maharashtra.
09:43
So we saw this and we thought, oh, this is wonderful.
164
583797
2500
09:46
We could probably use this for data collection as well.
165
586330
2600
Där använde vi Karya för att samla information om marathi.
09:48
So we went to Amale,
166
588963
2000
09:50
which is a small village of 200 people
167
590997
3266
Nu vet jag vad ni tänker och där är säkert en del av er i publiken som
talar marahati.
09:54
in the Wada district of Maharashtra
168
594297
1933
Att marathi inte är ett resursfattigt språk
09:56
and decided to use Karya to collect Marathi data.
169
596263
2667
Marathi är definitivt ett vanligt språk i landet.
09:58
Now, I know what you are thinking --
170
598963
1900
10:00
I'm sure a lot of Marathi speakers also in the audience --
171
600930
2767
Men sett till språkteknologi så är
10:03
that Marathi is not a low-resource language.
172
603697
2400
marathi ett resursfattigt språk.
10:06
Marathi is definitely a mainstream language of the country.
173
606130
3600
Så vi åkte till den här byn och vi var väldigt framgångsrika
10:09
But as far as language technology is concerned,
174
609763
2500
i att samla information.
10:12
Marathi is a low-resource language.
175
612297
2333
Och den här byn är...
10:14
So we went to this village
176
614663
1600
väldigt avlägsen.
De har ingen TV. De har ingen elektricitet.
10:16
and we had a very successful data-collection trip.
177
616297
3800
De har ingen...
10:20
And, you know, this village is very remote.
178
620130
3567
mobilsignal. Du måste klättra upp för en kulle och vifta med din telefon
10:23
They have no TV, they have no electricity,
179
623697
2700
om du vill använda den för att ringa någon.
10:26
they have no mobile signal.
180
626430
3833
Så vi fick all denna information.
10:30
You have to climb a hill and wave your phone around
181
630297
2633
Men de gav oss också väldigt värdefulla insikter om livet.
10:32
if you want to, you know, use your mobile to call anyone.
182
632963
3200
En insikt är värdet man lägger i ens egna språk.
10:37
So they gave us all this data.
183
637197
1766
Folket i Amale var glada över att få vara med om detta
10:38
But more than that, they gave us very valuable lessons in life.
184
638997
3266
därför att de lyfte deras egna språk.
10:43
One is this pride in one's own language.
185
643063
3000
Genom att själv bidra.
Det andra var värdet i gemenskapen.
10:46
The people of Amale were thrilled to be doing this
186
646063
2667
10:48
because they were advancing their own language by doing this.
187
648763
5834
Väldigt snabbt blev detta en gemensam insats i byn.
Människor drogs till varandra i uppgifter och utförde dem tillsammans.
10:54
The second was the value of community.
188
654630
1833
10:56
Very quickly, this became a village community effort.
189
656497
3900
Och den tredje insikten är vikten av berättande.
11:00
People would gather together in tasks and do this together as a group.
190
660430
4867
Människor i Amale var så svultna på innehåll att man under morgonen
11:05
And the third is the importance of storytelling.
191
665330
3767
gjorde inspelningar av ett antal berättelser med Karya.
11:09
People of Amale were so starved of content that in the morning, during the daytime,
192
669130
6067
Sedan på kvällen samlades hela byn
för att återberätta och uppleva dessa berättelser.
11:15
they would do recordings of stories in Karya
193
675197
4066
Tillsammans i byn.
11:19
and then in the evening they would gather the entire village
194
679297
2833
Som forskare så fastnar vi så lätt i
vetenskapen och tekniken i det vi gör.
11:22
and retell and recount these stories to the village.
195
682163
3834
Vilken är nästa bästa modell?
11:27
So as scientists, we get so caught up
196
687563
2167
Hur kan vi öka noggrannheten i mitt system? Hur kan jag...
11:29
in the science and technology part of what we are doing, you know --
197
689763
3700
skapa det absolut bästa systemet som finns?
11:33
which is the next best model to have,
198
693497
1966
Vi glömmer bort varför vi gör detta.
11:35
how can we increase the accuracy of my system,
199
695497
2933
För folket.
11:38
how can I build the next best system there is --
200
698463
4600
Och all framgångsrik teknik är den som håller folket och användaren
11:43
that we forget the reason why we are doing this: the people.
201
703063
3700
i centrum.
11:46
And any successful technology is the one that keeps the people and the users
202
706797
5466
Och när de använder tekniken
inser vi också att tekniken bara är en väldigt liten del av detta.
Att det finns andra aspekter i denna historia.
11:52
up front and center.
203
712297
1566
Kanske där finns sociala, kulturella och politiska åtgärder
11:54
And when they start doing that,
204
714830
1533
11:56
we also realize that technology is probably a very small part of this
205
716363
3667
som är lika nödvändiga som själva teknologin.
12:00
and there are other things in the story.
206
720030
2367
Så för en tid sedan när jag arbetade med projektet VideoKheti
12:02
Maybe there are social, cultural and policy interventions
207
722430
3333
som skulle låta hinditalande bönder i centrala Indien att
12:05
that are required, as much as technology.
208
725797
2200
leta efter videor om jordbruk genom att tala till en mobilapp.
12:09
So some time back, I worked on a project called VideoKheti
209
729030
3267
12:12
that allowed Hindi-speaking farmers in Central India
210
732330
3600
Då åkte vi till Madhya Pradesh för att samla information.
12:15
to search for agricultural videos by speaking into a phone-based app.
211
735963
6667
Väl tillbaka för att arbeta med våra modeller upptäckte vi
att vi fått väldigt dåliga resultat. Det fungerade inte.
12:23
So we went to Madhya Pradesh to collect data for this,
212
743363
3434
Vi var väldigt förbryllade. Varför blev det så här? Så vi tittade djupare i
12:26
and we came back and we were training our models
213
746830
2300
vår information och upptäckte att vi hade samlat information från
12:29
and we discovered we're getting very bad results.
214
749163
2367
12:31
This is not working.
215
751530
1267
vad vi trodde var en väldigt tyst och lugn by, på kvällen.
12:32
So we were very confused. Why is this happening?
216
752830
2267
12:35
So we looked deeper and deeper into the data
217
755130
2267
Men vad vi inte hört när vi gjort detta var
12:37
and discovered that, yes, we had collected data
218
757430
2233
12:39
from what we thought was a very silent, quiet village in the evening.
219
759697
4666
att det fanns ett konstant surrande från nattinsekter!
Så genomgående i inspelningarna hade vi det surrande ljudet av insekter
12:44
But what we hadn't heard while we were doing this
220
764363
3400
12:47
was that there was this constant buzz of night insects, you know?
221
767797
4100
som faktiskt förvrängde vårt språk.
Den andra saken vi upptäckte var när vi åkte till byn för att..
12:51
So throughout the recordings, we had this "bzz" of the insects,
222
771930
3467
testa vår app i byn, jag och min kollega Indrani Medhi
12:55
which was actually distorting our speech.
223
775430
2533
12:58
The second thing was that when we went there
224
778797
2233
som är en väldigt ansedd forskare.
13:01
to kind of test our app in the village,
225
781030
3867
Vi såg att kvinnorna inte kunde uttala de termer som vi angett på sanskrit
13:04
I and my colleague Indrani Medhi,
226
784930
2533
13:07
who is a very well-regarded design researcher,
227
787497
3600
som några av söktermerna.
Så som...
13:11
we found that the women couldn't pronounce the sanskritized words
228
791130
4400
( talar hindi )
13:15
that we had for some of the search terms.
229
795530
2767
Vilket är termen för kemiska bekämpningsmedel.
13:18
So, like ...
230
798330
1500
Vi fick dessa termer från jordbrukscentret,
13:21
(speaks Hindi)
231
801663
2800
13:24
Which is like the term for chemical pesticides, right?
232
804497
3866
och även om kvinnorna är jordbrukare så
interagerar de inte alls med centret.
13:28
Because we got these terms from the agricultural extension center
233
808363
5534
Männen använder termerna och kvinnorna använder förmodligen något enklare, som:
13:33
and the women, even though they are farming,
234
813930
2100
(talar hindi)
Vilket i princip betyder “dödar skadedjur med medicin”.
13:36
do not interact with that center at all.
235
816030
2867
13:38
The men do, the women probably use something much simpler, like ...
236
818930
3967
Så vad jag lärt mig på denna resa
13:42
(speaks Hindi)
237
822930
1300
och som jag vill förmedla till er,
13:44
Which basically means killing pests with medicine.
238
824263
3534
vilket jag hoppas att ni har förstått, är att...
13:48
So what I have learned through my journey
239
828430
3867
majoriteten av världens språk kräver intensiva investeringar
13:52
and what I would like to put across to you --
240
832330
2900
för att skapa resurser om de ska dra nytta av språkteknologi.
13:55
by now, I hope you've understood me,
241
835263
2000
13:57
is that there is the majority of the world's languages
242
837297
3433
Och det är osannolikt att det ska ske på ett snabbt och effektivt sätt.
14:00
that require intensive investment for resource creation
243
840763
4267
14:05
if they are to benefit from language technology.
244
845030
2567
Så det är oerhört viktigt för oss att säkerställa
14:07
And this is unlikely to happen in a very fast and efficient manner.
245
847630
5367
att samhällen får maximal nytta
av det vi gör inom språkvetenskap.
14:13
So it is extremely important for us to ensure
246
853963
2934
14:16
that the community derives maximum benefit
247
856930
3533
Och för att göra det och leverera en positiv social påverkan
på dessa samhällen,
14:20
from whatever that we are doing in the language tech area.
248
860497
3966
följer vi det vi kallar för modifierad “4-D design thinking methodology”.
14:24
And to do this and deliver a positive social impact
249
864497
3466
Vad 4-D betyder är att upptäcka, skapa, utveckla och tillämpa.
14:27
on these communities,
250
867997
1466
14:29
we follow what we call the modified 4-D design thinking methodology.
251
869497
4733
Alltså att upptäcka problemet som språkvetenskapen kan lösa
14:34
So the 4-D means: discover, design, develop and deploy.
252
874263
5200
för ett visst språk och de som talar det.
Denna observationsbaserade strategi kan hjälpa att fördela resurser
14:39
So discover the problem that language technology can solve
253
879497
3066
dit de behövs mest,
till nytta för användarna och deras språk.
14:42
for a particular language community.
254
882563
2200
För att förstå mångfalden i språkens egenskaper
14:44
This observation-led approach can help allocate resources
255
884797
3233
bland världens språk.
14:48
where they are most needed,
256
888030
1700
14:49
designed for the users and their language,
257
889763
2767
Och tro inte att det här bara är gjort för engelska.
Hur kan vi nu anpassa detta för marathi eller gondi?
14:52
understand the diversity in the linguistic properties
258
892530
3367
14:55
and the languages of the world.
259
895930
2100
Med en snabb utveckling och frekvent tillämpning.
14:58
And don't think, oh, this is made for English.
260
898030
2400
Det är en iterativ process som hjälper dig att misslyckas snabbt
15:00
Now, how can we just adapt it for Marathi or for Gondi, right?
261
900463
4334
och tidiga misslyckande leder så småningom till framgång.
15:04
Develop rapidly and deploy frequently.
262
904830
2600
Det är viktigt att hålla ut och att inte ge upp.
15:07
It's an iterative process that will help you fail fast
263
907463
3500
Jag minns historien om två aboriginkvinnor i Australien,
15:10
and early failures will eventually lead to success.
264
910997
3366
15:15
The important thing is to persevere.
265
915497
1966
Patricia O’Conner och Ysola Best.
15:17
Do not give up.
266
917497
1366
15:18
And I remember the story of these two Aborigine Australian women,
267
918863
5734
I mitten av 90- talet gick de till University of Queensland och
15:24
Patricia O'Connor and Ysola Best.
268
924630
3800
ville studera sitt eget språk, yugambeh.
De fick ett bryskt besked:
15:29
In the mid-90s, they went to the University of Queensland
269
929763
3134
“Ert språk är utdött, det har det varit i tre decennier.
Ni kan inte arbeta med detta. Hitta något annat att arbeta med.”
15:32
and they wanted to learn their own language, called Yugambeh,
270
932930
3333
De gav inte upp.
15:36
and they were told very bluntly, "Your language is dead.
271
936297
2633
De gick till samhället.
15:38
It's been dead for three decades.
272
938963
1600
De grävde upp muntliga minnen, muntliga traditioner, muntlig litteratur,
15:40
You cannot work on this. Find something else to work on."
273
940563
3867
och grundade Yugambeh Museum
15:44
They did not give up.
274
944463
1267
15:45
They went to the community,
275
945763
1600
15:47
they dug up oral memories, oral traditions, oral literature,
276
947363
4867
som blev det viktigaste kulturella och språkvetenskapliga centret
för språket och dess samhälle.
15:52
and founded the Yugambeh Museum,
277
952263
3367
De hade ingen teknik.
15:55
which became the most important cultural and linguistic center for the language
278
955663
5434
De hade bara sin viljestyrka.
Nu, med teknikens kraft
kan vi försäkra oss att nästa sida är skriven på samiska från Finland,
16:01
and its community.
279
961130
1767
16:02
They did not have technology. They only had their willpower.
280
962930
4033
16:06
Now, with the power of technology,
281
966997
2233
lillooet från Kanada eller mundari från Indien.
16:09
we can ensure that the next page is written in Salmi from Finland,
282
969263
5767
Tack ska ni ha.
16:15
Lillooet from Canada or Mundari from India.
283
975030
3467
16:19
Thank you.
284
979163
1000
Om denna webbplats

På den här webbplatsen hittar du YouTube-videor som är användbara för att lära sig engelska. Du kommer att få se engelska lektioner som ges av förstklassiga lärare från hela världen. Dubbelklicka på de engelska undertexterna som visas på varje videosida för att spela upp videon därifrån. Undertexterna rullar i takt med videouppspelningen. Om du har några kommentarer eller önskemål kan du kontakta oss via detta kontaktformulär.

https://forms.gle/WvT1wiN1qDtmnspy7