Kalika Bali: The giant leaps in language technology -- and who's left behind | TED

54,150 views ・ 2021-04-26

TED


Vennligst dobbeltklikk på de engelske undertekstene nedenfor for å spille av videoen.

00:00
Transcriber:
0
0
7000
Translator: Ragnhild Skarland Reviewer: Thomas Bedin
Jeg heter Kalika Bali. Jeg er utdannet lingvist
og jobber som tekniker.
Jeg har jobbet i akademia,
i oppstart av små og multinasjonale bedrifter i over to tiår,
00:12
I'm Kalika Bali, I'm a linguist by training
1
12430
2800
00:15
and a technologist by profession,
2
15263
2334
forsket på, og bygget system innen språkteknologi.
00:17
I have worked in academia,
3
17630
1667
00:19
in startups, in small companies and multinationals for over two decades,
4
19330
5267
Min drøm er å se teknologi som fungerer på tvers av språkbarrierer.
00:24
doing research in and building language technology systems.
5
24630
3733
Som en forsker ved Microsoft Research Labs i India
jobber jeg med språkteknologi og taleteknologi,
00:28
My dream is to see technology work across the language barrier.
6
28363
4667
00:33
As a researcher at Microsoft Research Labs India
7
33030
3100
og jeg bekymrer meg for hvordan vi kan gjøre teknologi tilgjengelig
00:36
I work in the field of language technology and speech technology.
8
36163
5534
til alle mennesker
uansett hvilket språk de snakker.
00:41
And I worry about how can we make technology accessible
9
41697
3600
Naturlig språk- tilpasning,
kunstig intelligens, taleteknologi,
00:45
to people across the board,
10
45330
2200
er store ord, de er moteord akkurat nå.
00:47
you know, irrespective of the language that they speak.
11
47530
2967
Alle snakker om hva naturlig språkprosessering, NLP, faktisk er.
00:51
So natural language processing,
12
51663
1600
00:53
artificial intelligence, speech technology,
13
53297
2066
00:55
these are very big words, they are buzzwords right now.
14
55363
2600
Forklart veldig enkelt,
det er den delen av informatikkteknikk
00:57
Everybody is talking about what exactly is NLP or natural language processing.
15
57997
5533
som får maskinen til å prosessere,
forstå og generere naturlig språk,
01:03
So in very simple terms,
16
63530
1533
01:05
this is the part of computer science engineering
17
65063
3367
som er det språket som mennesker snakker.
01:08
that makes machines process,
18
68463
2834
Når du samhandler med en bot mens du bestiller togbilletter
01:11
understand and generate natural language,
19
71330
2967
eller flybilletter,
01:14
which is the language that humans speak.
20
74330
2233
når du snakker til en stemmestyrt digital assistent i telefonen,
01:17
When you are interacting with a bot trying to book your train tickets
21
77697
4700
er det naturlig språkprosessering
som understøtter teknologien som gjør at det virker.
01:22
or flight tickets,
22
82430
1267
01:23
when you are speaking to a voice-based digital assistant in your phone,
23
83697
4833
Men hvordan virker det?
Hvordan virker NLP?
01:28
it's natural language processing
24
88530
1600
Sagt på en veldig enkel måte,
01:30
that underpins the entire technology that makes that work.
25
90163
3534
det handler om data.
01:34
But how does this work?
26
94797
1266
En stor mengde data om hvordan mennesker faktisk bruker språket
01:36
How does NLP work?
27
96063
1567
01:37
In a very, very basic way,
28
97663
3900
01:41
it's about data.
29
101563
1800
blir prosessert av spesielle algoritmer og teknikker
01:43
So a huge amount of data of how actually humans use language
30
103363
6334
som gjør at maskinen lærer mønstre
01:49
is then processed by certain algorithms and techniques
31
109697
5166
for naturlig menneskelig språk, ikke sant?
I dag er nevrale nettverk et annet moteord du hører mye om.
01:54
that make the machines learn the patterns
32
114863
2767
01:57
of natural language of humans, right?
33
117663
3700
Dette er avanserte teknikker
som understøtter mye av NLP-tingene som skjer nå.
02:01
These days, another buzzword that you hear a lot about is deep neural networks.
34
121363
5367
Jeg skal ikke gå i detalj på hvordan det fungerer,
02:06
And these are the advanced techniques
35
126763
2467
men det du virkelig må forstå og huske på
02:09
that underpin a lot of the NLP stuff that happens right now.
36
129263
4134
er at alt dette krever enorme mengder data,
02:13
And I will not go into the details of how that works,
37
133430
3333
02:16
but the thing that you really have to understand and keep in mind
38
136797
3400
naturlig språkdata.
Hvis du vil ha et talesystem til å snakke med deg på gujarati
02:20
is that all of this requires a humungous amount of data,
39
140197
5000
er det første du trenger
02:25
natural language data.
40
145197
1666
en stor mengde data fra gujarati- mennesker som snakker med hverandre
02:26
If you want a speech system to converse with you in Gujarati,
41
146863
5267
på sitt eget språk.
02:32
the first thing you require
42
152163
1367
02:33
is a lot of data of Gujarati people speaking to each other
43
153530
4533
I 2017 kom Microsoft med et talegjenkjennings-system
som kunne transkribere tale til tekst
02:38
in their own language.
44
158063
1867
02:41
So 2017, Microsoft came up with a speech recognition system
45
161663
4734
bedre enn et menneske.
Dette systemet ble trenet
02:46
which was able to transcribe speech into text
46
166430
3600
på 200 millioner transkriberte ord.
I 2018, ble et engelsk-kinesisk maskinoversettelses-system
02:50
better than a human did.
47
170030
1733
02:52
And this system was trained
48
172563
3167
i stand til å oversette fra engelsk til kinesisk
02:55
on 200 million transcribed words.
49
175763
2667
like godt som et hvert tospråklig menneske
02:58
In 2018, an English-Chinese machine translation system
50
178463
3967
Dette ble innøvd med 18 millioner tospråklige setningspar.
03:02
was able to translate from English to Chinese
51
182463
2800
03:05
as well as any human bilingual could.
52
185297
2766
Vi er i en veldig spennende tid for naturlig språkprosessering
03:08
And this was trained on 18 million bilingual sentence pairs.
53
188063
4934
og for slik teknologi.
Du vet, vi ser science fiction, som vi har lest om og sett
03:14
This is a very, very exciting time in natural language processing
54
194330
4433
blir sannhet rett foran øynene våre.
03:18
and in technology as such.
55
198797
1466
Vi gjør store hopp i teknologisk framgang,
03:20
You know, we are seeing science fiction, which we had read about and watched,
56
200297
4466
men disse store hoppene er begrenset til svært få språk.
03:24
kind of come true in front of our own eyes.
57
204797
2833
03:27
We are making giant leaps in technical advancement.
58
207663
4467
Monojit Chouhury,
som er en svært god venn av meg
03:32
But these giant leaps are limited to very few languages.
59
212163
6234
og en kollega,
har studert dette i detalj,
og han har sett på fordelingen av ressurser mellom språk i verden.
03:38
So Monojit Choudhury,
60
218430
1300
03:39
who's like a very good friend of mine
61
219763
1867
03:41
and a colleague,
62
221663
2134
Han sier at ressursene følger det som kalles en maktfordeling,
03:43
he has studied this in some detail
63
223830
1733
03:45
and he has looked at resource distribution across languages in the world.
64
225563
4067
som egentlig betyr at det er fire språk,
arabisk, kinesisk, engelsk og spansk
03:49
And he says that these follow what is called a power-law distribution,
65
229663
4100
som har en maksimum andel av ressurser tilgjengelig.
03:53
which essentially means that there are four languages,
66
233797
2766
Det finnes en håndfull flere språk som kan nyttiggjøre seg
03:56
Arabic, Chinese, English and Spanish,
67
236563
2700
03:59
which have the maximum amount of resources available.
68
239297
3766
ressursene og teknologien som er tilgjengelig nå.
04:03
There are another handful of languages which can also benefit from, you know,
69
243063
5167
Men, det er 90 prosent av verdens språk
04:08
the resources and the technology that's available right now.
70
248263
3834
som ikke har noen ressurser,
eller svært lite ressurser, tilgjengelig.
04:12
But there are 90 percent of the world's languages
71
252130
4833
Denne revolusjonen som vi snakker om
har i bunn og grunn passert forbi 5000 språk i verden.
04:16
which have no resources
72
256997
1800
04:18
or very little resources available.
73
258830
2067
Det dette betyr er at ressursrike språk
04:20
This revolution that we are talking about
74
260930
2667
har teknologi bygd for dem,
04:23
has essentially bypassed 5,000 languages of the world.
75
263630
4100
så forskere og teknikere trekkes mot disse.
De bygger mer teknologi for dem. De skaper mer ressurser.
04:27
Now, what this means is that resource-rich languages
76
267763
2534
04:30
have technologies built for them,
77
270330
1800
Det er som “en riking som blir rikere- sirkel” på en måte,
04:32
so researchers and technologists get attracted towards them.
78
272163
3267
og de ressurs-fattige språkene forblir fattige.
04:35
They build more technologies for them. They create more resources.
79
275463
3500
Det er ikke teknologi og jobber for dem.
04:38
So it's like a rich getting richer kind of a cycle.
80
278997
2800
Dette skillet, det digitale skillet mellom språk,
04:41
And the resource-poor languages stay poor,
81
281830
2400
fortsetter og utvides
og impliserer også at skillet mellom samfunn
04:44
there's no technology for them, nobody works for them.
82
284263
2600
04:46
And this divide, digital divide between languages
83
286863
3400
som snakker disse språkene øker.
04:50
is ever-expanding
84
290297
1500
04:51
and by implication also the divide between the communities
85
291830
4633
I Microsoft, i prosjekt Ellora, er målet å tette gapet.
04:56
that speak these languages is expanding.
86
296497
2500
Vi prøver å se på hvordan vi kan skape mer data gjennom innovative metoder,
05:00
So in Microsoft, in Project Ellora, we aim to bridge this gap.
87
300763
4767
ha flere teknikker for å bygge teknologi uten mye ressurser,
05:06
We are trying to see how can we create more data by innovative methods,
88
306663
5567
og se på hvilke applikasjoner som virkelig kan vær nyttige.
05:12
have more techniques to build technology without having a lot of resources,
89
312263
5800
For øyeblikket kan dette virke teoretisk
05:18
and what are the applications that can truly benefit these communities.
90
318063
4200
som hva snakker han om, data og teknikk og teknologi.
la meg gi deg et konkret eksempel her.
05:23
So at the moment, this might seem very theoretical,
91
323463
3334
Jeg er lingvist i hjertet, jeg elsker språk, og elsker å snakke om det.
05:26
like what is he talking about, data and techniques and technology.
92
326830
3133
05:29
So let me give you a very concrete example here.
93
329997
3066
La meg fortelle deg om et språk du kanskje kjenner til.
05:33
I'm a linguist at heart, I love languages, and that's what I love talking about.
94
333063
5300
Gondi.
Gondi er et sør-asiatisk dravidian språk.
05:38
So let me tell you about a language that many of you might not know about.
95
338363
4367
Det snakkes av tre millioner i fem stater i India.
05:42
Gondi.
96
342763
1267
For å sette dette i et slags perspektiv,
05:44
Gondi is a South-Central Dravidian language.
97
344030
2700
norsk snakkes av fem millioner
05:46
It is spoken by three million people in five states of India.
98
346763
4434
og walisisk av litt under en million.
05:51
And to put this in some kind of perspective,
99
351197
3000
Gondi er et ganske robust og ganske stort samfunn
05:54
Norwegian is spoken by five million people
100
354197
2833
05:57
and Welsh by a little under a million.
101
357030
2933
av gondistammer i India.
05:59
So Gondi is actually a pretty robust and pretty large community
102
359997
6200
Men, UNESCOs Atlas over truede språk,
viser gondis sårbare status.
06:06
of the Gond tribals in India.
103
366197
2900
06:09
But by UNESCO's Atlas of Languages in Danger,
104
369130
5067
CGNet Swara er en NGO, en ikke-statlig organisasjon, som står bak en nyhetsportal
06:14
Gondi is designated vulnerable status.
105
374197
4366
for gondsamfunnet
ved å gjøre lokalt stoff tilgjengelig gjennom mobiltelefoner.
06:19
CGNet Swara is an NGO that provides a citizen journalism portal
106
379030
4533
Det finnes absolutt ingen teknologisk support for gondi.
06:23
for the Gond community
107
383563
1867
Det finnes ikke tilgjengelige data, og ikke tilgjengelige ressurser for gondi.
06:25
by making local stories accessible through mobile phones.
108
385463
4234
06:29
There's absolutely no tech support for Gondi.
109
389697
2933
Alt innhold som skapes, er produsert manuelt.
06:32
There is no data available for Gondi, no resources available for Gondi.
110
392663
4800
Nå, under prosjekt Ellora,
har vi samlet alle interessenter
06:37
So all content that is created, moderated and edited is done manually.
111
397497
5066
en NGO som CGNet Swara,
og akademiske institusjoner som IIIT Naya Raipur,
06:42
Now, under Project Ellora,
112
402563
2067
06:44
what we did was that we brought together all the stakeholders,
113
404663
2967
en ideell utgiver av barnebøker,
som Pratham Books
06:47
an NGOs like CGNet Swara,
114
407663
1800
og viktigst, de som snakker for samfunnet.
06:49
and academic institutions, like IIIT Naya Raipur,
115
409497
3366
Gond-stammene deltar selv i aktiviteten,
06:52
a not-for-profit children's book publisher,
116
412863
2200
06:55
like Pratham Books,
117
415063
1300
og for første gang er det oversatt barnebøker til gondi.
06:56
and most importantly, the speakers of the community.
118
416363
2434
06:58
The Gond tribals themselves participated in this activity
119
418830
4933
Vi oversatte for første gang 200 barnebøker til gondi,
07:03
and for the first time edited and translated children’s books in Gondi.
120
423797
5633
slik at barn fikk tilgang til historier og bøker på sitt eget språk.
07:09
We were able to put out 200 books for the very first time in Gondi,
121
429463
5334
En utvidelse av dette var Adivasi Radio,
som var som en app som vi bygde og utviklet i Microsoft Research,
07:14
so that the children had access to stories and books in their own language.
122
434830
4700
og la ut, sammen med våre støttespillere
07:19
Another extension of this was Adivasi Radio,
123
439530
2267
07:21
which was like an app that we built and developed in Microsoft Research,
124
441830
4033
som tar et hindi tekst-til-tale system
07:25
and then put out there, along with our stakeholders,
125
445863
4567
og lar det lese nyheter og artikler utgitt av CGNet Swara
07:30
which takes a Hindi text-to-speech system
126
450463
3067
på gondi.
07:33
and allows it to read out news and articles provided by CGNet Swara
127
453530
6400
Brukere kan nå bruke appen til å lese,
se nyheter og få tilgang til informasjon
07:39
in Gondi language.
128
459963
2434
gjennom tekst og tale på sitt eget språk.
07:42
Users can now use this app to read,
129
462430
2767
En interessant ting med appen er at den blir brukt av samfunnet
07:45
watch news and access any information
130
465197
3433
til å oversette tekst fra hindi til gondi.
07:48
through text and voice in their own language.
131
468663
3900
07:52
A very interesting thing is that this app is now being used to translate --
132
472563
3634
Det vil resulterer i mange parallelle data,
som vi kaller parallell data,
07:56
by the community to translate text from Hindi to Gondi.
133
476197
4833
som vil la oss bygge et maskinoversettings-system for gondi,
som vil åpne et vindu for gondisamfunnet mot verden.
08:01
Now, what that will result in is a lot of parallel data,
134
481030
3333
08:04
that we call parallel data,
135
484363
1534
08:05
that will allow us to build machine translation systems for Gondi,
136
485930
3500
Det som er enda viktigere er at vi nå vet hvordan vi gjør dette.
08:09
which will truly open up a window for the Gond community to the world.
137
489463
5900
Vi har hele datasekvensen og vi kan kopiere den for alle språk,
08:15
And what is even more important is now we know how to do this.
138
495363
3567
og for alle språksamfunn
som er i lignende situasjon som gondstammene.
08:18
We have the entire pipeline and we can replicate this for any language
139
498963
4600
I tillegg utdanning, ja du vet tilgang på informasjon,
08:23
and any language community
140
503563
1900
08:25
which is in a similar situation as the Gond tribals.
141
505497
3033
men hva med å tjene til livets opphold?
08:29
Also education -- yes, you know, information access -- yes,
142
509630
4833
Hvordan kan vi hjelpe disse menneskene med å tjene penger
gjennom digitale verktøy som vi alle tar for gitt i dag?
08:34
but what about earning a living?
143
514497
2700
08:37
Right? What about -- how can we make these people earn a living
144
517830
4200
Vivek Seshadri, som er en annen forsker på MSR,
og hans partner, Manu Chopra,
08:42
through the digital tools that all of us just take for granted these days?
145
522030
3867
har designet en plattform kalt Karya
for å tilby digitale mikrooppgaver til samfunn med udekkede behov.
08:45
Vivek Seshadri, who's another researcher at MSR,
146
525930
2533
08:48
and his collaborator, Manu Chopra,
147
528497
2100
Hans mål var å finne en måte for å tilby verdig arbeid
08:50
they've designed a platform called Karya
148
530630
2500
08:53
for providing digital microtasks to the underserved communities.
149
533163
4600
til innbyggere, de rurale
og de urbane fattige folk i dette landet.
08:57
His aim was basically to find a way to provide a means of dignified labor
150
537797
5433
De har ikke tilgang til all kunnskapen
09:03
to the populations, the rural populations
151
543263
2034
som man må ha for å bruke de digitale plattformene
09:05
and the urban poor populations of this country.
152
545330
2300
som alle av oss bruker hver dag til og med uten å tenke.
09:08
They don't have access to all the knowledge
153
548530
3000
Men ...
09:11
to use the digital platforms
154
551530
2567
Her er en stor
09:14
that all of us use every day without even thinking, right?
155
554130
4200
lesekyndig befolkning som vil jobbe,
09:18
But ...
156
558930
1233
og hvordan kan vi gjøre det mulig for dem?
09:20
Here is a large
157
560863
2434
Karya er en slik måte
09:23
literate population that wants to work, right,
158
563330
4133
som befolkningen kan ta del i den digitale verden
09:27
and how can we make this possible for them?
159
567497
2766
og, som du forstår,
09:30
So Karya is one such way
160
570297
3500
gjennom det finne arbeid og oppgaver som de kan tjene penger på.
09:33
through which this population can get on to the digital world
161
573830
4033
Vi så dette, og vi tenkte at dette er fantastisk.
09:37
and, you know,
162
577863
1434
Vi kunne bruke dette til datainnsamling også.
09:39
through that find work and do tasks that can then earn them money.
163
579330
4433
Vi dro til Amale,
som er en liten landsby med 200 mennesker
09:43
So we saw this and we thought, oh, this is wonderful.
164
583797
2500
i Wada-distriktet i Maharashtra,
09:46
We could probably use this for data collection as well.
165
586330
2600
og vi ville bruke Karya til å samle marathi-data.
09:48
So we went to Amale,
166
588963
2000
09:50
which is a small village of 200 people
167
590997
3266
Jeg vet hva du tenker...
mange marathi-talere, også blant publikum,
09:54
in the Wada district of Maharashtra
168
594297
1933
tenker at marathi ikke er et lav-ressurs språk.
09:56
and decided to use Karya to collect Marathi data.
169
596263
2667
Marathi er definitivt et utbredt språk i landet.
09:58
Now, I know what you are thinking --
170
598963
1900
10:00
I'm sure a lot of Marathi speakers also in the audience --
171
600930
2767
Men, når det gjelder språkteknologi,
10:03
that Marathi is not a low-resource language.
172
603697
2400
er marathi et lav-ressurs språk.
10:06
Marathi is definitely a mainstream language of the country.
173
606130
3600
Så vi dro til denne landsbyen
og vi hadde suksess med data-innsamlingen.
10:09
But as far as language technology is concerned,
174
609763
2500
Dette er en avsides landsby.
10:12
Marathi is a low-resource language.
175
612297
2333
10:14
So we went to this village
176
614663
1600
De har ikke TV, de har ikke elektrisitet,
10:16
and we had a very successful data-collection trip.
177
616297
3800
de har ikke mobilsignal.
10:20
And, you know, this village is very remote.
178
620130
3567
Du må klatre opp på en topp og vifte med telefonen
10:23
They have no TV, they have no electricity,
179
623697
2700
hvis du vil bruke mobilen til å ringe noen.
10:26
they have no mobile signal.
180
626430
3833
Så de ga oss alle disse dataene.
10:30
You have to climb a hill and wave your phone around
181
630297
2633
Men mer enn det, de ga oss verdifull livskunnskap.
10:32
if you want to, you know, use your mobile to call anyone.
182
632963
3200
En er stoltheten for sitt eget språk.
10:37
So they gave us all this data.
183
637197
1766
Menneskene i Amale var kjempeglade for å gjøre dette,
10:38
But more than that, they gave us very valuable lessons in life.
184
638997
3266
fordi de utviklet sitt eget språk ved å gjøre dette.
10:43
One is this pride in one's own language.
185
643063
3000
10:46
The people of Amale were thrilled to be doing this
186
646063
2667
Det andre var verdien for samfunnet.
10:48
because they were advancing their own language by doing this.
187
648763
5834
svært raskt ble dette en felles innsats for landsbyen.
Folk samlet seg om oppgaver og gjorde dem sammen i grupper.
10:54
The second was the value of community.
188
654630
1833
10:56
Very quickly, this became a village community effort.
189
656497
3900
Det tredje er viktigheten av historiefortelling.
11:00
People would gather together in tasks and do this together as a group.
190
660430
4867
Folk i Amale var så sultne på innhold at de på morgenene og i løpet av dagen
11:05
And the third is the importance of storytelling.
191
665330
3767
gjorde opptak av historier i Karya,
11:09
People of Amale were so starved of content that in the morning, during the daytime,
192
669130
6067
og om kvelden samlet de alle i landsbyen
og gjenfortalte disse historiene til landsbyen.
11:15
they would do recordings of stories in Karya
193
675197
4066
11:19
and then in the evening they would gather the entire village
194
679297
2833
Som forskere, blir vi så fanget
i vitenskapen og teknologien av det vi driver med:
11:22
and retell and recount these stories to the village.
195
682163
3834
hva er den neste beste modellen,
11:27
So as scientists, we get so caught up
196
687563
2167
hvordan kan vi forbedre nøyaktigheten av systemet,
11:29
in the science and technology part of what we are doing, you know --
197
689763
3700
hvordan kan jeg bygge det neste og beste systemet,
11:33
which is the next best model to have,
198
693497
1966
slik at vi glemmer årsaken til hvorfor vi gjør dette, nemlig folket.
11:35
how can we increase the accuracy of my system,
199
695497
2933
11:38
how can I build the next best system there is --
200
698463
4600
Enhver teknologisk suksess er det som holder folket og brukerne
11:43
that we forget the reason why we are doing this: the people.
201
703063
3700
oppdatert og fokusert.
11:46
And any successful technology is the one that keeps the people and the users
202
706797
5466
Når de starter med dette,
forstår vi også at teknologi bare er en liten del av dette,
og at det er andre sider ved historien.
11:52
up front and center.
203
712297
1566
Kanskje det er sosiale, kulturelle og politiske sammenhenger
11:54
And when they start doing that,
204
714830
1533
11:56
we also realize that technology is probably a very small part of this
205
716363
3667
som behøves, like mye som teknologi.
12:00
and there are other things in the story.
206
720030
2367
For en tid siden jobbet jeg med et prosjekt kalt VideoKheti
12:02
Maybe there are social, cultural and policy interventions
207
722430
3333
som lot Hindi-talende bønder i Sentral-India
12:05
that are required, as much as technology.
208
725797
2200
søke etter landbruksvideoer ved å snakke til en telefon-app.
12:09
So some time back, I worked on a project called VideoKheti
209
729030
3267
12:12
that allowed Hindi-speaking farmers in Central India
210
732330
3600
Vi dro til Madhya Pradesh for å samle data til dette,
12:15
to search for agricultural videos by speaking into a phone-based app.
211
735963
6667
og vi kom tilbake og vi trente våre modeller
og oppdaget at vi fikk veldig dårlige resultater.
12:23
So we went to Madhya Pradesh to collect data for this,
212
743363
3434
Det fungerte ikke.
Vi ble forvirret. Hvorfor skjer det?
12:26
and we came back and we were training our models
213
746830
2300
Så vi gikk dypere og dypere inn i dataene
og oppdaget at, ja, vi hadde samlet data
12:29
and we discovered we're getting very bad results.
214
749163
2367
12:31
This is not working.
215
751530
1267
fra hva vi trodde var en veldig stille landsby om kvelden.
12:32
So we were very confused. Why is this happening?
216
752830
2267
12:35
So we looked deeper and deeper into the data
217
755130
2267
men det vi ikke hadde hørt mens vi gjorde dette
12:37
and discovered that, yes, we had collected data
218
757430
2233
12:39
from what we thought was a very silent, quiet village in the evening.
219
759697
4666
var at det var en konstant summing av insekter, ikke sant?
Gjennom opptakene hadde vi denne summingen fra insektene
12:44
But what we hadn't heard while we were doing this
220
764363
3400
som faktisk forvrengte talen.
12:47
was that there was this constant buzz of night insects, you know?
221
767797
4100
Det andre var at når vi kom dit
12:51
So throughout the recordings, we had this "bzz" of the insects,
222
771930
3467
for å teste appen i landsbyen,
12:55
which was actually distorting our speech.
223
775430
2533
jeg og min kollega Indrani Medhi,
12:58
The second thing was that when we went there
224
778797
2233
som er en vel anerkjent forskningsdesigner,
13:01
to kind of test our app in the village,
225
781030
3867
vi fant ut at kvinnene ikke kunne uttale ordene på sanskrit
13:04
I and my colleague Indrani Medhi,
226
784930
2533
13:07
who is a very well-regarded design researcher,
227
787497
3600
som vi hadde som søkeord.
Så, som...
13:11
we found that the women couldn't pronounce the sanskritized words
228
791130
4400
(snakker hindi)
13:15
that we had for some of the search terms.
229
795530
2767
som er som begrepet for kjemisk plantevernmidler, sant?
13:18
So, like ...
230
798330
1500
Fordi vi fikk begrepene fra senteret for landbruksrådgivning
13:21
(speaks Hindi)
231
801663
2800
13:24
Which is like the term for chemical pesticides, right?
232
804497
3866
og kvinnene, selv om de drev jordbruk
ikke hadde noe samarbeid med senteret.
13:28
Because we got these terms from the agricultural extension center
233
808363
5534
Mennene hadde det, men kvinnene bruker noe enklere, som...
13:33
and the women, even though they are farming,
234
813930
2100
(snakker hindi)
Som betyr å drepe pest med medisin.
13:36
do not interact with that center at all.
235
816030
2867
13:38
The men do, the women probably use something much simpler, like ...
236
818930
3967
Så det vi har lært på reisen
13:42
(speaks Hindi)
237
822930
1300
og hva jeg ønsker å formidle til dere nå,
13:44
Which basically means killing pests with medicine.
238
824263
3534
jeg håper at dere har forstått,
13:48
So what I have learned through my journey
239
828430
3867
er at flertallet av verdens språk
13:52
and what I would like to put across to you --
240
832330
2900
trenger intensiv investering for å lage ressurser
13:55
by now, I hope you've understood me,
241
835263
2000
dersom de skal ha nytte av språk-teknologi.
13:57
is that there is the majority of the world's languages
242
837297
3433
Og at dette neppe skjer på en rask og effektiv måte.
14:00
that require intensive investment for resource creation
243
840763
4267
14:05
if they are to benefit from language technology.
244
845030
2567
Det er derfor viktig å sikre
14:07
And this is unlikely to happen in a very fast and efficient manner.
245
847630
5367
at samfunnet henter maks nytte
fra det som gjøres innenfor språk-teknologi.
14:13
So it is extremely important for us to ensure
246
853963
2934
14:16
that the community derives maximum benefit
247
856930
3533
For å gjøre det og levere en positiv sosial innvirkning
på disse samfunnene,
14:20
from whatever that we are doing in the language tech area.
248
860497
3966
følger vi det vi kaller modifisert metode for 4-D design-tenking.
14:24
And to do this and deliver a positive social impact
249
864497
3466
4-D betyr: oppdage, designe, utvikle og implementere.
14:27
on these communities,
250
867997
1466
14:29
we follow what we call the modified 4-D design thinking methodology.
251
869497
4733
Altså, å oppdage problemet som språk-teknologi kan løse
14:34
So the 4-D means: discover, design, develop and deploy.
252
874263
5200
i et spesielt språksamfunn.
Denne observasjonsstyringen kan bidra med å allokere ressurser
14:39
So discover the problem that language technology can solve
253
879497
3066
der de trengs mest,
14:42
for a particular language community.
254
882563
2200
14:44
This observation-led approach can help allocate resources
255
884797
3233
forstå mangfoldet, i det lingvistiske landskapet
og i verdens språk.
14:48
where they are most needed,
256
888030
1700
14:49
designed for the users and their language,
257
889763
2767
Og tro ikke at dette er laget for engelsk.
Nå, hvordan kan vi tilpasse til marathi eller for gondi, sant?
14:52
understand the diversity in the linguistic properties
258
892530
3367
14:55
and the languages of the world.
259
895930
2100
Utvikle raskt, og implementer jevnlig.
14:58
And don't think, oh, this is made for English.
260
898030
2400
Det er en repeterende prosess som vil feile raskt
15:00
Now, how can we just adapt it for Marathi or for Gondi, right?
261
900463
4334
og raske feil vil til slutt lede til suksess.
15:04
Develop rapidly and deploy frequently.
262
904830
2600
15:07
It's an iterative process that will help you fail fast
263
907463
3500
Det viktige er å stå i det.
Ikke gi opp.
15:10
and early failures will eventually lead to success.
264
910997
3366
husk historien om de to aboriginske australske kvinnene,
15:15
The important thing is to persevere.
265
915497
1966
Patricia O’Connor og Ysola Best.
15:17
Do not give up.
266
917497
1366
15:18
And I remember the story of these two Aborigine Australian women,
267
918863
5734
På midten av 90-tallet, dro de til Universitetet i Queensland
15:24
Patricia O'Connor and Ysola Best.
268
924630
3800
for å lære sitt eget språk, Yugambeh.
De ble fortalt likefram “Språket deres er dødt.
15:29
In the mid-90s, they went to the University of Queensland
269
929763
3134
Det har vært dødt i tre tiår.
15:32
and they wanted to learn their own language, called Yugambeh,
270
932930
3333
Dere kan ikke lære det. Finn noe annet å jobbe med.”
De ga ikke opp.
15:36
and they were told very bluntly, "Your language is dead.
271
936297
2633
De dro til Yugambeh-samfunnet,
15:38
It's been dead for three decades.
272
938963
1600
gravde fram muntlige minner, muntlige tradisjoner, muntlig litteratur
15:40
You cannot work on this. Find something else to work on."
273
940563
3867
og grunnla Yugambeh Museum,
15:44
They did not give up.
274
944463
1267
15:45
They went to the community,
275
945763
1600
15:47
they dug up oral memories, oral traditions, oral literature,
276
947363
4867
som ble det viktigste kulturelle og lingvistiske senteret for språket
15:52
and founded the Yugambeh Museum,
277
952263
3367
og for samfunnet.
De hadde ikke teknologi. De hadde bare stå-på-viljen.
15:55
which became the most important cultural and linguistic center for the language
278
955663
5434
Nå , med styrken fra teknologien,
kan vi sikre at den neste siden er skrevet i salmi fra Finland,
16:01
and its community.
279
961130
1767
16:02
They did not have technology. They only had their willpower.
280
962930
4033
16:06
Now, with the power of technology,
281
966997
2233
lillooet fra Canada, eller mundari fra India.
16:09
we can ensure that the next page is written in Salmi from Finland,
282
969263
5767
Takk for meg.
16:15
Lillooet from Canada or Mundari from India.
283
975030
3467
16:19
Thank you.
284
979163
1000
Om denne nettsiden

Denne siden vil introdusere deg til YouTube-videoer som er nyttige for å lære engelsk. Du vil se engelsktimer undervist av førsteklasses lærere fra hele verden. Dobbeltklikk på de engelske undertekstene som vises på hver videoside for å spille av videoen derfra. Undertekstene ruller synkronisert med videoavspillingen. Hvis du har kommentarer eller forespørsler, vennligst kontakt oss ved å bruke dette kontaktskjemaet.

https://forms.gle/WvT1wiN1qDtmnspy7