Kalika Bali: The giant leaps in language technology -- and who's left behind | TED

54,150 views ・ 2021-04-26

TED


Пожалуйста, дважды щелкните на английские субтитры ниже, чтобы воспроизвести видео.

00:00
Transcriber:
0
0
7000
Переводчик: Anna Livermore Редактор: Alena Chernykh
Я Калика Бали, лингвист по образованию
и технический специалист по профессии.
Я проработала в университете,
в стартапах, в небольших компаниях и международных компаниях более 20 лет,
00:12
I'm Kalika Bali, I'm a linguist by training
1
12430
2800
00:15
and a technologist by profession,
2
15263
2334
исследуя и создавая системы, использующие языковые технологии.
00:17
I have worked in academia,
3
17630
1667
00:19
in startups, in small companies and multinationals for over two decades,
4
19330
5267
Моя мечта — увидеть, как технологии преодолевают языковые барьеры.
00:24
doing research in and building language technology systems.
5
24630
3733
В исследовательской лаборатории Майкрософт в Индии
я занимаюсь языковыми и речевыми технологиями.
00:28
My dream is to see technology work across the language barrier.
6
28363
4667
00:33
As a researcher at Microsoft Research Labs India
7
33030
3100
И меня заботит то, как создать технологии, доступные для людей повсеместно,
00:36
I work in the field of language technology and speech technology.
8
36163
5534
независимо от того, на каком языке они говорят.
00:41
And I worry about how can we make technology accessible
9
41697
3600
Обработка естественного языка,
искусственный интеллект, речевые технологии —
00:45
to people across the board,
10
45330
2200
00:47
you know, irrespective of the language that they speak.
11
47530
2967
это новомодные сейчас слова.
Все говорят о том, что же такое обработка естественного языка.
00:51
So natural language processing,
12
51663
1600
00:53
artificial intelligence, speech technology,
13
53297
2066
00:55
these are very big words, they are buzzwords right now.
14
55363
2600
Очень упрощённо,
это часть компьютерной инженерии,
00:57
Everybody is talking about what exactly is NLP or natural language processing.
15
57997
5533
с помощью которой компьютеры могут обрабатывать,
понимать и генерировать естественный язык,
01:03
So in very simple terms,
16
63530
1533
01:05
this is the part of computer science engineering
17
65063
3367
язык, на котором говорят люди.
01:08
that makes machines process,
18
68463
2834
Когда вы общаетесь с ботом, пытаясь купить билеты на поезд
01:11
understand and generate natural language,
19
71330
2967
или на самолёт,
01:14
which is the language that humans speak.
20
74330
2233
когда вы разговариваете с голосовым помощником в телефоне —
01:17
When you are interacting with a bot trying to book your train tickets
21
77697
4700
всё это функционирует за счёт обработки естественного языка,
01:22
or flight tickets,
22
82430
1267
которая и лежит в основе этих технологий.
01:23
when you are speaking to a voice-based digital assistant in your phone,
23
83697
4833
Но как же она работает?
Как функционирует NLP? [Обработка текста на естественном языке]
01:28
it's natural language processing
24
88530
1600
01:30
that underpins the entire technology that makes that work.
25
90163
3534
Если сильно упростить,
речь идёт о данных.
01:34
But how does this work?
26
94797
1266
Огромное количество данных о том, как люди используют язык,
01:36
How does NLP work?
27
96063
1567
01:37
In a very, very basic way,
28
97663
3900
01:41
it's about data.
29
101563
1800
обрабатывается с помощью определённых алгоритмов и методов,
01:43
So a huge amount of data of how actually humans use language
30
103363
6334
благодаря чему компьютеры учатся запоминать закономерности,
01:49
is then processed by certain algorithms and techniques
31
109697
5166
присущие естественному языку.
Сейчас у всех на слуху ещё одно слово — глубокие нейросети.
01:54
that make the machines learn the patterns
32
114863
2767
01:57
of natural language of humans, right?
33
117663
3700
Так называют передовые методы обучения,
которые лежат в основе многих актуальных процессов, связанных с NLP.
02:01
These days, another buzzword that you hear a lot about is deep neural networks.
34
121363
5367
Я не буду вдаваться в подробности о том, как это функционирует,
02:06
And these are the advanced techniques
35
126763
2467
но стоит понять и запомнить следующее:
02:09
that underpin a lot of the NLP stuff that happens right now.
36
129263
4134
для всех этих процессов необходимо огромное количество данных,
02:13
And I will not go into the details of how that works,
37
133430
3333
02:16
but the thing that you really have to understand and keep in mind
38
136797
3400
образцов естественного языка.
Если вы хотите, чтобы голосовая система разговаривала с вами на гуджарати,
02:20
is that all of this requires a humungous amount of data,
39
140197
5000
вам будет необходимо
02:25
natural language data.
40
145197
1666
первым делом много образцов разговоров, ведущихся носителями на гуджарати,
02:26
If you want a speech system to converse with you in Gujarati,
41
146863
5267
их родном языке.
02:32
the first thing you require
42
152163
1367
02:33
is a lot of data of Gujarati people speaking to each other
43
153530
4533
И вот в 2017 году Microsoft создала систему распознавания речи,
которая была способна перевести речь в текст
02:38
in their own language.
44
158063
1867
02:41
So 2017, Microsoft came up with a speech recognition system
45
161663
4734
лучше, чем человек.
Система эта была обучена
02:46
which was able to transcribe speech into text
46
166430
3600
с использованием 200 миллионов транскрибированных слов.
В 2018 году англо-китайская система машинного перевода
02:50
better than a human did.
47
170030
1733
02:52
And this system was trained
48
172563
3167
была в состоянии переводить с английского на китайский
02:55
on 200 million transcribed words.
49
175763
2667
так же хорошо, как и любой, знающий два языка человек.
02:58
In 2018, an English-Chinese machine translation system
50
178463
3967
И для её обучения использовали 18 миллионов предложений на обоих языках.
03:02
was able to translate from English to Chinese
51
182463
2800
03:05
as well as any human bilingual could.
52
185297
2766
Наступило очень интересное время для сферы обработки естественного языка
03:08
And this was trained on 18 million bilingual sentence pairs.
53
188063
4934
и для технологий вообще.
Мы видим, как научная фантастика, которую мы встречали в книгах и фильмах,
03:14
This is a very, very exciting time in natural language processing
54
194330
4433
становится реальностью прямо у нас на глазах.
03:18
and in technology as such.
55
198797
1466
Наш технический прогресс движется семимильными шагами.
03:20
You know, we are seeing science fiction, which we had read about and watched,
56
200297
4466
Но количество языков, затронутых прогрессом, очень ограничено.
03:24
kind of come true in front of our own eyes.
57
204797
2833
03:27
We are making giant leaps in technical advancement.
58
207663
4467
Поэтому Моноджит Чоудхури,
мой близкий друг
03:32
But these giant leaps are limited to very few languages.
59
212163
6234
и коллега,
подробно изучил этот вопрос
и отследил распределение ресурсов между разными языками мира.
03:38
So Monojit Choudhury,
60
218430
1300
03:39
who's like a very good friend of mine
61
219763
1867
03:41
and a colleague,
62
221663
2134
Он говорит, что происходит это по закону степенной зависимости:
03:43
he has studied this in some detail
63
223830
1733
03:45
and he has looked at resource distribution across languages in the world.
64
225563
4067
в сущности, это значит, что четырём языкам —
арабскому, китайскому, английскому и испанскому —
03:49
And he says that these follow what is called a power-law distribution,
65
229663
4100
уделяется максимальный объём имеющихся ресурсов.
03:53
which essentially means that there are four languages,
66
233797
2766
Есть несколько других языков, которым тоже повезло с использованием
03:56
Arabic, Chinese, English and Spanish,
67
236563
2700
03:59
which have the maximum amount of resources available.
68
239297
3766
ресурсов и технологий, существующих на данный момент.
04:03
There are another handful of languages which can also benefit from, you know,
69
243063
5167
Но на долю оставшихся 90% языков мира
04:08
the resources and the technology that's available right now.
70
248263
3834
либо не хватает ресурсов вообще,
либо их перепадает очень мало.
04:12
But there are 90 percent of the world's languages
71
252130
4833
Таким образом, революция, о которой мы здесь говорим,
практически обошла стороной 5000 языков мира.
04:16
which have no resources
72
256997
1800
04:18
or very little resources available.
73
258830
2067
В результате чего для языков, которым уделяется больше ресурсов,
04:20
This revolution that we are talking about
74
260930
2667
создаются технологии,
04:23
has essentially bypassed 5,000 languages of the world.
75
263630
4100
которые в свою очередь привлекают исследователей и специалистов.
И они создают ещё больше технологий и ресурсов для этих языков.
04:27
Now, what this means is that resource-rich languages
76
267763
2534
04:30
have technologies built for them,
77
270330
1800
Получается замкнутый круг: богатые становятся богаче,
04:32
so researchers and technologists get attracted towards them.
78
272163
3267
а языки с недостатком ресурсов остаются бедными,
04:35
They build more technologies for them. They create more resources.
79
275463
3500
так как для них нет технологий и никто над ними не работает.
04:38
So it's like a rich getting richer kind of a cycle.
80
278997
2800
И это цифровое неравенство между языками
04:41
And the resource-poor languages stay poor,
81
281830
2400
постоянно увеличивается,
как увеличивается и неравенство между сообществами,
04:44
there's no technology for them, nobody works for them.
82
284263
2600
04:46
And this divide, digital divide between languages
83
286863
3400
которые говорят на этих языках.
04:50
is ever-expanding
84
290297
1500
04:51
and by implication also the divide between the communities
85
291830
4633
Цель проекта «Ellora» компании Microsoft — сократить этот раззрыв.
04:56
that speak these languages is expanding.
86
296497
2500
Мы пытаемся придумать новаторские методы, которые дадут больше данных,
05:00
So in Microsoft, in Project Ellora, we aim to bridge this gap.
87
300763
4767
найти новые способы создания технологий в условиях ограниченных ресурсов
05:06
We are trying to see how can we create more data by innovative methods,
88
306663
5567
и установить, какие приложения действительно принесут пользу сообществам.
05:12
have more techniques to build technology without having a lot of resources,
89
312263
5800
Пока всё это может показаться очень абстрактным.
05:18
and what are the applications that can truly benefit these communities.
90
318063
4200
О чём это она: данные, методы и технологии?
Я приведу конкретный пример.
05:23
So at the moment, this might seem very theoretical,
91
323463
3334
По призванию я лингвист, я люблю языки и люблю их обсуждать.
05:26
like what is he talking about, data and techniques and technology.
92
326830
3133
05:29
So let me give you a very concrete example here.
93
329997
3066
А теперь я расскажу вам о языке, о котором многие из вас могут и не знать.
05:33
I'm a linguist at heart, I love languages, and that's what I love talking about.
94
333063
5300
Гонди.
Гонди — это южноазиатский дравидийский язык.
05:38
So let me tell you about a language that many of you might not know about.
95
338363
4367
На нём говорят три миллиона людей в пяти штатах Индии.
05:42
Gondi.
96
342763
1267
Для сравнения:
05:44
Gondi is a South-Central Dravidian language.
97
344030
2700
на норвежском говорят пять миллионов человек,
05:46
It is spoken by three million people in five states of India.
98
346763
4434
а на валлийском — чуть меньше миллиона.
05:51
And to put this in some kind of perspective,
99
351197
3000
В действительности у гонди достаточно стабильная и большая
05:54
Norwegian is spoken by five million people
100
354197
2833
05:57
and Welsh by a little under a million.
101
357030
2933
группа носителей, состоящая из гондийских племён Индии.
05:59
So Gondi is actually a pretty robust and pretty large community
102
359997
6200
Но согласно Атласу языков, находящихся под угрозой исчезновения,
ЮНЕСКО присвоила гонди статус исчезающего языка.
06:06
of the Gond tribals in India.
103
366197
2900
06:09
But by UNESCO's Atlas of Languages in Danger,
104
369130
5067
CGNet Swara — это НПО, предоставляющая журналистскую платформу
06:14
Gondi is designated vulnerable status.
105
374197
4366
для членов сообщества гонди,
обеспечивая им доступ к местным новостям через мобильные телефоны.
06:19
CGNet Swara is an NGO that provides a citizen journalism portal
106
379030
4533
Для гонди не существует никакой технической поддержки.
06:23
for the Gond community
107
383563
1867
Для гонди нет никаких данных и нет доступных ресурсов.
06:25
by making local stories accessible through mobile phones.
108
385463
4234
06:29
There's absolutely no tech support for Gondi.
109
389697
2933
Поэтому весь контент создаётся, модерируется и редактируется вручную.
06:32
There is no data available for Gondi, no resources available for Gondi.
110
392663
4800
В рамках проекта «Ellora»
мы объединили все заинтересованные стороны,
06:37
So all content that is created, moderated and edited is done manually.
111
397497
5066
НПО, например CGNet Swara,
академические учреждения, например Институт ИТ в Найя Райпур,
06:42
Now, under Project Ellora,
112
402563
2067
06:44
what we did was that we brought together all the stakeholders,
113
404663
2967
некоммерческое издательство детской литературы
Pratham Books
06:47
an NGOs like CGNet Swara,
114
407663
1800
и, что особенно важно, носителей языка.
06:49
and academic institutions, like IIIT Naya Raipur,
115
409497
3366
Сами представители племён Гонди участвовали в этой инициативе
06:52
a not-for-profit children's book publisher,
116
412863
2200
06:55
like Pratham Books,
117
415063
1300
и впервые редактировали и переводили детские книги на гонди.
06:56
and most importantly, the speakers of the community.
118
416363
2434
06:58
The Gond tribals themselves participated in this activity
119
418830
4933
Впервые за всю историю мы смогли выпустить 200 книг на гонди,
07:03
and for the first time edited and translated children’s books in Gondi.
120
423797
5633
чтобы у детей появился доступ к сказкам и книгам на их родном языке.
07:09
We were able to put out 200 books for the very first time in Gondi,
121
429463
5334
Кроме того, в рамках инициативы появилось Adivasi Radio,
07:14
so that the children had access to stories and books in their own language.
122
434830
4700
приложение, разработанное в Microsoft Research
и затем опубликованное с помощью участников проекта.
07:19
Another extension of this was Adivasi Radio,
123
439530
2267
07:21
which was like an app that we built and developed in Microsoft Research,
124
441830
4033
Используя систему речевого воспроизведения текстов на хинди,
07:25
and then put out there, along with our stakeholders,
125
445863
4567
оно читает новости и статьи, предоставленные CGNet Swara,
07:30
which takes a Hindi text-to-speech system
126
450463
3067
вслух на языке гонди.
07:33
and allows it to read out news and articles provided by CGNet Swara
127
453530
6400
Теперь пользователи могут читать,
смотреть новости и получать любую информацию
07:39
in Gondi language.
128
459963
2434
в текстовой и голосовой форме на своём родном языке.
07:42
Users can now use this app to read,
129
462430
2767
Очень интересно то, что теперь приложение используется
07:45
watch news and access any information
130
465197
3433
местными жителями для перевода текстов с хинди на гонди.
07:48
through text and voice in their own language.
131
468663
3900
07:52
A very interesting thing is that this app is now being used to translate --
132
472563
3634
В результате этого появится много параллельных данных,
как мы их называем,
07:56
by the community to translate text from Hindi to Gondi.
133
476197
4833
с помощью которых мы сможем создать систему машинного перевода для гонди
и, таким образом, действительно установить связь народностей гонди с миром.
08:01
Now, what that will result in is a lot of parallel data,
134
481030
3333
08:04
that we call parallel data,
135
484363
1534
08:05
that will allow us to build machine translation systems for Gondi,
136
485930
3500
И, что ещё важнее, теперь мы знаем, как этого добиться.
08:09
which will truly open up a window for the Gond community to the world.
137
489463
5900
Мы разработали целый процесс и можем перенести его на любой язык,
08:15
And what is even more important is now we know how to do this.
138
495363
3567
на любое языковое сообщество,
находящееся в той же ситуации, что и представители племён гонди.
08:18
We have the entire pipeline and we can replicate this for any language
139
498963
4600
Кроме того, есть сфера образования, доступ к информации.
08:23
and any language community
140
503563
1900
08:25
which is in a similar situation as the Gond tribals.
141
505497
3033
А как же зарабатывание на жизнь?
08:29
Also education -- yes, you know, information access -- yes,
142
509630
4833
Как можем мы помочь этим людям зарабатывать на жизнь,
используя цифровые инструменты, которые для всех нас уже в порядке вещей?
08:34
but what about earning a living?
143
514497
2700
08:37
Right? What about -- how can we make these people earn a living
144
517830
4200
Вивек Сешадри, ещё один научный сотрудник из MSR,
совместно с коллегой, Ману Чопрой,
08:42
through the digital tools that all of us just take for granted these days?
145
522030
3867
разработал платформу под названием «Karya»,
давая цифровые задачи на выполнение в обездоленные сообщества.
08:45
Vivek Seshadri, who's another researcher at MSR,
146
525930
2533
08:48
and his collaborator, Manu Chopra,
147
528497
2100
По сути, он стремился предоставить возможность достойной работы
08:50
they've designed a platform called Karya
148
530630
2500
08:53
for providing digital microtasks to the underserved communities.
149
533163
4600
сельскому населению
и бедному городскому населению Индии.
08:57
His aim was basically to find a way to provide a means of dignified labor
150
537797
5433
У них нет доступа к знаниям,
09:03
to the populations, the rural populations
151
543263
2034
необходимым для использования цифровых платформ,
09:05
and the urban poor populations of this country.
152
545330
2300
которыми мы пользуемся каждый день, даже не задумываясь об этом.
09:08
They don't have access to all the knowledge
153
548530
3000
Но…
09:11
to use the digital platforms
154
551530
2567
Имеется большая группа
09:14
that all of us use every day without even thinking, right?
155
554130
4200
грамотного населения, которая хочет работать.
09:18
But ...
156
558930
1233
Что же мы можем сделать, чтобы это стало для них возможным?
09:20
Here is a large
157
560863
2434
«Karya» представляет собой
09:23
literate population that wants to work, right,
158
563330
4133
способ вовлечения таких групп людей в цифровой мир,
09:27
and how can we make this possible for them?
159
567497
2766
чтобы они могли
09:30
So Karya is one such way
160
570297
3500
найти работу и выполнять задания, за которые им заплатят.
09:33
through which this population can get on to the digital world
161
573830
4033
Мы это увидели и подумали: «Это просто замечательно».
09:37
and, you know,
162
577863
1434
Мы, наверное, могли бы применить это для сбора данных.
09:39
through that find work and do tasks that can then earn them money.
163
579330
4433
И вот мы поехали в Амале,
деревушку с населением в 200 человек
09:43
So we saw this and we thought, oh, this is wonderful.
164
583797
2500
в округе Вардха штата Махараштра,
09:46
We could probably use this for data collection as well.
165
586330
2600
чтобы применить «Karya» для сбора данных языка маратхи.
09:48
So we went to Amale,
166
588963
2000
09:50
which is a small village of 200 people
167
590997
3266
Я знаю, вы сейчас думаете, —
и в зале наверняка находится много носителей маратхи, —
09:54
in the Wada district of Maharashtra
168
594297
1933
что он не относится к языкам с нехваткой ресурсов.
09:56
and decided to use Karya to collect Marathi data.
169
596263
2667
Маратхи — это действительно один из основных языков страны.
09:58
Now, I know what you are thinking --
170
598963
1900
10:00
I'm sure a lot of Marathi speakers also in the audience --
171
600930
2767
Но когда дело доходит до языковых технологий,
10:03
that Marathi is not a low-resource language.
172
603697
2400
маратхи является языком с недостатком ресурсов.
10:06
Marathi is definitely a mainstream language of the country.
173
606130
3600
Итак, мы поехали в эту деревню,
и наша экспедиция по сбору данных удалась на славу.
10:09
But as far as language technology is concerned,
174
609763
2500
Эта деревня находится в очень удалённом месте.
10:12
Marathi is a low-resource language.
175
612297
2333
10:14
So we went to this village
176
614663
1600
Там нет телевидения, нет электричества,
10:16
and we had a very successful data-collection trip.
177
616297
3800
нет сигнала мобильной связи.
10:20
And, you know, this village is very remote.
178
620130
3567
Приходится подниматься на вершину холма
10:23
They have no TV, they have no electricity,
179
623697
2700
и махать там телефоном, чтобы кому-нибудь позвонить.
10:26
they have no mobile signal.
180
626430
3833
И вот они дали нам все эти данные.
10:30
You have to climb a hill and wave your phone around
181
630297
2633
Более того, они преподали нам несколько ценных жизненных уроков.
10:32
if you want to, you know, use your mobile to call anyone.
182
632963
3200
Во-первых, гордость за родной язык.
10:37
So they gave us all this data.
183
637197
1766
Люди, живущие в Амале, были рады нам помочь,
10:38
But more than that, they gave us very valuable lessons in life.
184
638997
3266
потому что таким образом они продвигали собственный язык.
10:43
One is this pride in one's own language.
185
643063
3000
10:46
The people of Amale were thrilled to be doing this
186
646063
2667
Во-вторых, важная роль сообщества.
10:48
because they were advancing their own language by doing this.
187
648763
5834
Очень быстро в этот процесс включилась вся деревня.
Люди собирались в группы, чтобы выполнять разные задания.
10:54
The second was the value of community.
188
654630
1833
10:56
Very quickly, this became a village community effort.
189
656497
3900
В-третьих, значимость рассказывания историй.
11:00
People would gather together in tasks and do this together as a group.
190
660430
4867
Люди в деревне Амале настолько изголодались по контенту,
11:05
And the third is the importance of storytelling.
191
665330
3767
что утром и днём они записывали истории в «Karya»,
11:09
People of Amale were so starved of content that in the morning, during the daytime,
192
669130
6067
а вечером они собирали всех жителей деревни
и пересказывали им все эти истории.
11:15
they would do recordings of stories in Karya
193
675197
4066
11:19
and then in the evening they would gather the entire village
194
679297
2833
Как учёные мы настолько поглощены
научной и технологической стороной наших проектов —
11:22
and retell and recount these stories to the village.
195
682163
3834
какая модель лучше подойдёт,
11:27
So as scientists, we get so caught up
196
687563
2167
как улучшить точность моей системы,
11:29
in the science and technology part of what we are doing, you know --
197
689763
3700
как создать систему, которая будет ещё лучше, —
11:33
which is the next best model to have,
198
693497
1966
что мы забываем о причине, по которой мы этим занимаемся: о людях.
11:35
how can we increase the accuracy of my system,
199
695497
2933
11:38
how can I build the next best system there is --
200
698463
4600
А в центре любой удавшейся технологии
11:43
that we forget the reason why we are doing this: the people.
201
703063
3700
находятся люди и пользователи.
11:46
And any successful technology is the one that keeps the people and the users
202
706797
5466
И когда они начали это делать,
мы также поняли, что, похоже, технологии играют очень незначительную роль,
что у этой истории есть и другие элементы.
11:52
up front and center.
203
712297
1566
Возможно, что наряду с технологиями необходимы социальные,
11:54
And when they start doing that,
204
714830
1533
11:56
we also realize that technology is probably a very small part of this
205
716363
3667
культурные и политические меры.
12:00
and there are other things in the story.
206
720030
2367
Некоторое время назад я работала над проектом «VideoKheti»,
12:02
Maybe there are social, cultural and policy interventions
207
722430
3333
с помощью которого фермеры центральных районов Индии
12:05
that are required, as much as technology.
208
725797
2200
использовали голосовой поиск на хинди, чтобы найти видео о сельском хозяйстве.
12:09
So some time back, I worked on a project called VideoKheti
209
729030
3267
12:12
that allowed Hindi-speaking farmers in Central India
210
732330
3600
Мы отправились в штат Мадхья-Прадеш для сбора данных для проекта
12:15
to search for agricultural videos by speaking into a phone-based app.
211
735963
6667
и по возвращении начали обучать наши модели.
Оказалось, что результаты были из рук вон плохи.
12:23
So we went to Madhya Pradesh to collect data for this,
212
743363
3434
Ничего не получалось.
Мы были в полной растерянности. Почему так?
12:26
and we came back and we were training our models
213
746830
2300
Мы более внимательно проверили данные
и обнаружили, что хотя мы и собирали данные
12:29
and we discovered we're getting very bad results.
214
749163
2367
12:31
This is not working.
215
751530
1267
в очень тихой, как мы считали, деревне вечером,
12:32
So we were very confused. Why is this happening?
216
752830
2267
12:35
So we looked deeper and deeper into the data
217
755130
2267
мы совсем не услышали
12:37
and discovered that, yes, we had collected data
218
757430
2233
12:39
from what we thought was a very silent, quiet village in the evening.
219
759697
4666
непрерывное жужжание ночных насекомых.
Поэтому на каждой записи у нас звучало «ззззз» насекомых
12:44
But what we hadn't heard while we were doing this
220
764363
3400
и фактически искажало записанную речь.
12:47
was that there was this constant buzz of night insects, you know?
221
767797
4100
Кроме того, когда мы прибыли туда,
12:51
So throughout the recordings, we had this "bzz" of the insects,
222
771930
3467
чтобы протестировать наше приложение в этой деревне,
12:55
which was actually distorting our speech.
223
775430
2533
я и моя коллега Индрани Меди,
12:58
The second thing was that when we went there
224
778797
2233
дизайнер методов исследования, пользующаяся отличной репутацией,
13:01
to kind of test our app in the village,
225
781030
3867
обнаружили, что женщины в деревне не могли произнести слова на санскрите,
13:04
I and my colleague Indrani Medhi,
226
784930
2533
13:07
who is a very well-regarded design researcher,
227
787497
3600
которые мы использовали как поисковые.
Например,
13:11
we found that the women couldn't pronounce the sanskritized words
228
791130
4400
(говорит на хинди)
13:15
that we had for some of the search terms.
229
795530
2767
что означает химические пестициды.
13:18
So, like ...
230
798330
1500
Дело в том, что мы получили эти термины в центре распространения
13:21
(speaks Hindi)
231
801663
2800
13:24
Which is like the term for chemical pesticides, right?
232
804497
3866
знаний о сельском хозяйстве, и эти женщины,
хоть и были фермерами, не сталкивались с этим центром.
13:28
Because we got these terms from the agricultural extension center
233
808363
5534
В отличие от мужчин, они, вероятно, использовали что-нибудь попроще, например
13:33
and the women, even though they are farming,
234
813930
2100
(говорит на хинди),
что, по сути, означает «убивать паразитов лекарством».
13:36
do not interact with that center at all.
235
816030
2867
13:38
The men do, the women probably use something much simpler, like ...
236
818930
3967
В ходе этой поездки я осознала
13:42
(speaks Hindi)
237
822930
1300
и пытаюсь донести это до вас
13:44
Which basically means killing pests with medicine.
238
824263
3534
(я надеюсь, вы меня уже поняли),
13:48
So what I have learned through my journey
239
828430
3867
что большинство языков мира
13:52
and what I would like to put across to you --
240
832330
2900
нуждаются в больших вложениях для создания ресурсов,
13:55
by now, I hope you've understood me,
241
835263
2000
чтобы извлечь пользу из языковых технологий.
13:57
is that there is the majority of the world's languages
242
837297
3433
И маловероятно, что произойдёт это быстро и эффективно.
14:00
that require intensive investment for resource creation
243
840763
4267
14:05
if they are to benefit from language technology.
244
845030
2567
Поэтому для нас крайне важно позаботиться о том,
14:07
And this is unlikely to happen in a very fast and efficient manner.
245
847630
5367
чтобы такие сообщества получали максимальную пользу
от того, что мы делаем в области языковых технологий.
14:13
So it is extremely important for us to ensure
246
853963
2934
14:16
that the community derives maximum benefit
247
856930
3533
Чтобы достичь этого и оказать положительное социальное воздействие
на такие сообщества,
14:20
from whatever that we are doing in the language tech area.
248
860497
3966
мы следуем методологии, которую мы назвали модифицированное дизайн-мышление.
14:24
And to do this and deliver a positive social impact
249
864497
3466
Состоит она из четырёх этапов: выявление, проектирование, разработка и внедрение.
14:27
on these communities,
250
867997
1466
14:29
we follow what we call the modified 4-D design thinking methodology.
251
869497
4733
То есть выявление проблемы в определённом языковом сообществе,
14:34
So the 4-D means: discover, design, develop and deploy.
252
874263
5200
разрешаемой с помощью языковых технологий.
Этот подход, основанный на наблюдениях, поможет распределить ресурсы
14:39
So discover the problem that language technology can solve
253
879497
3066
с наибольшей эффективностью.
Нацелено это на пользователей и их язык
14:42
for a particular language community.
254
882563
2200
14:44
This observation-led approach can help allocate resources
255
884797
3233
с пониманием разнообразия лингвистических особенностей
и языков мира.
14:48
where they are most needed,
256
888030
1700
14:49
designed for the users and their language,
257
889763
2767
И не думайте, что создано это для английского.
Вы спросите, как можно просто приспособить это под маратхи или гонди?
14:52
understand the diversity in the linguistic properties
258
892530
3367
14:55
and the languages of the world.
259
895930
2100
Быстро разрабатывая и часто внедряя.
14:58
And don't think, oh, this is made for English.
260
898030
2400
Это циклический процесс, который помогает быстро потерпеть неудачу,
15:00
Now, how can we just adapt it for Marathi or for Gondi, right?
261
900463
4334
а ранние неудачи в конечном итоге приведут к успеху.
15:04
Develop rapidly and deploy frequently.
262
904830
2600
15:07
It's an iterative process that will help you fail fast
263
907463
3500
Важно настойчиво продолжать.
Не сдаваться.
15:10
and early failures will eventually lead to success.
264
910997
3366
И я вспоминаю историю двух женщин-аборигенов из Австралии.
15:15
The important thing is to persevere.
265
915497
1966
Их звали Патрисия О’Коннор и Исола Бест.
15:17
Do not give up.
266
917497
1366
15:18
And I remember the story of these two Aborigine Australian women,
267
918863
5734
В середине 90-х годов они пошли в Квинслендский университет
15:24
Patricia O'Connor and Ysola Best.
268
924630
3800
и хотели выучить свой родной язык, югамбе.
Им напрямую заявили: «Ваш язык мёртв.
15:29
In the mid-90s, they went to the University of Queensland
269
929763
3134
Он умер три десятилетия назад.
15:32
and they wanted to learn their own language, called Yugambeh,
270
932930
3333
Над этим вы работать не можете. Найдите что-нибудь другое».
Они не сдались.
15:36
and they were told very bluntly, "Your language is dead.
271
936297
2633
Они пошли в своё сообщество,
15:38
It's been dead for three decades.
272
938963
1600
разыскали воспоминания, литературу, традиции, существующие в устной форме,
15:40
You cannot work on this. Find something else to work on."
273
940563
3867
и основали Музей югамбе,
15:44
They did not give up.
274
944463
1267
15:45
They went to the community,
275
945763
1600
15:47
they dug up oral memories, oral traditions, oral literature,
276
947363
4867
который стал самым важным культурным и лингвистическим центром как для языка,
15:52
and founded the Yugambeh Museum,
277
952263
3367
так и для сообщества.
У них не было никаких технологий, только сила воли.
15:55
which became the most important cultural and linguistic center for the language
278
955663
5434
Теперь же, опираясь на возможности технологий,
мы можем позаботиться о том, чтобы следующая страница была написана
16:01
and its community.
279
961130
1767
16:02
They did not have technology. They only had their willpower.
280
962930
4033
16:06
Now, with the power of technology,
281
966997
2233
на саамском в Финляндии, на лиллуэт в Канаде или на мундари в Индии.
16:09
we can ensure that the next page is written in Salmi from Finland,
282
969263
5767
Спасибо.
16:15
Lillooet from Canada or Mundari from India.
283
975030
3467
16:19
Thank you.
284
979163
1000
Об этом сайте

Этот сайт познакомит вас с видеороликами YouTube, полезными для изучения английского языка. Вы увидите уроки английского языка, преподаваемые высококлассными учителями со всего мира. Дважды щелкните по английским субтитрам, отображаемым на каждой странице видео, чтобы воспроизвести видео оттуда. Субтитры прокручиваются синхронно с воспроизведением видео. Если у вас есть какие-либо комментарии или пожелания, пожалуйста, свяжитесь с нами, используя эту контактную форму.

https://forms.gle/WvT1wiN1qDtmnspy7