Kalika Bali: The giant leaps in language technology -- and who's left behind | TED

54,094 views ・ 2021-04-26

TED


Vui lòng nhấp đúp vào phụ đề tiếng Anh bên dưới để phát video.

00:00
Transcriber:
0
0
7000
Translator: Do Huy Reviewer: Thu Ha Tran
00:12
I'm Kalika Bali, I'm a linguist by training
1
12430
2800
Tôi là Kalika Bali, tôi theo học ngành ngôn ngữ
00:15
and a technologist by profession,
2
15263
2334
và hiện đang làm việc trong ngành công nghệ.
00:17
I have worked in academia,
3
17630
1667
Tôi từng làm giảng dạy,
00:19
in startups, in small companies and multinationals for over two decades,
4
19330
5267
làm việc trong các startup, công ty nhỏ và công ty đa quốc gia trong gần 2 thập kỷ
00:24
doing research in and building language technology systems.
5
24630
3733
nghiên cứu và xây dựng các hệ thống ngôn ngữ dựa theo công nghệ.
00:28
My dream is to see technology work across the language barrier.
6
28363
4667
Ước mơ của tôi là được nhìn thấy công nghệ hoạt động vượt qua rào cản ngôn ngữ.
00:33
As a researcher at Microsoft Research Labs India
7
33030
3100
Với tư cách là nhà nghiên cứu tại Viện nghiên cứu Microsoft Ấn Độ
00:36
I work in the field of language technology and speech technology.
8
36163
5534
tôi làm việc trong lĩnh vực công nghệ ngôn ngữ và công nghệ giọng nói.
00:41
And I worry about how can we make technology accessible
9
41697
3600
Và tôi trăn trở về việc làm thế nào để công nghệ có thể được tiếp cận
00:45
to people across the board,
10
45330
2200
bởi mọi người trên toàn cầu,
00:47
you know, irrespective of the language that they speak.
11
47530
2967
dù họ sử dụng bắt kỳ ngôn ngữ nào.
00:51
So natural language processing,
12
51663
1600
natural language processing,
00:53
artificial intelligence, speech technology,
13
53297
2066
trí tuệ nhân tạo, công nghệ giọng nói,
00:55
these are very big words, they are buzzwords right now.
14
55363
2600
đó là những thứ to lớn, ta thường thấy chúng hiện nay.
00:57
Everybody is talking about what exactly is NLP or natural language processing.
15
57997
5533
Mọi người đều hỏi NLP hay natural language processing là gì.
01:03
So in very simple terms,
16
63530
1533
Hiểu đơn giản thì,
01:05
this is the part of computer science engineering
17
65063
3367
đây là một phần của kỹ thuật khoa học máy tính
01:08
that makes machines process,
18
68463
2834
giúp máy móc xử lý,
01:11
understand and generate natural language,
19
71330
2967
hiểu và tạo ra ngôn ngữ tự nhiên,
01:14
which is the language that humans speak.
20
74330
2233
ngôn ngữ mà con người nói.
01:17
When you are interacting with a bot trying to book your train tickets
21
77697
4700
Khi bạn nói vào một phần mềm giúp bạn đặt vé tàu
01:22
or flight tickets,
22
82430
1267
hay vé máy bay,
01:23
when you are speaking to a voice-based digital assistant in your phone,
23
83697
4833
hay khi bạn nói chuyện với trợ lý ảo trong điện thoại,
01:28
it's natural language processing
24
88530
1600
nhờ natural language processing
01:30
that underpins the entire technology that makes that work.
25
90163
3534
làm nền tảng công nghệ mà những phần mềm đó hoạt động.
01:34
But how does this work?
26
94797
1266
Nhưng nó hoạt động ra sao?
01:36
How does NLP work?
27
96063
1567
NLP hoạt động thế nào?
01:37
In a very, very basic way,
28
97663
3900
Theo cách hiểu cực kỳ cơ bản,
01:41
it's about data.
29
101563
1800
tất cả đều từ dữ liệu.
01:43
So a huge amount of data of how actually humans use language
30
103363
6334
Một lượng lớn dữ liệu về cách con người sử dụng ngôn ngữ
01:49
is then processed by certain algorithms and techniques
31
109697
5166
được xử lý bởi các thuật toán và kỹ thuật
01:54
that make the machines learn the patterns
32
114863
2767
giúp cho máy móc hiểu các bối cảnh
01:57
of natural language of humans, right?
33
117663
3700
của ngôn ngữ con người.
02:01
These days, another buzzword that you hear a lot about is deep neural networks.
34
121363
5367
Một khái niệm phổ biến khác hiện nay là deep neural networks.
02:06
And these are the advanced techniques
35
126763
2467
Đây đều là những công nghệ tiên tiến
02:09
that underpin a lot of the NLP stuff that happens right now.
36
129263
4134
làm nền tảng cho rất nhiều công nghệ NLP đang có hiện nay.
02:13
And I will not go into the details of how that works,
37
133430
3333
Tôi sẽ không đi sâu vào cách nó hoạt động,
02:16
but the thing that you really have to understand and keep in mind
38
136797
3400
nhưng điều bạn cần hiểu và ghi nhớ
02:20
is that all of this requires a humungous amount of data,
39
140197
5000
là tất cả những thứ này đều cần một lượng dữ liệu khổng lồ,
02:25
natural language data.
40
145197
1666
dữ liệu ngôn ngữ tự nhiên.
02:26
If you want a speech system to converse with you in Gujarati,
41
146863
5267
Nếu bạn muốn xây dựng một hệ thống giao tiếp bằng tiếng Gujarati,
02:32
the first thing you require
42
152163
1367
thứ đầu tiên bạn cần
02:33
is a lot of data of Gujarati people speaking to each other
43
153530
4533
là một lượng lớn dữ liệu ghi âm tiếng người Gujarati nói chuyện với nhau
02:38
in their own language.
44
158063
1867
bằng ngôn ngữ của họ.
02:41
So 2017, Microsoft came up with a speech recognition system
45
161663
4734
Vào năm 2017, Microsoft giới thiệu một phần mềm nhận diện giọng nói
02:46
which was able to transcribe speech into text
46
166430
3600
có thể chuyển thể lời nói thành văn bản
02:50
better than a human did.
47
170030
1733
tốt hơn con người.
02:52
And this system was trained
48
172563
3167
Và hệ thống này đã được huấn luyện
02:55
on 200 million transcribed words.
49
175763
2667
dựa trên 200 triệu từ đã được chuyển thể.
02:58
In 2018, an English-Chinese machine translation system
50
178463
3967
Vào năm 2018, một hệ thống dịch tiếng Anh-Trung
03:02
was able to translate from English to Chinese
51
182463
2800
đã có thể dịch từ tiếng Anh sang tiếng Trung
03:05
as well as any human bilingual could.
52
185297
2766
thuần thục như bất cứ người nào nói được cả hai ngôn ngữ đó
03:08
And this was trained on 18 million bilingual sentence pairs.
53
188063
4934
Hệ thống này được huẩn luyện dựa trên 18 triệu câu thoại của cả hai ngôn ngữ.
03:14
This is a very, very exciting time in natural language processing
54
194330
4433
Đây là thời điểm cực kỳ thú vị của natural language processing nói riêng
03:18
and in technology as such.
55
198797
1466
và công nghệ nói chung.
03:20
You know, we are seeing science fiction, which we had read about and watched,
56
200297
4466
Bạn biết đấy, khoa học viễn tưởng, thứ mà ta đọc và xem,
03:24
kind of come true in front of our own eyes.
57
204797
2833
đang dần trở thành sự thật.
03:27
We are making giant leaps in technical advancement.
58
207663
4467
Chúng ta đang có những bước nhảy vọt trong công nghệ.
03:32
But these giant leaps are limited to very few languages.
59
212163
6234
Nhưng những bước nhảy vọt này chỉ giới hạn trong số ít ngôn ngữ.
03:38
So Monojit Choudhury,
60
218430
1300
Monojit Choudhury,
03:39
who's like a very good friend of mine
61
219763
1867
một người bạn,
03:41
and a colleague,
62
221663
2134
người đồng nghiệp của tôi,
03:43
he has studied this in some detail
63
223830
1733
anh ấy tìm hiểu về vấn đề này
03:45
and he has looked at resource distribution across languages in the world.
64
225563
4067
và việc phân bố tài nguyên giữa các ngôn ngữ khác nhau trên thế giới.
03:49
And he says that these follow what is called a power-law distribution,
65
229663
4100
Và anh ấy nói rằng điều này tuân theo thứ gọi là phân bố quyền lực - luật lệ,
03:53
which essentially means that there are four languages,
66
233797
2766
theo đó có bốn ngôn ngữ,
03:56
Arabic, Chinese, English and Spanish,
67
236563
2700
Ả Rập, Trung, Anh và Tây Ban Nha,
03:59
which have the maximum amount of resources available.
68
239297
3766
có lượng tài nguyên lớn nhất.
04:03
There are another handful of languages which can also benefit from, you know,
69
243063
5167
Có một số ngôn ngữ khác cũng có lợi ích, bạn biết đó,
04:08
the resources and the technology that's available right now.
70
248263
3834
từ tài nguyên và công nghệ hiện có.
04:12
But there are 90 percent of the world's languages
71
252130
4833
Nhưng có tới 90% ngôn ngữ trên thế giới
04:16
which have no resources
72
256997
1800
không có tài nguyên
04:18
or very little resources available.
73
258830
2067
hay chỉ có rất ít tài nguyên.
04:20
This revolution that we are talking about
74
260930
2667
Cuộc cách mạng mà chúng ta đang nói tới
04:23
has essentially bypassed 5,000 languages of the world.
75
263630
4100
về cơ bản đã bỏ qua 5000 ngôn ngữ trên thế giới.
04:27
Now, what this means is that resource-rich languages
76
267763
2534
Điều này có nghĩa là ngôn ngữ có lượng lớn tài nguyên
04:30
have technologies built for them,
77
270330
1800
có công nghệ được xây dựng sẵn,
04:32
so researchers and technologists get attracted towards them.
78
272163
3267
nên thu hút được các nhà nghiên cứu và các kĩ sư.
04:35
They build more technologies for them. They create more resources.
79
275463
3500
Họ tạo ra nhiều công nghệ cho nó, và lại tạo ra nhiều tài nguyên hơn.
04:38
So it's like a rich getting richer kind of a cycle.
80
278997
2800
Nó giống như vòng tuần hoàn người giàu lại càng giàu hơn.
04:41
And the resource-poor languages stay poor,
81
281830
2400
Ngôn ngữ nghèo tài nguyên thì mãi nghèo,
04:44
there's no technology for them, nobody works for them.
82
284263
2600
không có công nghệ, không ai đóng góp cho nó.
04:46
And this divide, digital divide between languages
83
286863
3400
Sự phân chia này, sự phân chia kĩ thuật số này
04:50
is ever-expanding
84
290297
1500
đang ngày càng mở rộng
04:51
and by implication also the divide between the communities
85
291830
4633
và hàm ý cũng là sự phân chia giữa các cộng đồng
04:56
that speak these languages is expanding.
86
296497
2500
nói những ngôn ngữ này đang ngày càng mở rộng.
05:00
So in Microsoft, in Project Ellora, we aim to bridge this gap.
87
300763
4767
Vậy nên ở Microsoft, trong dự án Ellora, chúng tôi muốn thu hẹp khoảng cách này.
05:06
We are trying to see how can we create more data by innovative methods,
88
306663
5567
Chúng tôi đang tìm cách tạo ra dữ liệu bằng các phương pháp
kĩ thuật tiên tiến để xây dựng công nghệ mà không cần nhiều tài nguyên,
05:12
have more techniques to build technology without having a lot of resources,
89
312263
5800
05:18
and what are the applications that can truly benefit these communities.
90
318063
4200
và tìm hiểu về những ứng dụng có thể thực sự giúp ích cho cộng đồng.
05:23
So at the moment, this might seem very theoretical,
91
323463
3334
Vậy nên ở thời điểm hiện tại, nó có vẻ khá lý thuyết,
05:26
like what is he talking about, data and techniques and technology.
92
326830
3133
giống những gì ta đang nói tới, dữ liệu rồi kỹ thuật và công nghệ.
05:29
So let me give you a very concrete example here.
93
329997
3066
Để tôi đưa ra một ví dụ cụ thể.
05:33
I'm a linguist at heart, I love languages, and that's what I love talking about.
94
333063
5300
Tôi là nhà ngôn ngữ học, tôi yêu ngôn ngữ, tôi yêu thích việc nói chuyện về nó.
05:38
So let me tell you about a language that many of you might not know about.
95
338363
4367
Để tôi kể một câu chuyện về ngôn ngữ mà chắc nhiều người không biết tới.
05:42
Gondi.
96
342763
1267
Gondi.
05:44
Gondi is a South-Central Dravidian language.
97
344030
2700
Gondi là ngôn ngữ của vùng Trung Nam Dravidian.
05:46
It is spoken by three million people in five states of India.
98
346763
4434
Nó được sử dụng bởi ba triệu người ở năm bang của Ấn Độ.
05:51
And to put this in some kind of perspective,
99
351197
3000
Để cho dễ hình dung thì,
05:54
Norwegian is spoken by five million people
100
354197
2833
tiếng Na Uy được sử dụng bởi năm triệu người
05:57
and Welsh by a little under a million.
101
357030
2933
và tiếng xứ Wales được sử dụng bởi dưới một triệu người.
05:59
So Gondi is actually a pretty robust and pretty large community
102
359997
6200
Vì vậy, Gondi thực sự là một cộng đồng khá lớn
06:06
of the Gond tribals in India.
103
366197
2900
của bộ tộc Gond ở Ấn Độ.
06:09
But by UNESCO's Atlas of Languages in Danger,
104
369130
5067
Nhưng theo danh sách những ngôn ngữ đang gặp nguy hiểm của UNESCO,
06:14
Gondi is designated vulnerable status.
105
374197
4366
Gondi được đánh giá là dễ tổn thương.
06:19
CGNet Swara is an NGO that provides a citizen journalism portal
106
379030
4533
CGNet Swara là một tổ chức phi chính phủ cung cấp thông tin báo chí
06:23
for the Gond community
107
383563
1867
cho cộng đồng Gond
06:25
by making local stories accessible through mobile phones.
108
385463
4234
bằng cách làm các câu chuyện địa phương có thể được tiếp cận qua điện thoại.
06:29
There's absolutely no tech support for Gondi.
109
389697
2933
Hoàn toàn không có trợ giúp kỹ thuật nào cho tiếng Gondi.
06:32
There is no data available for Gondi, no resources available for Gondi.
110
392663
4800
Không có dữ liệu sẵn có nào, không có tài nguyên nào cho tiếng Gondi.
06:37
So all content that is created, moderated and edited is done manually.
111
397497
5066
Vì thế nên tất cả nội dung được tạo ra, kiểm duyệt chỉnh sửa đều được làm thủ công
06:42
Now, under Project Ellora,
112
402563
2067
Hiện nay, ở dự án Ellora,
06:44
what we did was that we brought together all the stakeholders,
113
404663
2967
những gì chúng tôi làm là tập hợp tất cả các bên liên quan lại,
06:47
an NGOs like CGNet Swara,
114
407663
1800
tổ chức như CGNet Swara,
06:49
and academic institutions, like IIIT Naya Raipur,
115
409497
3366
các viện nghiên cứu, như IIIT Naya Raipur,
06:52
a not-for-profit children's book publisher,
116
412863
2200
nhà xuất bản cho trẻ em không vì lợi nhuận,
06:55
like Pratham Books,
117
415063
1300
như Pratham Books,
06:56
and most importantly, the speakers of the community.
118
416363
2434
và quan trọng nhất, người đại diện cho cộng đồng.
06:58
The Gond tribals themselves participated in this activity
119
418830
4933
Các bộ tộc Gond cũng tham gia vào hoạt động này
07:03
and for the first time edited and translated children’s books in Gondi.
120
423797
5633
và lần đầu tiên chỉnh sửa và dịch sách trẻ em ra tiếng Gondi.
07:09
We were able to put out 200 books for the very first time in Gondi,
121
429463
5334
Chúng tôi đã xuất bản 200 đầu sách bằng tiếng Gondi lần đầu tiên,
07:14
so that the children had access to stories and books in their own language.
122
434830
4700
để trẻ em có thể đọc sách bằng tiếng mẹ đẻ.
07:19
Another extension of this was Adivasi Radio,
123
439530
2267
Từ dự án này chúng tôi tạo ra Adivasi Radio,
07:21
which was like an app that we built and developed in Microsoft Research,
124
441830
4033
một ứng dụng chúng tôi xây dựng và phát triển tại Microsoft Research,
07:25
and then put out there, along with our stakeholders,
125
445863
4567
và phát hành, cùng với các bên liên quan,
07:30
which takes a Hindi text-to-speech system
126
450463
3067
thứ dựa trên hệ thống dịch từ văn bản ra lới nói tiếng Hindi
07:33
and allows it to read out news and articles provided by CGNet Swara
127
453530
6400
cho phép nó đọc báo và tạp chí cung cấp bởi CGNet Swara
07:39
in Gondi language.
128
459963
2434
bằng tiếng Gondi.
07:42
Users can now use this app to read,
129
462430
2767
Người dùng giờ có thể sử dụng úng dụng này để đọc,
07:45
watch news and access any information
130
465197
3433
xem tin tức và tiếp cận thông tin
07:48
through text and voice in their own language.
131
468663
3900
qua văn bản và lời nói bằng tiếng mẹ để.
07:52
A very interesting thing is that this app is now being used to translate --
132
472563
3634
Một điều thú vị là ứng dụng này giờ được dùng để dịch
07:56
by the community to translate text from Hindi to Gondi.
133
476197
4833
văn bản từ tiếng Hindi sang Gondi bởi cộng đồng.
08:01
Now, what that will result in is a lot of parallel data,
134
481030
3333
Giờ thì, điều này tạo ra rất nhiều dữ liệu song song,
08:04
that we call parallel data,
135
484363
1534
gọi là dữ liệu song song,
08:05
that will allow us to build machine translation systems for Gondi,
136
485930
3500
cho phép chúng tôi xây dựng hệ thống dịch thuật cho tiếng Gondi,
08:09
which will truly open up a window for the Gond community to the world.
137
489463
5900
thứ thực sự sẽ mở ra cánh cửa tới thế giới cho cộng đồng Gond.
08:15
And what is even more important is now we know how to do this.
138
495363
3567
Điều quan trọng hơn là giờ chúng tôi biết phải làm việc này như thế nào.
08:18
We have the entire pipeline and we can replicate this for any language
139
498963
4600
Chúng tôi có cả hệ thống nối liền ngôn ngữ và có thể sao chép cho bất kỳ ngôn ngữ nào
08:23
and any language community
140
503563
1900
và bất kỳ cộng đồng ngôn ngữ nào
08:25
which is in a similar situation as the Gond tribals.
141
505497
3033
có cùng vấn đề như các bộ tộc Gond.
08:29
Also education -- yes, you know, information access -- yes,
142
509630
4833
Và cả giáo dục, vâng, bạn biết đó, tiếp cận thông tin, vâng,
08:34
but what about earning a living?
143
514497
2700
vậy còn kiếm sống thì sao?
08:37
Right? What about -- how can we make these people earn a living
144
517830
4200
Đúng chứ? Vậy còn -- nếu ta có thể giúp họ kiếm sống
08:42
through the digital tools that all of us just take for granted these days?
145
522030
3867
bằng các công cụ kỹ thuật số mà ai cũng coi là đương nhiên hiện nay?
08:45
Vivek Seshadri, who's another researcher at MSR,
146
525930
2533
Vivek Seshadri, một nhà nghiên cứu khác tại MSR,
08:48
and his collaborator, Manu Chopra,
147
528497
2100
và đồng nghiệp, Manu Chopra,
08:50
they've designed a platform called Karya
148
530630
2500
họ đã tạo ra một nền tảng gọi là Karya
08:53
for providing digital microtasks to the underserved communities.
149
533163
4600
cung cấp những nhiệm vụ nhỏ cho các cộng đồng thiểu số.
08:57
His aim was basically to find a way to provide a means of dignified labor
150
537797
5433
Mục đích của anh ấy là tìm ra cách để cung cấp một phương tiện lao động
09:03
to the populations, the rural populations
151
543263
2034
cho người dân ở các vùng nông thôn
09:05
and the urban poor populations of this country.
152
545330
2300
và dân nghèo thành thị ở đất nước này.
09:08
They don't have access to all the knowledge
153
548530
3000
Họ không truy cập được tất cả những kiến thức
09:11
to use the digital platforms
154
551530
2567
để sử dụng các nền tảng số
09:14
that all of us use every day without even thinking, right?
155
554130
4200
mà chúng ta sử dụng hàng ngày mà không cần phải suy nghĩ, đúng không?
09:18
But ...
156
558930
1233
Nhưng...
09:20
Here is a large
157
560863
2434
Đây là một
09:23
literate population that wants to work, right,
158
563330
4133
cộng đồng biết chữ lớn muốn đi làm,
09:27
and how can we make this possible for them?
159
567497
2766
và làm sao để chúng ta biến điều này thành sự thật?
09:30
So Karya is one such way
160
570297
3500
Karya là một cách như vậy
09:33
through which this population can get on to the digital world
161
573830
4033
mà qua nó cộng đồng này có thể vào thế giới số
09:37
and, you know,
162
577863
1434
và, bạn biết đó,
09:39
through that find work and do tasks that can then earn them money.
163
579330
4433
tìm kiếm việc làm và làm những việc có thể giúp họ kiếm thu nhập.
09:43
So we saw this and we thought, oh, this is wonderful.
164
583797
2500
Chúng tôi nhìn và nghĩ, ôi, điều này thật tuyệt vời.
09:46
We could probably use this for data collection as well.
165
586330
2600
Chúng tôi cũng có thể sử dụng nó để thu thập dữ liệu.
09:48
So we went to Amale,
166
588963
2000
Chúng tôi tới Amale,
09:50
which is a small village of 200 people
167
590997
3266
một ngôi làng nhỏ với 200 người
09:54
in the Wada district of Maharashtra
168
594297
1933
ở quận Wada của thành phố Maharashtra
09:56
and decided to use Karya to collect Marathi data.
169
596263
2667
và quyết định sử dụng Karya để thu thập dữ liệu Marathi.
09:58
Now, I know what you are thinking --
170
598963
1900
Giờ, tôi biết bạn đang nghĩ gì --
10:00
I'm sure a lot of Marathi speakers also in the audience --
171
600930
2767
tôi chắc rằng nhiều người nói Marathi đang ở phía dưới --
10:03
that Marathi is not a low-resource language.
172
603697
2400
coi Marathi không phải là ngôn ngữ ít tài nguyên.
10:06
Marathi is definitely a mainstream language of the country.
173
606130
3600
Marathi thực sự là một ngôn ngữ chính của đất nước.
10:09
But as far as language technology is concerned,
174
609763
2500
Nhưng theo như công nghệ ngôn ngữ,
10:12
Marathi is a low-resource language.
175
612297
2333
thì Marathi là ngôn ngữ ít tài nguyên.
10:14
So we went to this village
176
614663
1600
Vậy nên chúng tôi đến làng này
10:16
and we had a very successful data-collection trip.
177
616297
3800
và đã có một chuyến đi thu thập dữ liệu rất thành công.
10:20
And, you know, this village is very remote.
178
620130
3567
Và, bạn biết đó, ngôi làng này cực kỳ hẻo lánh.
10:23
They have no TV, they have no electricity,
179
623697
2700
Họ không có TV, không có điện,
10:26
they have no mobile signal.
180
626430
3833
không có sóng điện thoại.
10:30
You have to climb a hill and wave your phone around
181
630297
2633
Bạn phải trèo lên ngọn đồi và giơ điện thoại mọi hướng
10:32
if you want to, you know, use your mobile to call anyone.
182
632963
3200
nếu bạn muốn, bạn biết đó, dùng điện thoại để gọi.
10:37
So they gave us all this data.
183
637197
1766
Họ cho chúng tôi dữ liệu này.
10:38
But more than that, they gave us very valuable lessons in life.
184
638997
3266
Nhưng hơn cả vậy, họ cho chúng tôi những bài học quý giá.
10:43
One is this pride in one's own language.
185
643063
3000
Thứ nhất là hãnh diện vì tiếng nói.
10:46
The people of Amale were thrilled to be doing this
186
646063
2667
Người dân ở Amale đã rất vui khi được làm điều này
10:48
because they were advancing their own language by doing this.
187
648763
5834
vì họ được thúc đẩy ngôn ngữ của họ phát triển.
10:54
The second was the value of community.
188
654630
1833
Thứ hai là giá trị của cộng đồng.
10:56
Very quickly, this became a village community effort.
189
656497
3900
Rất nhanh chóng, đây trở thành nỗ lực của cả ngôi làng.
11:00
People would gather together in tasks and do this together as a group.
190
660430
4867
Mọi người tụ tập lại và làm việc cùng nhau.
11:05
And the third is the importance of storytelling.
191
665330
3767
Và thứ ba là tầm quan trọng của việc kể chuyện.
11:09
People of Amale were so starved of content that in the morning, during the daytime,
192
669130
6067
Người dân Amale thiếu nội dung giải trí tới mức vào buổi sáng,
11:15
they would do recordings of stories in Karya
193
675197
4066
họ ghi âm lại những câu chuyện vào Karya
11:19
and then in the evening they would gather the entire village
194
679297
2833
để rồi tụ tập cả làng vào buổi tối
11:22
and retell and recount these stories to the village.
195
682163
3834
và kể lại chúng.
11:27
So as scientists, we get so caught up
196
687563
2167
Là những nhà khoa học, chúng tôi bị cuốn vào
11:29
in the science and technology part of what we are doing, you know --
197
689763
3700
phần khoa học và công nghệ mà chúng tôi đang làm, bạn biết đó --
11:33
which is the next best model to have,
198
693497
1966
đâu là mô hình tốt nhất,
11:35
how can we increase the accuracy of my system,
199
695497
2933
làm sao để tăng độ chính xác của hệ thống,
11:38
how can I build the next best system there is --
200
698463
4600
làm sao để xây dựng hệ thống tốt nhất tiếp theo --
11:43
that we forget the reason why we are doing this: the people.
201
703063
3700
mà quên đi lý do tại sao chúng tôi làm điều này: người dân.
11:46
And any successful technology is the one that keeps the people and the users
202
706797
5466
Bất kỳ công nghệ thành công nào đều đặt cho người dân và người dùng
11:52
up front and center.
203
712297
1566
lên trước hết và xoay quanh họ.
11:54
And when they start doing that,
204
714830
1533
Và khi họ bắt đầu làm như vậy,
11:56
we also realize that technology is probably a very small part of this
205
716363
3667
chúng tôi nhận ra rằng công nghệ chỉ là một phần nhỏ trong này
12:00
and there are other things in the story.
206
720030
2367
và còn có nhiều điều khác.
12:02
Maybe there are social, cultural and policy interventions
207
722430
3333
Có lẽ các can thiệp xã hội, văn hóa và chính sách
12:05
that are required, as much as technology.
208
725797
2200
cũng cần được xem xét nhiều như công nghệ.
12:09
So some time back, I worked on a project called VideoKheti
209
729030
3267
Một thời gian trước, tôi làm việc trong dự án tên là VideoKheti
12:12
that allowed Hindi-speaking farmers in Central India
210
732330
3600
cho phép nông dân nói tiếng Hindi ở miền Trung Ấn Độ
12:15
to search for agricultural videos by speaking into a phone-based app.
211
735963
6667
tìm kiếm các video về nông nghiệp bằng cách nói vào một ứng dụng điện thoại.
12:23
So we went to Madhya Pradesh to collect data for this,
212
743363
3434
Chúng tôi tới Madhya Pradesh để thu thập dữ liệu cho ứng dụng này,
12:26
and we came back and we were training our models
213
746830
2300
sau khi huấn luyện các mô hình
12:29
and we discovered we're getting very bad results.
214
749163
2367
chúng tôi phát hiện ra kết quả rất tệ.
12:31
This is not working.
215
751530
1267
Làm thế này không đúng.
12:32
So we were very confused. Why is this happening?
216
752830
2267
Chúng tôi rất bối rối. Sao điều này lại xảy ra?
12:35
So we looked deeper and deeper into the data
217
755130
2267
Rồi chúng tôi đào sâu hơn vào dữ liệu mình có
12:37
and discovered that, yes, we had collected data
218
757430
2233
và phát hiện ra rằng chúng tôi thu thập dữ liệu
12:39
from what we thought was a very silent, quiet village in the evening.
219
759697
4666
vào thời điểm mà chúng tôi nghĩ rằng cực kỳ yên tĩnh là ban đêm.
12:44
But what we hadn't heard while we were doing this
220
764363
3400
Nhưng thứ chúng tôi không biết khi làm việc này
12:47
was that there was this constant buzz of night insects, you know?
221
767797
4100
là tiếng vo ve liên tục của côn trùng vào ban đêm, bạn biết chứ?
12:51
So throughout the recordings, we had this "bzz" of the insects,
222
771930
3467
Những bản ghi âm có tiếng “bzz” của côn trùng
12:55
which was actually distorting our speech.
223
775430
2533
làm bóp méo tiếng nói.
12:58
The second thing was that when we went there
224
778797
2233
Điều thứ hai là khi mà chúng tôi tới đó
13:01
to kind of test our app in the village,
225
781030
3867
để kiểm tra ứng dụng trong làng,
13:04
I and my colleague Indrani Medhi,
226
784930
2533
tôi và đồng nghiệp Indrani Medhi,
13:07
who is a very well-regarded design researcher,
227
787497
3600
một nhà nghiên cứu rất được coi trọng,
13:11
we found that the women couldn't pronounce the sanskritized words
228
791130
4400
chúng tôi phát hiện ra rằng phụ nữ không thể phát âm những từ tiếng Phạn
13:15
that we had for some of the search terms.
229
795530
2767
mà chúng tôi có cho một số cụm từ tìm kiếm
13:18
So, like ...
230
798330
1500
Vậy nên, giống như này...
13:21
(speaks Hindi)
231
801663
2800
(nói tiếng Hindi)
13:24
Which is like the term for chemical pesticides, right?
232
804497
3866
Giống như thuật ngữ cho thuốc trừ sâu, đúng chứ?
13:28
Because we got these terms from the agricultural extension center
233
808363
5534
Bởi vì chúng tôi lấy những từ này từ trung tâm khuyến nông
13:33
and the women, even though they are farming,
234
813930
2100
và những người phụ nữ, dù là nông dân,
13:36
do not interact with that center at all.
235
816030
2867
cũng không giao tiếp với trung tâm đó.
13:38
The men do, the women probably use something much simpler, like ...
236
818930
3967
Đàn ông thì có, phụ nữ có lẽ dùng những từ đơn giản hơn, như
13:42
(speaks Hindi)
237
822930
1300
(nói tiếng Hindi)
13:44
Which basically means killing pests with medicine.
238
824263
3534
Có nghĩa là trừ sâu bằng thuốc.
13:48
So what I have learned through my journey
239
828430
3867
Vậy nên thứ mà tôi học được từ chuyến đi này
13:52
and what I would like to put across to you --
240
832330
2900
và thứ mà tôi muốn trao đổi với các bạn
13:55
by now, I hope you've understood me,
241
835263
2000
bây giờ, tôi mong rằng các bạn hiểu,
13:57
is that there is the majority of the world's languages
242
837297
3433
là đa phần các ngôn ngữ trên thế giới
14:00
that require intensive investment for resource creation
243
840763
4267
cần được đầu tư chuyên sâu để tạo ra tài nguyên
14:05
if they are to benefit from language technology.
244
845030
2567
nếu nó muốn đươc hưởng lợi từ công nghệ ngôn ngữ.
14:07
And this is unlikely to happen in a very fast and efficient manner.
245
847630
5367
Và điều này khó có thể xảy ra một cách nhanh chóng và hiệu quả.
14:13
So it is extremely important for us to ensure
246
853963
2934
Do đó điều cực kỳ quan trọng đối với chúng tôi
14:16
that the community derives maximum benefit
247
856930
3533
là đảm bảo rằng cộng đồng thu được lợi ích tối đa
14:20
from whatever that we are doing in the language tech area.
248
860497
3966
từ bất cứ điều gì chúng tôi đang làm với công nghệ ngôn ngữ.
14:24
And to do this and deliver a positive social impact
249
864497
3466
Và để làm được điều này và tạo ra tác động xã hội tích cực
14:27
on these communities,
250
867997
1466
cho những cộng đồng này,
14:29
we follow what we call the modified 4-D design thinking methodology.
251
869497
4733
chúng tôi tuân theo thứ gọi là phương pháp tư duy thuyết kế 4-D sửa đổi.
14:34
So the 4-D means: discover, design, develop and deploy.
252
874263
5200
4-D nghĩa là: discover, design, develop và deploy.
14:39
So discover the problem that language technology can solve
253
879497
3066
Discover là phát hiện vấn đề công nghệ ngôn ngữ giải quyết được
14:42
for a particular language community.
254
882563
2200
cho một cộng đồng ngôn ngữ cụ thể.
14:44
This observation-led approach can help allocate resources
255
884797
3233
Hướng tiếp cận dựa trên quan sát có thể giúp phân bổ nguồn lực
14:48
where they are most needed,
256
888030
1700
cho nơi cần nhất,
14:49
designed for the users and their language,
257
889763
2767
thiết kế (design) cho người dùng và ngôn ngữ của họ,
14:52
understand the diversity in the linguistic properties
258
892530
3367
hiểu về sự đa dạng trong các thuộc tính ngôn ngữ
14:55
and the languages of the world.
259
895930
2100
và các ngôn ngữ khác trên thế giới.
14:58
And don't think, oh, this is made for English.
260
898030
2400
Và đừng nghĩ rằng cái này được làm cho tiếng Anh.
15:00
Now, how can we just adapt it for Marathi or for Gondi, right?
261
900463
4334
Giờ, làm sao để biến nó thành tiếng Marathi hay Gondi?
15:04
Develop rapidly and deploy frequently.
262
904830
2600
Phát triển liên tục và triển khai thường xuyên.
15:07
It's an iterative process that will help you fail fast
263
907463
3500
Đó là một quá trình lặp đi lặp lại khiến bạn gặp thất bại nhanh chóng
15:10
and early failures will eventually lead to success.
264
910997
3366
và những thất bại sớm cuối cùng cũng sẽ dẫn tới thành công.
15:15
The important thing is to persevere.
265
915497
1966
Điều quan trọng là phải kiên trì.
15:17
Do not give up.
266
917497
1366
Đừng từ bỏ.
15:18
And I remember the story of these two Aborigine Australian women,
267
918863
5734
Tôi nhớ về câu chuyện của hai phụ nữ Aborigine châu Úc,
15:24
Patricia O'Connor and Ysola Best.
268
924630
3800
Patricia O’Connor và Ysola Best.
15:29
In the mid-90s, they went to the University of Queensland
269
929763
3134
Ở giữa thập niên 90, họ tới học tại Đại học Queensland
15:32
and they wanted to learn their own language, called Yugambeh,
270
932930
3333
và họ muốn học tiếng mẹ đẻ, gọi là Yugambeh,
15:36
and they were told very bluntly, "Your language is dead.
271
936297
2633
họ được trả lời thẳng: “Tiếng nói của các bạn đã chết.
15:38
It's been dead for three decades.
272
938963
1600
Nó đã chết được ba thế kỷ rồi.
15:40
You cannot work on this. Find something else to work on."
273
940563
3867
Không thể làm gì với nó nữa. Tìm thứ gì khác mà làm.”
15:44
They did not give up.
274
944463
1267
Họ không từ bỏ.
15:45
They went to the community,
275
945763
1600
Họ tới cộng đồng,
15:47
they dug up oral memories, oral traditions, oral literature,
276
947363
4867
họ đào sâu ký ức truyền miệng, truyền thống, văn học truyền miệng,
15:52
and founded the Yugambeh Museum,
277
952263
3367
và tìm ra Bảo tàng Yugambeh,
15:55
which became the most important cultural and linguistic center for the language
278
955663
5434
nơi trở thành trung tâm văn hóa và ngôn ngữ quan trọng nhất
16:01
and its community.
279
961130
1767
của cả cộng đồng.
16:02
They did not have technology. They only had their willpower.
280
962930
4033
Họ không có công nghệ, họ chỉ có ý chí.
16:06
Now, with the power of technology,
281
966997
2233
Giờ, với sức mạnh của công nghệ,
16:09
we can ensure that the next page is written in Salmi from Finland,
282
969263
5767
ta có thể đảm bảo rằng trang tiếp theo được viết bởi tiếng Salmi từ Phần Lan,
16:15
Lillooet from Canada or Mundari from India.
283
975030
3467
Lillooet từ Canada và Mundari từ Ấn Độ.
16:19
Thank you.
284
979163
1000
Xin cảm ơn.
Về trang web này

Trang web này sẽ giới thiệu cho bạn những video YouTube hữu ích cho việc học tiếng Anh. Bạn sẽ thấy các bài học tiếng Anh được giảng dạy bởi các giáo viên hàng đầu từ khắp nơi trên thế giới. Nhấp đúp vào phụ đề tiếng Anh hiển thị trên mỗi trang video để phát video từ đó. Phụ đề cuộn đồng bộ với phát lại video. Nếu bạn có bất kỳ nhận xét hoặc yêu cầu nào, vui lòng liên hệ với chúng tôi bằng biểu mẫu liên hệ này.

https://forms.gle/WvT1wiN1qDtmnspy7