Kalika Bali: The giant leaps in language technology -- and who's left behind | TED

54,015 views ・ 2021-04-26

TED


Silakan klik dua kali pada teks bahasa Inggris di bawah ini untuk memutar video.

00:00
Transcriber:
0
0
7000
Translator: Annisa Indah Sukma Reviewer: Azfa A
Nama saya Kalika Bali.
Profesi saya ahli teknologi, tapi saya lulus dari jurusan bahasa.
Dunia akademik, startup,
perusahaan kecil, dan perusahaan multinasional
00:12
I'm Kalika Bali, I'm a linguist by training
1
12430
2800
telah saya jajaki lebih dari dua dekade;
00:15
and a technologist by profession,
2
15263
2334
tugas saya meneliti dan juga merancang sistem teknologi bahasa.
00:17
I have worked in academia,
3
17630
1667
00:19
in startups, in small companies and multinationals for over two decades,
4
19330
5267
Impian saya adalah melihat teknologi melampaui batasan bahasa.
00:24
doing research in and building language technology systems.
5
24630
3733
Sebagai seorang peneliti di Microsoft Research (MSR) Labs India,
saya bergerak di bidang teknologi bahasa dan teknologi bahasa lisan.
00:28
My dream is to see technology work across the language barrier.
6
28363
4667
00:33
As a researcher at Microsoft Research Labs India
7
33030
3100
Yang jadi perhatian saya ialah
cara membuat teknologi mudah diakses siapa saja,
00:36
I work in the field of language technology and speech technology.
8
36163
5534
paham kan, terlepas dari bahasa masing-masing.
00:41
And I worry about how can we make technology accessible
9
41697
3600
Jadi, pengolahan bahasa alami, kecerdasan buatan,
00:45
to people across the board,
10
45330
2200
teknologi bahasa lisan,
ketiganya jargon yang sedang populer, ya kan.
00:47
you know, irrespective of the language that they speak.
11
47530
2967
Apa itu pengolahan bahasa alami, atau NLP, jadi bahan pembicaraan semua orang.
00:51
So natural language processing,
12
51663
1600
00:53
artificial intelligence, speech technology,
13
53297
2066
00:55
these are very big words, they are buzzwords right now.
14
55363
2600
Sederhananya,
NLP adalah bentuk rekayasa ilmu komputer
00:57
Everybody is talking about what exactly is NLP or natural language processing.
15
57997
5533
yang membuat mesin memproses, memahami, dan menghasilkan bahasa alami,
01:03
So in very simple terms,
16
63530
1533
01:05
this is the part of computer science engineering
17
65063
3367
atau bahasa yang manusia gunakan sehari-hari.
01:08
that makes machines process,
18
68463
2834
Saat Anda memesan tiket kereta atau pesawat lewat bot
01:11
understand and generate natural language,
19
71330
2967
01:14
which is the language that humans speak.
20
74330
2233
atau bicara dengan
asisten digital berbasis suara yang ada di ponsel Anda,
01:17
When you are interacting with a bot trying to book your train tickets
21
77697
4700
NLP-lah yang menggerakkan kedua teknologi tersebut
01:22
or flight tickets,
22
82430
1267
01:23
when you are speaking to a voice-based digital assistant in your phone,
23
83697
4833
agar berjalan dengan baik.
Tapi bagaimana cara kerjanya, cara kerja NLP?
01:28
it's natural language processing
24
88530
1600
Sederhananya, ini hanya tentang data.
01:30
that underpins the entire technology that makes that work.
25
90163
3534
01:34
But how does this work?
26
94797
1266
Jadi, suatu jumlah data yang besar,
01:36
How does NLP work?
27
96063
1567
01:37
In a very, very basic way,
28
97663
3900
berisi penggunaan bahasa di kehidupan nyata,
01:41
it's about data.
29
101563
1800
diproses melalui berbagai macam algoritme dan teknik,
01:43
So a huge amount of data of how actually humans use language
30
103363
6334
lalu algoritme dan teknik ini
membuat mesin belajar pola bahasa alami, ya.
01:49
is then processed by certain algorithms and techniques
31
109697
5166
Akhir-akhir ini, pasti Anda juga sering mendengar tentang
01:54
that make the machines learn the patterns
32
114863
2767
deep neural network.
01:57
of natural language of humans, right?
33
117663
3700
Nah, ini adalah teknologi canggih
yang pada saat ini dipakai untuk mendukung penerapan NLP.
02:01
These days, another buzzword that you hear a lot about is deep neural networks.
34
121363
5367
Saya tidak akan menjelaskan mekanismenya secara detil,
02:06
And these are the advanced techniques
35
126763
2467
tapi yang perlu Anda mengerti dan resapi adalah
02:09
that underpin a lot of the NLP stuff that happens right now.
36
129263
4134
semuanya ini membutuhkan data bahasa alami
02:13
And I will not go into the details of how that works,
37
133430
3333
02:16
but the thing that you really have to understand and keep in mind
38
136797
3400
yang sangat banyak.
Kalau Anda ingin mengajak bicara
02:20
is that all of this requires a humungous amount of data,
39
140197
5000
suatu sistem tutur buatan dalam bahasa Gujarati,
hal pertama yang dibutuhkan
02:25
natural language data.
40
145197
1666
adalah data percakapan penutur Gujarati
02:26
If you want a speech system to converse with you in Gujarati,
41
146863
5267
dalam kuantitas yang besar.
02:32
the first thing you require
42
152163
1367
02:33
is a lot of data of Gujarati people speaking to each other
43
153530
4533
Maka dari itu, pada 2017,
Microsoft menghadirkan sistem pengenalan wicara
yang dapat mengubah bahasa lisan menjadi tulisan
02:38
in their own language.
44
158063
1867
02:41
So 2017, Microsoft came up with a speech recognition system
45
161663
4734
seperti kita, tapi lebih baik.
Sistem ini dilatih menggunakan
02:46
which was able to transcribe speech into text
46
166430
3600
200 juta kata hasil transkripsi.
Pada 2018, muncul pula sebuah sistem terjemahan mesin
02:50
better than a human did.
47
170030
1733
02:52
And this system was trained
48
172563
3167
yang dapat menerjemahkan bahasa Inggris ke bahasa Tionghoa
02:55
on 200 million transcribed words.
49
175763
2667
sebaik penutur kedua bahasa itu.
02:58
In 2018, an English-Chinese machine translation system
50
178463
3967
Dan sistem ini dilatih dengan 18 juta pasangan kalimat Inggris-Tionghoa.
03:02
was able to translate from English to Chinese
51
182463
2800
03:05
as well as any human bilingual could.
52
185297
2766
Memang, masa ini begitu menyenangkan
03:08
And this was trained on 18 million bilingual sentence pairs.
53
188063
4934
untuk pengembang NLP dan sejenisnya.
Kami sedang menyaksikan fiksi ilmiah yang dulu kita baca dan tonton di layar
03:14
This is a very, very exciting time in natural language processing
54
194330
4433
terwujud di depan mata.
03:18
and in technology as such.
55
198797
1466
Lompatan demi lompatan besar telah kami buat secara teknis.
03:20
You know, we are seeing science fiction, which we had read about and watched,
56
200297
4466
Namun, hanya beberapa bahasa saja yang menikmati kemajuan ini.
03:24
kind of come true in front of our own eyes.
57
204797
2833
03:27
We are making giant leaps in technical advancement.
58
207663
4467
Monojit Choudhury,
rekan kerja saya yang juga seorang kawan baik,
03:32
But these giant leaps are limited to very few languages.
59
212163
6234
mempelajari hal ini dengan seksama
dan dia juga mengamati distribusi data antar bahasa di seluruh dunia.
03:38
So Monojit Choudhury,
60
218430
1300
03:39
who's like a very good friend of mine
61
219763
1867
03:41
and a colleague,
62
221663
2134
Menurutnya, distribusi ini mengikuti bentuk distribusi hukum pangkat.
03:43
he has studied this in some detail
63
223830
1733
03:45
and he has looked at resource distribution across languages in the world.
64
225563
4067
Intinya, terdapat empat bahasa,
yaitu bahasa Arab, Tionghoa, Inggris, dan Spanyol,
03:49
And he says that these follow what is called a power-law distribution,
65
229663
4100
yang memiliki jumlah data percakapan dan teknologi terbanyak.
03:53
which essentially means that there are four languages,
66
233797
2766
Sedangkan, ada serangkaian bahasa lain yang bisa mengambil manfaat dari
03:56
Arabic, Chinese, English and Spanish,
67
236563
2700
03:59
which have the maximum amount of resources available.
68
239297
3766
memiliki data yang banyak dan teknologi yang kini tersedia.
04:03
There are another handful of languages which can also benefit from, you know,
69
243063
5167
Tapi nyatanya, 90 persen dari seluruh bahasa di dunia
04:08
the resources and the technology that's available right now.
70
248263
3834
kekurangan atau tidak memiliki data sama sekali.
04:12
But there are 90 percent of the world's languages
71
252130
4833
Lima ribu bahasa dunia terlewatkan
oleh revolusi teknologi yang kita bicarakan sebelumnya.
04:16
which have no resources
72
256997
1800
04:18
or very little resources available.
73
258830
2067
Ini karena keempat bahasa yang kaya data tadi
04:20
This revolution that we are talking about
74
260930
2667
sudah punya teknologi pendukung,
04:23
has essentially bypassed 5,000 languages of the world.
75
263630
4100
sehingga peneliti dan ahli teknologi lebih tertarik mengembangkannya.
Jadi mereka buat lebih banyak lagi data dan teknologi baru.
04:27
Now, what this means is that resource-rich languages
76
267763
2534
04:30
have technologies built for them,
77
270330
1800
Alhasil, fenomena ini jadi siklus “yang kaya makin kaya”.
04:32
so researchers and technologists get attracted towards them.
78
272163
3267
Dan bahasa yang “miskin” tetap jadi miskin;
04:35
They build more technologies for them. They create more resources.
79
275463
3500
tak ada teknologi dan pengembangnya.
04:38
So it's like a rich getting richer kind of a cycle.
80
278997
2800
Kesenjangan ini,
kesenjangan digital antar bahasa semakin melebar
04:41
And the resource-poor languages stay poor,
81
281830
2400
dan secara implisit ini artinya
04:44
there's no technology for them, nobody works for them.
82
284263
2600
kesenjangan antar komunitas penuturnya juga terus berkembang.
04:46
And this divide, digital divide between languages
83
286863
3400
04:50
is ever-expanding
84
290297
1500
04:51
and by implication also the divide between the communities
85
291830
4633
Masalah ini ingin kami atasi lewat Project Ellora.
04:56
that speak these languages is expanding.
86
296497
2500
Kami ingin tahu
jika data bahasa dapat kami perbanyak
05:00
So in Microsoft, in Project Ellora, we aim to bridge this gap.
87
300763
4767
dengan berbagai metode inovatif,
teknologi baru dapat kami rancang
05:06
We are trying to see how can we create more data by innovative methods,
88
306663
5567
dengan teknik-teknik lain yang tak butuh banyak sumber daya,
dan apa saja contoh penerapannya
yang bermanfaat bagi komunitas penutur bahasa tersebut.
05:12
have more techniques to build technology without having a lot of resources,
89
312263
5800
Mungkin semua ini masih terdengar abstrak bagi Anda,
05:18
and what are the applications that can truly benefit these communities.
90
318063
4200
maksudnya apa sih dengan data, teknik, teknologi...
Biar saya jelaskan dengan sebuah contoh konkret.
05:23
So at the moment, this might seem very theoretical,
91
323463
3334
Saya menganggap diri saya ahli bahasa.
05:26
like what is he talking about, data and techniques and technology.
92
326830
3133
Saya sangat suka bahasa dan senang bicara tentangnya.
05:29
So let me give you a very concrete example here.
93
329997
3066
Jadi akan saya ceritakan satu bahasa yang mungkin tak Anda tahu.
05:33
I'm a linguist at heart, I love languages, and that's what I love talking about.
94
333063
5300
Namanya Gondi.
Ini adalah bahasa kaum Dravida di India Tengah dan Selatan.
05:38
So let me tell you about a language that many of you might not know about.
95
338363
4367
Penuturnya ada tiga juta orang, di lima negara bagian.
05:42
Gondi.
96
342763
1267
Kalau kita bandingkan dengan bahasa lain,
05:44
Gondi is a South-Central Dravidian language.
97
344030
2700
jumlah penutur bahasa Norwegia sekitar lima juta
05:46
It is spoken by three million people in five states of India.
98
346763
4434
dan penutur Welsh kurang dari sejuta.
05:51
And to put this in some kind of perspective,
99
351197
3000
Jadi bahasa ini punya cukup banyak penutur aktif,
05:54
Norwegian is spoken by five million people
100
354197
2833
dan komunitas yang besar, yaitu suku-suku Gond.
05:57
and Welsh by a little under a million.
101
357030
2933
05:59
So Gondi is actually a pretty robust and pretty large community
102
359997
6200
Tapi menurut Atlas of Languages in Danger yang diterbitkan UNESCO,
bahasa Gondi terancam punah.
06:06
of the Gond tribals in India.
103
366197
2900
06:09
But by UNESCO's Atlas of Languages in Danger,
104
369130
5067
Nah, ada LSM bernama CGNet Swara
yang membangun portal jurnalisme warga
06:14
Gondi is designated vulnerable status.
105
374197
4366
untuk dinikmati komunitas ini.
Mereka buat berita lokal mudah diakses lewat ponsel.
06:19
CGNet Swara is an NGO that provides a citizen journalism portal
106
379030
4533
Hanya, mereka tak punya layanan dukungan teknologi,
06:23
for the Gond community
107
383563
1867
karena nihilnya data bahasa, teknologi untuk bahasa Gondi.
06:25
by making local stories accessible through mobile phones.
108
385463
4234
06:29
There's absolutely no tech support for Gondi.
109
389697
2933
Konten yang beredar dibuat, dimoderasi, dan disunting secara manual.
06:32
There is no data available for Gondi, no resources available for Gondi.
110
392663
4800
Dalam Project Ellora, yang kita lakukan adalah
06:37
So all content that is created, moderated and edited is done manually.
111
397497
5066
mengumpulkan semua yang berkepentingan:
LSM seperti CGNet Swara,
lembaga akademik seperti IIIT Naya Raipur,
06:42
Now, under Project Ellora,
112
402563
2067
06:44
what we did was that we brought together all the stakeholders,
113
404663
2967
penerbit nirlaba, seperti Pratham Books,
06:47
an NGOs like CGNet Swara,
114
407663
1800
dan yang paling penting, penutur Gondi itu sendiri.
06:49
and academic institutions, like IIIT Naya Raipur,
115
409497
3366
Suku-suku Gond terjun langsung ke dalam proyek ini,
06:52
a not-for-profit children's book publisher,
116
412863
2200
06:55
like Pratham Books,
117
415063
1300
untuk pertama kalinya
06:56
and most importantly, the speakers of the community.
118
416363
2434
menerjemahkan buku anak ke dalam bahasa mereka
06:58
The Gond tribals themselves participated in this activity
119
418830
4933
serta menyuntingnya.
Kami berhasil terbitkan dua ratus buku dalam bahasa Gondi untuk pertama kalinya
07:03
and for the first time edited and translated children’s books in Gondi.
120
423797
5633
sehingga generasi mudanya punya akses ke kisah dan buku bacaan.
07:09
We were able to put out 200 books for the very first time in Gondi,
121
429463
5334
Proyek ini disambung dengan Adivasi Radio,
sebuah aplikasi yang kami kembangkan di Microsoft Research
07:14
so that the children had access to stories and books in their own language.
122
434830
4700
dan telah kami luncurkan dengan bantuan semua pihak terlibat.
07:19
Another extension of this was Adivasi Radio,
123
439530
2267
07:21
which was like an app that we built and developed in Microsoft Research,
124
441830
4033
Aplikasi ini memanfaatkan sistem text-to-speech dari bahasa Hindi
07:25
and then put out there, along with our stakeholders,
125
445863
4567
untuk membacakan berita dan artikel dari CGNet Swara
07:30
which takes a Hindi text-to-speech system
126
450463
3067
ke dalam bahasa Gondi.
07:33
and allows it to read out news and articles provided by CGNet Swara
127
453530
6400
Pengguna dapat memakai aplikasi ini
untuk membaca, menonton berita,
dan mengakses segala jenis informasi dalam bahasa mereka sendiri,
07:39
in Gondi language.
128
459963
2434
dalam bentuk lisan maupun tulisan.
07:42
Users can now use this app to read,
129
462430
2767
Satu hal yang menarik;
07:45
watch news and access any information
130
465197
3433
aplikasi ini kini dipakai masyarakat untuk menerjemahkan berbagai teks
07:48
through text and voice in their own language.
131
468663
3900
dari bahasa Hindi ke Gondi.
07:52
A very interesting thing is that this app is now being used to translate --
132
472563
3634
Ini akan menghasilkan teks paralel
yang kami sebut data paralel,
07:56
by the community to translate text from Hindi to Gondi.
133
476197
4833
dan memungkinkan kami
membangun sistem terjemahan mesin
yang akan membuka jendela dunia
08:01
Now, what that will result in is a lot of parallel data,
134
481030
3333
08:04
that we call parallel data,
135
484363
1534
untuk warga Gond.
08:05
that will allow us to build machine translation systems for Gondi,
136
485930
3500
Dan kami tahu caranya; ini yang paling penting.
08:09
which will truly open up a window for the Gond community to the world.
137
489463
5900
Kami sudah siapkan pipeline yang bisa diperbanyak
untuk setiap bahasa
dan setiap komunitas penutur yang berada di situasi yang sama
08:15
And what is even more important is now we know how to do this.
138
495363
3567
08:18
We have the entire pipeline and we can replicate this for any language
139
498963
4600
dengan warga Gond,
dalam kondisi pendidikan yang sama,
08:23
and any language community
140
503563
1900
paham ya, dengan minimnya akses informasi.
08:25
which is in a similar situation as the Gond tribals.
141
505497
3033
Tapi, bagaimana dengan kondisi keuangan mereka?
08:29
Also education -- yes, you know, information access -- yes,
142
509630
4833
Ya kan? Bagaimana kita bisa buka lapangan pekerjaan
lewat alat-alat digital yang keberadaannya kini kita sepelekan?
08:34
but what about earning a living?
143
514497
2700
08:37
Right? What about -- how can we make these people earn a living
144
517830
4200
Vivek Seshadri, yang juga peneliti di MSR,
dan rekannya Manu Chopra
08:42
through the digital tools that all of us just take for granted these days?
145
522030
3867
telah merancang suatu platform bernama Karya.
Platform ini menyediakan serangkaian microtask
08:45
Vivek Seshadri, who's another researcher at MSR,
146
525930
2533
yang dapat dipakai komunitas miskin untuk mencari uang.
08:48
and his collaborator, Manu Chopra,
147
528497
2100
Tujuan Vivek membuat aplikasi ini
08:50
they've designed a platform called Karya
148
530630
2500
adalah memberikan kesempatan bagi masyarakat India,
08:53
for providing digital microtasks to the underserved communities.
149
533163
4600
baik penduduk pedesaan maupun kaum miskin di wilayah urban,
08:57
His aim was basically to find a way to provide a means of dignified labor
150
537797
5433
untuk mendapatkan pekerjaan yang bermartabat.
Karena mereka tak bisa mengakses informasi yang diperlukan
09:03
to the populations, the rural populations
151
543263
2034
untuk memakai platform digital yang umumnya kita pakai
09:05
and the urban poor populations of this country.
152
545330
2300
tanpa perlu pikir panjang.
09:08
They don't have access to all the knowledge
153
548530
3000
Tapi ...
09:11
to use the digital platforms
154
551530
2567
Di sini juga ada sekumpulan besar populasi melek huruf
09:14
that all of us use every day without even thinking, right?
155
554130
4200
dan butuh pekerjaan,
09:18
But ...
156
558930
1233
jadi bagaimana ya kita bisa wujudkan mimpi mereka?
09:20
Here is a large
157
560863
2434
Nah, aplikasi Karya ini jadi satu cara
09:23
literate population that wants to work, right,
158
563330
4133
untuk mengantarkan komunitas ini ke dunia digital,
09:27
and how can we make this possible for them?
159
567497
2766
tempat, ya, mereka bisa mencari pekerjaan
09:30
So Karya is one such way
160
570297
3500
dan mengerjakan task yang kemudian menghasilkan uang.
09:33
through which this population can get on to the digital world
161
573830
4033
Ini kami pelajari. Kami pikir, wah, hebat.
09:37
and, you know,
162
577863
1434
Karya bisa kita pakai sebagai alat pengambil data.
09:39
through that find work and do tasks that can then earn them money.
163
579330
4433
Kami pun pergi ke Amale,
sebuah desa kecil berpenghuni 200 orang
09:43
So we saw this and we thought, oh, this is wonderful.
164
583797
2500
di distrik Wada, Maharashtra,
09:46
We could probably use this for data collection as well.
165
586330
2600
untuk mengumpulkan data bahasa Marathi dengan Karya.
09:48
So we went to Amale,
166
588963
2000
09:50
which is a small village of 200 people
167
590997
3266
Saya tahu yang Anda pikirkan,
karena di sini pasti ada banyak penutur Marathi;
09:54
in the Wada district of Maharashtra
168
594297
1933
Marathi tak mungkin jadi bahasa minim data.
09:56
and decided to use Karya to collect Marathi data.
169
596263
2667
Pemakaiannya jelas-jelas meluas di negara ini.
09:58
Now, I know what you are thinking --
170
598963
1900
10:00
I'm sure a lot of Marathi speakers also in the audience --
171
600930
2767
Tapi dari segi teknologi bahasa,
10:03
that Marathi is not a low-resource language.
172
603697
2400
Marathi tidak punya banyak data dan teknologi.
10:06
Marathi is definitely a mainstream language of the country.
173
606130
3600
Jadi kami pergi ke desa ini,
dan kunjungan kami berjalan sangat lancar.
10:09
But as far as language technology is concerned,
174
609763
2500
Dan tahu tidak, desa ini sungguh terpencil.
10:12
Marathi is a low-resource language.
175
612297
2333
10:14
So we went to this village
176
614663
1600
Tak ada listrik, televisi,
10:16
and we had a very successful data-collection trip.
177
616297
3800
dan sinyal untuk berkirim pesan atau menelepon.
10:20
And, you know, this village is very remote.
178
620130
3567
Anda harus naik ke bukit dan goyang-goyangkan ponsel
10:23
They have no TV, they have no electricity,
179
623697
2700
kalau ingin, yah, melakukan panggilan.
10:26
they have no mobile signal.
180
626430
3833
Semua data ini kami kumpulkan,
10:30
You have to climb a hill and wave your phone around
181
630297
2633
tapi lebih dari itu,
kami juga mendapat pelajaran berharga.
10:32
if you want to, you know, use your mobile to call anyone.
182
632963
3200
Pertama, kita harus bangga pada bahasa kita sendiri.
10:37
So they gave us all this data.
183
637197
1766
Penduduk Amale begitu semangat untuk terlibat
10:38
But more than that, they gave us very valuable lessons in life.
184
638997
3266
karena mereka sedang memajukan bahasa mereka lewat proyek ini.
10:43
One is this pride in one's own language.
185
643063
3000
Kedua, pahami nilai suatu komunitas.
10:46
The people of Amale were thrilled to be doing this
186
646063
2667
10:48
because they were advancing their own language by doing this.
187
648763
5834
Proyek ini tak lama menjadi tanggung jawab satu desa.
Penduduk akan berkumpul dan mengerjakan task bersama-sama.
10:54
The second was the value of community.
188
654630
1833
10:56
Very quickly, this became a village community effort.
189
656497
3900
Lalu yang ketiga, kita harus mengerti pentingnya sebuah dongeng.
11:00
People would gather together in tasks and do this together as a group.
190
660430
4867
Penduduk Amale begitu haus informasi,
sehingga pada pagi hari,
11:05
And the third is the importance of storytelling.
191
665330
3767
mereka akan merekam cerita dalam bahasa Karya
11:09
People of Amale were so starved of content that in the morning, during the daytime,
192
669130
6067
dan pada sore hari mengumpulkan seluruh desa
untuk mendengarkan cerita yang mereka rekam ulang.
11:15
they would do recordings of stories in Karya
193
675197
4066
11:19
and then in the evening they would gather the entire village
194
679297
2833
Sebagai peneliti,
kadang kami terlalu fokus pada sisi teknis dari proyek kami:
11:22
and retell and recount these stories to the village.
195
682163
3834
model seperti apa yang lebih baik,
11:27
So as scientists, we get so caught up
196
687563
2167
bagaimana meningkatkan akurasi dari sistem kami,
11:29
in the science and technology part of what we are doing, you know --
197
689763
3700
bagaimana membangun sistem yang lebih canggih,
11:33
which is the next best model to have,
198
693497
1966
sampai kami lupa tujuan dari proyek ini: penutur bahasanya sendiri.
11:35
how can we increase the accuracy of my system,
199
695497
2933
11:38
how can I build the next best system there is --
200
698463
4600
Sedangkan, teknologi yang berhasil
mengutamakan manusia atau penggunanya.
11:43
that we forget the reason why we are doing this: the people.
201
703063
3700
11:46
And any successful technology is the one that keeps the people and the users
202
706797
5466
Saat fokus kami alihkan ke sini,
kami menyadari bahwa
teknologi hanya menyelesaikan sebagian kecil masalah,
dan banyak faktor lain yang bermain.
11:52
up front and center.
203
712297
1566
Mungkin intervensi sosial, budaya, atau kebijakan juga dibutuhkan.
11:54
And when they start doing that,
204
714830
1533
11:56
we also realize that technology is probably a very small part of this
205
716363
3667
12:00
and there are other things in the story.
206
720030
2367
Waktu lalu, saya mengerjakan suatu proyek bernama VideoKheti
12:02
Maybe there are social, cultural and policy interventions
207
722430
3333
yang fungsinya membantu petani penutur Hindi di India Tengah
12:05
that are required, as much as technology.
208
725797
2200
mencari video seputar pertanian lewat aplikasi pengenalan suara.
12:09
So some time back, I worked on a project called VideoKheti
209
729030
3267
12:12
that allowed Hindi-speaking farmers in Central India
210
732330
3600
Kami pergi ke Madhya Pradesh untuk mengambil data,
12:15
to search for agricultural videos by speaking into a phone-based app.
211
735963
6667
lalu melatih model dengan data tadi,
tapi ternyata hasilnya buruk. Gagal.
12:23
So we went to Madhya Pradesh to collect data for this,
212
743363
3434
Kami sungguh bingung; Kenapa ini bisa terjadi?
Jadi kami teliti lebih dalam data yang kami kumpulkan,
12:26
and we came back and we were training our models
213
746830
2300
dan menemukan bahwa, ya, data ini diambil
12:29
and we discovered we're getting very bad results.
214
749163
2367
12:31
This is not working.
215
751530
1267
dari daerah yang saat sore terlihat sunyi.
12:32
So we were very confused. Why is this happening?
216
752830
2267
12:35
So we looked deeper and deeper into the data
217
755130
2267
Tapi yang tak kami dengar saat merekam
12:37
and discovered that, yes, we had collected data
218
757430
2233
12:39
from what we thought was a very silent, quiet village in the evening.
219
759697
4666
adalah dengung serangga malam, tahu kan, yang tak kunjung berhenti.
Jadi sepanjang proses perekaman, muncul suara “nging”,
12:44
But what we hadn't heard while we were doing this
220
764363
3400
yang mendistorsi suara penutur.
12:47
was that there was this constant buzz of night insects, you know?
221
767797
4100
Lalu yang kedua,
12:51
So throughout the recordings, we had this "bzz" of the insects,
222
771930
3467
saat kami berkunjung ke sana dalam rangka mengetes aplikasi,
12:55
which was actually distorting our speech.
223
775430
2533
saya dan rekan saya Indrani Medhi,
12:58
The second thing was that when we went there
224
778797
2233
seorang peneliti UX yang sangat disegani,
13:01
to kind of test our app in the village,
225
781030
3867
menemukan bahwa penduduk wanitanya tak dapat melafalkan kata serapan Sanskrit
13:04
I and my colleague Indrani Medhi,
226
784930
2533
13:07
who is a very well-regarded design researcher,
227
787497
3600
yang kami pakai sebagai contoh kata kunci.
Seperti ...
13:11
we found that the women couldn't pronounce the sanskritized words
228
791130
4400
(berbahasa Hindi)
13:15
that we had for some of the search terms.
229
795530
2767
Ini adalah istilah untuk pestisida kimia, betul?
13:18
So, like ...
230
798330
1500
Nah, istilah ini kami dapatkan dari sentra penyuluhan pertanian,
13:21
(speaks Hindi)
231
801663
2800
13:24
Which is like the term for chemical pesticides, right?
232
804497
3866
tapi para perempuan ini, meski ikut bertani,
mereka tak pernah berinteraksi dengan sentra.
13:28
Because we got these terms from the agricultural extension center
233
808363
5534
Istilah ini hanya dipakai petani pria. Wanitanya akan menggunakan kata ...
13:33
and the women, even though they are farming,
234
813930
2100
(berbahasa Hindi)
yang artinya kurang lebih membunuh hama dengan obat.
13:36
do not interact with that center at all.
235
816030
2867
13:38
The men do, the women probably use something much simpler, like ...
236
818930
3967
Jadi yang saya pelajari dari kunjungan ini
13:42
(speaks Hindi)
237
822930
1300
dan yang ingin kujelaskan pada Anda semua adalah:
13:44
Which basically means killing pests with medicine.
238
824263
3534
untuk sekarang, saya harap Anda paham
13:48
So what I have learned through my journey
239
828430
3867
bahwa sebagian besar bahasa di dunia ini
13:52
and what I would like to put across to you --
240
832330
2900
membutuhkan investasi secara berkala dalam pembuatan data dan teknologi
13:55
by now, I hope you've understood me,
241
835263
2000
jika penuturnya ingin diuntungkan dari teknologi bahasa.
13:57
is that there is the majority of the world's languages
242
837297
3433
Dan ini tak mungkin terwujud
14:00
that require intensive investment for resource creation
243
840763
4267
secara efisien dan dalam waktu yang cepat.
14:05
if they are to benefit from language technology.
244
845030
2567
Jadi penting sekali bagi kami untuk memastikan
14:07
And this is unlikely to happen in a very fast and efficient manner.
245
847630
5367
komunitas penuturnya mendapatkan manfaat terbesar
dari pekerjaan kami di ranah ini.
14:13
So it is extremely important for us to ensure
246
853963
2934
14:16
that the community derives maximum benefit
247
856930
3533
Dalam melakukan ini
dan menciptakan dampak sosial yang positif
bagi penutur,
14:20
from whatever that we are doing in the language tech area.
248
860497
3966
kami mengikuti yang kami sebut
metodologi design thinking 4-D versi modifikasi.
14:24
And to do this and deliver a positive social impact
249
864497
3466
Kepanjangan dari 4-D sendiri: Discover, Design, Develop, dan Deploy.
14:27
on these communities,
250
867997
1466
14:29
we follow what we call the modified 4-D design thinking methodology.
251
869497
4733
Kita temukan (Discover) dulu masalah dalam komunitas
yang dapat diatasi dengan teknologi bahasa.
14:34
So the 4-D means: discover, design, develop and deploy.
252
874263
5200
Dengan pendekatan ini, kita dapat alokasikan data dan teknologi
14:39
So discover the problem that language technology can solve
253
879497
3066
ke tempat yang paling membutuhkan,
rancang (Design) teknologi sesuai kebutuhan penutur,
14:42
for a particular language community.
254
882563
2200
14:44
This observation-led approach can help allocate resources
255
884797
3233
dan pahami keanekaragaman bahasa dunia
dan karakter linguistik masing-masing bahasa.
14:48
where they are most needed,
256
888030
1700
14:49
designed for the users and their language,
257
889763
2767
Jangan pikir, “Model ini untuk penutur Inggris,
kita adaptasi saja ke bahasa Marathi atau Gondi.”
14:52
understand the diversity in the linguistic properties
258
892530
3367
14:55
and the languages of the world.
259
895930
2100
Kembangkan (Develop) terus modelmu, dan sebarkan (Deploy).
14:58
And don't think, oh, this is made for English.
260
898030
2400
Proses ini memang buat kita gagal berulang kali,
15:00
Now, how can we just adapt it for Marathi or for Gondi, right?
261
900463
4334
tapi kesalahan-kesalahan inilah yang antarkan kita ke kesuksesan.
15:04
Develop rapidly and deploy frequently.
262
904830
2600
15:07
It's an iterative process that will help you fail fast
263
907463
3500
Yang paling penting, jadilah tekun.
Jangan menyerah.
15:10
and early failures will eventually lead to success.
264
910997
3366
Saya jadi ingat cerita dua perempuan Aborigin Australia,
15:15
The important thing is to persevere.
265
915497
1966
yaitu Patricia O’Connor dan Ysola Best.
15:17
Do not give up.
266
917497
1366
15:18
And I remember the story of these two Aborigine Australian women,
267
918863
5734
Pada pertengahan 1990-an, mereka pergi ke Universitas Queensland
15:24
Patricia O'Connor and Ysola Best.
268
924630
3800
untuk belajar bahasa suku mereka, Yugambeh.
Kata pihak kampus,
15:29
In the mid-90s, they went to the University of Queensland
269
929763
3134
“Bahasa Anda sudah punah tiga dekade lalu.
Tak bisa Anda teliti. Cari saja bahasa lain.”
15:32
and they wanted to learn their own language, called Yugambeh,
270
932930
3333
Tapi, mereka tak menyerah.
15:36
and they were told very bluntly, "Your language is dead.
271
936297
2633
Mereka pergi ke daerah penutur,
15:38
It's been dead for three decades.
272
938963
1600
menggali pengetahuan dari
15:40
You cannot work on this. Find something else to work on."
273
940563
3867
kenangan, tradisi, sastra yang diturunkan secara lisan,
lalu mendirikan Museum Yugambeh,
15:44
They did not give up.
274
944463
1267
15:45
They went to the community,
275
945763
1600
15:47
they dug up oral memories, oral traditions, oral literature,
276
947363
4867
yang kemudian jadi
sentra budaya dan bahasa yang paling krusial
untuk komunitas penutur dan bahasanya.
15:52
and founded the Yugambeh Museum,
277
952263
3367
Tanpa bantuan teknologi. Hanya dengan kemauan keras.
15:55
which became the most important cultural and linguistic center for the language
278
955663
5434
Tapi kini, dengan kekuatan teknologi,
kita bisa pastikan bahasa selanjutnya adalah Salmi dari Finlandia,
16:01
and its community.
279
961130
1767
16:02
They did not have technology. They only had their willpower.
280
962930
4033
16:06
Now, with the power of technology,
281
966997
2233
Lillooet dari Kanada, atau Mundari dari India.
16:09
we can ensure that the next page is written in Salmi from Finland,
282
969263
5767
Terima kasih.
16:15
Lillooet from Canada or Mundari from India.
283
975030
3467
16:19
Thank you.
284
979163
1000
Tentang situs web ini

Situs ini akan memperkenalkan Anda pada video YouTube yang berguna untuk belajar bahasa Inggris. Anda akan melihat pelajaran bahasa Inggris yang diajarkan oleh guru-guru terbaik dari seluruh dunia. Klik dua kali pada subtitle bahasa Inggris yang ditampilkan di setiap halaman video untuk memutar video dari sana. Subtitle bergulir selaras dengan pemutaran video. Jika Anda memiliki komentar atau permintaan, silakan hubungi kami menggunakan formulir kontak ini.

https://forms.gle/WvT1wiN1qDtmnspy7