Kalika Bali: The giant leaps in language technology -- and who's left behind | TED
54,015 views ・ 2021-04-26
아래 영문자막을 더블클릭하시면 영상이 재생됩니다.
00:00
Transcriber:
0
0
7000
번역: Donghyun Oh
검토: DK Kim
00:12
I'm Kalika Bali,
I'm a linguist by training
1
12430
2800
저는 칼리카 발리입니다.
언어학을 전공했고
직업은 기술 전문가입니다.
00:15
and a technologist by profession,
2
15263
2334
00:17
I have worked in academia,
3
17630
1667
저는 학계, 스타트업,
00:19
in startups, in small companies
and multinationals for over two decades,
4
19330
5267
중소기업과 다국적 기업들에서
이십 년 이상 일했습니다.
00:24
doing research in and building
language technology systems.
5
24630
3733
언어 기술 시스템과 관련하여
연구와 설계를 맡았습니다.
00:28
My dream is to see technology work
across the language barrier.
6
28363
4667
제 꿈은 기술이 언어 장벽을 초월해
작동하는 모습을 보는 것입니다.
00:33
As a researcher
at Microsoft Research Labs India
7
33030
3100
인도 마이크로소프트 연구소 연구원으로
00:36
I work in the field of language technology
and speech technology.
8
36163
5534
언어 기술 분야와
음성 기술 분야에서 일합니다.
00:41
And I worry about how
can we make technology accessible
9
41697
3600
제 고민은 어떻게 기술을 모두가
접근 가능하게 만들까입니다.
00:45
to people across the board,
10
45330
2200
00:47
you know, irrespective
of the language that they speak.
11
47530
2967
사용하는 언어와 상관없이 말이죠.
00:51
So natural language processing,
12
51663
1600
자연어 처리, 인공지능, 음성 기술,
00:53
artificial intelligence,
speech technology,
13
53297
2066
00:55
these are very big words,
they are buzzwords right now.
14
55363
2600
이 단어들은 모두 범위가 넓고,
현재 유행하고 있습니다.
00:57
Everybody is talking about what exactly
is NLP or natural language processing.
15
57997
5533
모두가 NLP, 즉 자연어 처리가
정확히 무엇인지에 대해 얘기합니다.
01:03
So in very simple terms,
16
63530
1533
간단히 말하자면,
01:05
this is the part
of computer science engineering
17
65063
3367
NLP는 컴퓨터과학기술 분야 중
01:08
that makes machines process,
18
68463
2834
기계에게 자연어를 처리하고,
01:11
understand and generate natural language,
19
71330
2967
이해하고, 생성하도록 하는 분야입니다.
01:14
which is the language that humans speak.
20
74330
2233
자연어는 인간이 사용하는 언어입니다.
01:17
When you are interacting with a bot
trying to book your train tickets
21
77697
4700
자동 응답 문자를 사용해서
기차표나 비행기 표를 예매할 때나,
01:22
or flight tickets,
22
82430
1267
01:23
when you are speaking to a voice-based
digital assistant in your phone,
23
83697
4833
휴대전화 속 가상 비서와 대화를 할 때
01:28
it's natural language processing
24
88530
1600
이를 해내는 모든 기술의 바탕이
바로 자연어 처리입니다.
01:30
that underpins the entire technology
that makes that work.
25
90163
3534
01:34
But how does this work?
26
94797
1266
그러면 NLP는 어떻게 작동할까요?
01:36
How does NLP work?
27
96063
1567
01:37
In a very, very basic way,
28
97663
3900
정말 아주 간단히 말하면,
01:41
it's about data.
29
101563
1800
자료가 중요합니다.
01:43
So a huge amount of data
of how actually humans use language
30
103363
6334
사람들이 실제로 어떻게 언어를
사용하는지에 대한 방대한 자료가
01:49
is then processed
by certain algorithms and techniques
31
109697
5166
특정한 알고리즘과 기술로 처리되고
01:54
that make the machines learn the patterns
32
114863
2767
이를 통해 기계가 인간의
자연어 사용 양상을 익힙니다.
01:57
of natural language of humans, right?
33
117663
3700
02:01
These days, another buzzword that you
hear a lot about is deep neural networks.
34
121363
5367
요즘 많이 언급되고 있는 또 다른
유행어는 심층 신경망입니다.
02:06
And these are the advanced techniques
35
126763
2467
이런 선도 기술들은
02:09
that underpin a lot of the NLP stuff
that happens right now.
36
129263
4134
현재 진행 중인 NLP의
많은 부분을 밑받침합니다.
02:13
And I will not go into the details
of how that works,
37
133430
3333
이떤 방식으로 작동하는지
자세히 말씀드리지는 않겠지만,
02:16
but the thing that you really
have to understand and keep in mind
38
136797
3400
정말 이해하고 기억하셔야 할 것은
02:20
is that all of this requires
a humungous amount of data,
39
140197
5000
이 모든 과정에 엄청난 자료가
필요하다는 점입니다.
02:25
natural language data.
40
145197
1666
자연어 자료 말입니다.
02:26
If you want a speech system
to converse with you in Gujarati,
41
146863
5267
구자라트어로 소통할 수 있는
언어 체계를 원하신다면,
02:32
the first thing you require
42
152163
1367
제일 먼저 필요한 것은
수많은 구자라트 사람들이
02:33
is a lot of data of Gujarati people
speaking to each other
43
153530
4533
그들의 언어로 서로
대화하는 자료입니다.
02:38
in their own language.
44
158063
1867
02:41
So 2017, Microsoft came up
with a speech recognition system
45
161663
4734
2017년, 마이크로소프트는
음성 인식 체계를 만들었는데
02:46
which was able
to transcribe speech into text
46
166430
3600
음성을 문자로 변환하는 데에
사람보다 더 우수했습니다.
02:50
better than a human did.
47
170030
1733
02:52
And this system was trained
48
172563
3167
이 체계는 2억 건의
변환 단어로 학습했습니다.
02:55
on 200 million transcribed words.
49
175763
2667
02:58
In 2018, an English-Chinese
machine translation system
50
178463
3967
2018년에, 영어-중국어
기계 번역 체계는
03:02
was able to translate
from English to Chinese
51
182463
2800
영어에서 중국어로 번역을 이중 언어를
사용하는 사람만큼 할 수 있었습니다.
03:05
as well as any human bilingual could.
52
185297
2766
03:08
And this was trained
on 18 million bilingual sentence pairs.
53
188063
4934
이 체계는 이중 언어 문장
천팔백만 쌍을 학습했습니다.
03:14
This is a very, very exciting time
in natural language processing
54
194330
4433
지금은 자연어 처리나 관련 기술에서
03:18
and in technology as such.
55
198797
1466
아주 매우 흥미진진한 시간입니다.
03:20
You know, we are seeing science fiction,
which we had read about and watched,
56
200297
4466
우리가 읽고 봐 왔던 공상 과학이
03:24
kind of come true
in front of our own eyes.
57
204797
2833
현실이 되는 것을
눈으로 보고 있습니다.
03:27
We are making giant leaps
in technical advancement.
58
207663
4467
우리는 기술적 발전에서
거대한 도약을 하고 있습니다.
03:32
But these giant leaps
are limited to very few languages.
59
212163
6234
그러나 이 거대한 도약은 아주
소수의 언어들에 제한되어 있습니다.
03:38
So Monojit Choudhury,
60
218430
1300
제 좋은 친구이자 동료인
모노지트 초더리는
03:39
who's like a very good friend of mine
61
219763
1867
03:41
and a colleague,
62
221663
2134
03:43
he has studied this in some detail
63
223830
1733
이 상황을 자세히 연구하였고,
03:45
and he has looked at resource distribution
across languages in the world.
64
225563
4067
세계 언어들에 돌아가는
자원 분배를 살펴보았습니다.
03:49
And he says that these follow
what is called a power-law distribution,
65
229663
4100
그는 분배가 멱함수 분포라
부르는 것을 따른다고 말합니다.
03:53
which essentially means
that there are four languages,
66
233797
2766
기본적으로 네 가지 언어,
03:56
Arabic, Chinese, English and Spanish,
67
236563
2700
아랍어, 중국어, 영어와 스페인어가
03:59
which have the maximum amount
of resources available.
68
239297
3766
사용할 수 있는 자원의
거의 모두를 차지합니다.
04:03
There are another handful of languages
which can also benefit from, you know,
69
243063
5167
현재 사용 가능한 자원과 기술을 누리는
다른 언어들이 조금 더 있습니다.
04:08
the resources and the technology
that's available right now.
70
248263
3834
04:12
But there are 90 percent
of the world's languages
71
252130
4833
그러나 현재 세계 언어의 90%는
04:16
which have no resources
72
256997
1800
04:18
or very little resources available.
73
258830
2067
아주 적은 자원만을 사용할 수 있거나
사용할 자원이 없습니다.
04:20
This revolution that we are talking about
74
260930
2667
우리가 말하고 있는 이 혁명은
04:23
has essentially bypassed
5,000 languages of the world.
75
263630
4100
근본적으로 세계의 언어
5천 개를 무시하는 셈입니다.
04:27
Now, what this means is
that resource-rich languages
76
267763
2534
이 현상이 의미하는 바는,
자원이 풍부한 언어들은
04:30
have technologies built for them,
77
270330
1800
해당 언어들을 위한
기술이 구축되어 있으므로
04:32
so researchers and technologists
get attracted towards them.
78
272163
3267
연구자들과 기술 전문가들이 모입니다.
04:35
They build more technologies for them.
They create more resources.
79
275463
3500
그들은 해당 언어들에 더 많은 기술을
쌓고 더 많은 자원을 만듭니다.
04:38
So it's like a rich getting richer
kind of a cycle.
80
278997
2800
부자가 더 부자가 되는 순환입니다.
04:41
And the resource-poor languages stay poor,
81
281830
2400
자원이 없는 언어들은 계속 빈곤하고,
04:44
there's no technology for them,
nobody works for them.
82
284263
2600
기술도 없으며 아무도
그 언어를 연구하지 않습니다.
04:46
And this divide,
digital divide between languages
83
286863
3400
언어 간의 디지털 격차는 점점 확대되고
04:50
is ever-expanding
84
290297
1500
04:51
and by implication also the divide
between the communities
85
291830
4633
결과적으로 언어를 사용하는
04:56
that speak these languages is expanding.
86
296497
2500
각 사회 간의 격차 또한
확대되고 있습니다.
05:00
So in Microsoft, in Project Ellora,
we aim to bridge this gap.
87
300763
4767
마이크로소프트의 엘로라 사업은
이 간극을 메우고자 합니다.
05:06
We are trying to see how can we create
more data by innovative methods,
88
306663
5567
혁신적인 방법론을 도입해 어떻게
더 많은 자료를 만들 수 있을지,
05:12
have more techniques to build technology
without having a lot of resources,
89
312263
5800
많은 자원이 없이도 기술을 구축할
더 많은 방법을 만들 수 있는지,
05:18
and what are the applications
that can truly benefit these communities.
90
318063
4200
진정 이 사회에 도움이 될
적용 방식이 무엇인지 연구합니다.
05:23
So at the moment,
this might seem very theoretical,
91
323463
3334
지금은 모든 것이 무척
이론적으로 보입니다.
05:26
like what is he talking about,
data and techniques and technology.
92
326830
3133
자료와 방법론과 기술을
어떻게 한다는 것일까요.
05:29
So let me give you
a very concrete example here.
93
329997
3066
여기 구체적인 예시를 드리겠습니다.
05:33
I'm a linguist at heart, I love languages,
and that's what I love talking about.
94
333063
5300
저는 마음속으로는 언어학자입니다.
언어를 사랑하고 언어에 대해
말하는 것을 좋아합니다.
05:38
So let me tell you about a language
that many of you might not know about.
95
338363
4367
여러분 중 대부분이 잘 모르실
언어에 대해 말씀드리고자 합니다.
05:42
Gondi.
96
342763
1267
바로 곤드어입니다.
05:44
Gondi is a South-Central
Dravidian language.
97
344030
2700
곤드어는 중남부 드라비다어에
속하는 언어입니다.
05:46
It is spoken by three million people
in five states of India.
98
346763
4434
인도 5개주에서 3백만 명이
사용하는 언어입니다.
05:51
And to put this
in some kind of perspective,
99
351197
3000
이를 객관적인 시각으로 바라본다면,
05:54
Norwegian is spoken by five million people
100
354197
2833
노르웨이어는 5백만 명이 사용하며
05:57
and Welsh by a little under a million.
101
357030
2933
웨일스어는 백만 명이 조금 안 됩니다.
05:59
So Gondi is actually a pretty robust
and pretty large community
102
359997
6200
그러니 곤드어는 사실
인도 곤드족들의 꽤나 튼튼하고
06:06
of the Gond tribals in India.
103
366197
2900
아주 거대한 사회인 셈입니다.
06:09
But by UNESCO's
Atlas of Languages in Danger,
104
369130
5067
그러나 유네스코의
소멸 위기 언어 지도에서
06:14
Gondi is designated vulnerable status.
105
374197
4366
곤드어는 위험 등급을 받았습니다.
06:19
CGNet Swara is an NGO
that provides a citizen journalism portal
106
379030
4533
CG넷 스와라는 곤드어 사회를 위한
06:23
for the Gond community
107
383563
1867
시민 언론 관문을 제공하는 NGO로서
06:25
by making local stories
accessible through mobile phones.
108
385463
4234
지역 기사거리들을 휴대전화로
접할 수 있도록 해줍니다.
06:29
There's absolutely
no tech support for Gondi.
109
389697
2933
곤드어에는 기술적 지원이
전혀 없습니다.
06:32
There is no data available for Gondi,
no resources available for Gondi.
110
392663
4800
곤드어 자료도 없고
사용 가능한 자원도 없습니다.
06:37
So all content that is created,
moderated and edited is done manually.
111
397497
5066
그래서 모든 기사의 생성, 조절,
편집을 사람의 손으로 합니다.
06:42
Now, under Project Ellora,
112
402563
2067
현재, 엘로라 사업을 통해
06:44
what we did was that we
brought together all the stakeholders,
113
404663
2967
이해 관계자들을 모두 모았습니다.
06:47
an NGOs like CGNet Swara,
114
407663
1800
CG넷 스와라 같은 NGO들,
06:49
and academic institutions,
like IIIT Naya Raipur,
115
409497
3366
IIIT 나야 라이푸르 같은
학술 기관들도 모았으며,
06:52
a not-for-profit
children's book publisher,
116
412863
2200
프라탐 서적 같은 비영리
아동 서적 출판사도 모으고,
06:55
like Pratham Books,
117
415063
1300
06:56
and most importantly,
the speakers of the community.
118
416363
2434
가장 중요한 언어 사용자도 모았습니다.
06:58
The Gond tribals themselves
participated in this activity
119
418830
4933
곤드어 부족들이
이 활동에 직접 참여했으며
07:03
and for the first time edited
and translated children’s books in Gondi.
120
423797
5633
곤드어로 된 아동용 서적들을
최초로 편집하고 번역했습니다.
07:09
We were able to put out 200 books
for the very first time in Gondi,
121
429463
5334
곤드어로 된 책
200권을 최초로 발행해
07:14
so that the children had access to stories
and books in their own language.
122
434830
4700
아동들이 그들의 언어로 된 책과
이야기를 볼 수 있도록 했습니다.
07:19
Another extension of this
was Adivasi Radio,
123
439530
2267
이 활동의 또 다른 갈래는
아디바시 라디오였는데,
07:21
which was like an app that we built
and developed in Microsoft Research,
124
441830
4033
마이크로소프트 연구소가
설계하고 개발해서
07:25
and then put out there,
along with our stakeholders,
125
445863
4567
이해관계자들과 함께 만든 앱입니다.
07:30
which takes a Hindi text-to-speech system
126
450463
3067
이 앱은 힌디어 문자-음성
변환 체계를 이용해
07:33
and allows it to read out news
and articles provided by CGNet Swara
127
453530
6400
CG넷 스와라가 제공하는
뉴스와 기사들을 곤드어로 읽어줍니다.
07:39
in Gondi language.
128
459963
2434
07:42
Users can now use this app to read,
129
462430
2767
사용자들은 이 앱을 활용해
07:45
watch news and access any information
130
465197
3433
자신이 사용하는 언어의 문자와 음성으로
07:48
through text and voice
in their own language.
131
468663
3900
뉴스를 읽거나 시청하고
어떤 정보든 볼 수 있습니다.
07:52
A very interesting thing is that this app
is now being used to translate --
132
472563
3634
정말 흥미로운 것은 이 앱이 이제
번역에 사용되고 있다는 점입니다.
07:56
by the community to translate text
from Hindi to Gondi.
133
476197
4833
사용자들이 힌두어를 곤드어로
번역하는 데 사용하고 있습니다.
08:01
Now, what that will result in
is a lot of parallel data,
134
481030
3333
이는 자료 쌍을 많이 만들 것인데,
이것을 병렬 자료라고 부릅니다.
08:04
that we call parallel data,
135
484363
1534
08:05
that will allow us to build
machine translation systems for Gondi,
136
485930
3500
이 지료들은 곤드어 기계 번역
체계 구축 가능성을 열어주며,
08:09
which will truly open up a window
for the Gond community to the world.
137
489463
5900
이 체계는 곤드어 사용자와 세계를
연결하는 기회를 제공할 것입니다.
08:15
And what is even more important
is now we know how to do this.
138
495363
3567
더욱 더 중요한 것은,
이제 방법론을 얻었다는 점입니다.
08:18
We have the entire pipeline
and we can replicate this for any language
139
498963
4600
이제 완전한 방법론을 구축했으며,
어떤 언어에도 적용할 수 있습니다.
08:23
and any language community
140
503563
1900
곤드어와 비슷한 상황에 있는
어느 언어에든 적용할 수 있습니다.
08:25
which is in a similar situation
as the Gond tribals.
141
505497
3033
08:29
Also education -- yes, you know,
information access -- yes,
142
509630
4833
또한 교육, 정보 획득에도 효과적이지만
08:34
but what about earning a living?
143
514497
2700
생계 유지 문제는 어떨까요?
08:37
Right? What about -- how can we make
these people earn a living
144
517830
4200
현재 모두가 당연하다고 여기는
디지털 도구들을 통해
08:42
through the digital tools that all of us
just take for granted these days?
145
522030
3867
이들이 생계를 유지할 수 있도록
하는 방안엔 무엇이 있을까요?
08:45
Vivek Seshadri,
who's another researcher at MSR,
146
525930
2533
MSR에서 연구하는 비벡 세샤드리와
08:48
and his collaborator, Manu Chopra,
147
528497
2100
동료인 마누 초프라는
08:50
they've designed a platform called Karya
148
530630
2500
카리야라는 플랫폼을 설계했는데
08:53
for providing digital microtasks
to the underserved communities.
149
533163
4600
이는 지원받지 못헀던 공동체에
디지털 일거리를 제공합니다.
08:57
His aim was basically to find a way
to provide a means of dignified labor
150
537797
5433
목표는 기본적으로 지역 거주민과
도시 속 빈곤 인구에게
09:03
to the populations, the rural populations
151
543263
2034
괜찮은 수준의 노동을 제공할
방법을 찾는 것이었습니다.
09:05
and the urban poor populations
of this country.
152
545330
2300
09:08
They don't have access
to all the knowledge
153
548530
3000
그들은 우리가 아무 생각도 않고 쓰는
09:11
to use the digital platforms
154
551530
2567
디지털 플랫폼을 사용하는 데
필요한 모든 지식에
09:14
that all of us use every day
without even thinking, right?
155
554130
4200
접근조차 할 수 없습니다.
09:18
But ...
156
558930
1233
그러나…
09:20
Here is a large
157
560863
2434
여기 일하고 싶어하는
09:23
literate population
that wants to work, right,
158
563330
4133
글을 읽고 쓸 수 있는
수많은 사람들이 있는데
어떻게 이들에게 일을
제공할 수 있을까요?
09:27
and how can we make this
possible for them?
159
567497
2766
09:30
So Karya is one such way
160
570297
3500
카리야는 이들이
디지털 세계에 닿을 수 있는 방법이고
09:33
through which this population
can get on to the digital world
161
573830
4033
09:37
and, you know,
162
577863
1434
그리고, 그를 통해서
09:39
through that find work and do tasks
that can then earn them money.
163
579330
4433
직업과 생계 유지 활동을
찾을 수 있는 방법입니다.
09:43
So we saw this and we thought,
oh, this is wonderful.
164
583797
2500
저희는 이를 보고 생각했습니다.
정말 대단하네, 이 방법을
자료 수집에도 사용할 수 있겠는데.
09:46
We could probably use this
for data collection as well.
165
586330
2600
09:48
So we went to Amale,
166
588963
2000
저희는 아말리로 향헀습니다.
09:50
which is a small village of 200 people
167
590997
3266
마하라슈트라주 와다 지역에 있는
인구 200명의 작은 마을입니다.
09:54
in the Wada district of Maharashtra
168
594297
1933
09:56
and decided to use Karya
to collect Marathi data.
169
596263
2667
마라티어 자료 수집에
카리야를 쓰기로 했습니다.
09:58
Now, I know what you are thinking --
170
598963
1900
여러분의 생각을 압니다.
10:00
I'm sure a lot of Marathi speakers
also in the audience --
171
600930
2767
청중 중에서도 마라티어를
쓰는 분이 많을 텐데
10:03
that Marathi is not
a low-resource language.
172
603697
2400
마라티어는 자원이 낮은 언어가
아니라고 생각하시겠죠.
10:06
Marathi is definitely
a mainstream language of the country.
173
606130
3600
마라티어는 확실히
인도의 주요 언어입니다.
10:09
But as far as language
technology is concerned,
174
609763
2500
그러나 언어 기술면에서 보면
마라티어는 자원이 적은 언어입니다.
10:12
Marathi is a low-resource language.
175
612297
2333
10:14
So we went to this village
176
614663
1600
저희는 이 마을로 가서 아주
성공적으로 자료를 모았습니다.
10:16
and we had a very successful
data-collection trip.
177
616297
3800
10:20
And, you know,
this village is very remote.
178
620130
3567
그리고 이 마을은 정말 외진 곳에 있습니다.
10:23
They have no TV, they have no electricity,
179
623697
2700
TV도 없고, 전기도 없으며,
휴대전화 신호도 잡히지 않습니다.
10:26
they have no mobile signal.
180
626430
3833
언덕을 올라서 손을 뻗어서
전화기를 이리저리 휘저어야
10:30
You have to climb a hill
and wave your phone around
181
630297
2633
10:32
if you want to, you know,
use your mobile to call anyone.
182
632963
3200
휴대전화를 사용할 수 있습니다.
10:37
So they gave us all this data.
183
637197
1766
거기에서 모든 자료를 얻었는데
그보다도 값진 삶의 교훈을 주셨습니다.
10:38
But more than that, they gave us
very valuable lessons in life.
184
638997
3266
10:43
One is this pride in one's own language.
185
643063
3000
첫째로 자신이 사용하는
언어에 대한 자부심입니다.
10:46
The people of Amale
were thrilled to be doing this
186
646063
2667
아말리 주민들은 저희 일을
정말로 하고 싶어했는데,
10:48
because they were advancing
their own language by doing this.
187
648763
5834
이를 통해 자신들의 언어를
발전시키고 있었기 때문입니다.
10:54
The second was the value of community.
188
654630
1833
두 번째는 공동체의 가치입니다.
10:56
Very quickly, this became
a village community effort.
189
656497
3900
이 사업은 아주 빠르게
마을 전체의 일이 되었습니다.
11:00
People would gather together in tasks
and do this together as a group.
190
660430
4867
주민들은 과제를 중심으로 모이고
집단으로 과제를 수행했습니다.
11:05
And the third is
the importance of storytelling.
191
665330
3767
세 번째는 이야기하기의 중요성입니다.
11:09
People of Amale were so starved of content
that in the morning, during the daytime,
192
669130
6067
아말리 주민들은 너무나도
이야깃거리가 없었기에,
아침이나 해가 떠 있을 동안에는
카리야에 이야기를 녹음하고
11:15
they would do recordings
of stories in Karya
193
675197
4066
11:19
and then in the evening
they would gather the entire village
194
679297
2833
저녁에는 온 마을 전체가 모여서
이 이야기들을 다시 말하고
다시 이야기했습니다.
11:22
and retell and recount
these stories to the village.
195
682163
3834
11:27
So as scientists, we get so caught up
196
687563
2167
과학자로서 저희는 저희가 하는 일의
11:29
in the science and technology
part of what we are doing, you know --
197
689763
3700
과학이나 기술 면에만 사로잡힙니다.
11:33
which is the next best model to have,
198
693497
1966
다음 최고의 모형은 무엇이고
체계의 정확도를 어떻게 높일지,
11:35
how can we increase
the accuracy of my system,
199
695497
2933
11:38
how can I build
the next best system there is --
200
698463
4600
어떻게 하면 다음 세대의
최고 모형을 만들 수 있을까.
11:43
that we forget the reason
why we are doing this: the people.
201
703063
3700
그래서 왜 이 일을 하는지
잊어버릴 때가 있습니다.
바로 사람이죠.
11:46
And any successful technology is the one
that keeps the people and the users
202
706797
5466
성공적인 기술은 사람들과 사용자들을
내세우고 관심받게 하는 기술입니다.
11:52
up front and center.
203
712297
1566
11:54
And when they start doing that,
204
714830
1533
기술이 이런 역할을 하기 시작하면
11:56
we also realize that technology
is probably a very small part of this
205
716363
3667
우리는 기술이 아마도 이 과정에서
아주 작은 부분임을 깨닫고
12:00
and there are other things in the story.
206
720030
2367
이야기에 다른 것들이
있음을 알게 됩니다.
12:02
Maybe there are social, cultural
and policy interventions
207
722430
3333
사회적, 문화적, 정책적 개입이
기술만큼 필요할지도 모릅니다.
12:05
that are required, as much as technology.
208
725797
2200
12:09
So some time back,
I worked on a project called VideoKheti
209
729030
3267
예전에 저는 비디오케티라는
사업에 참여한 적이 있는데
12:12
that allowed Hindi-speaking
farmers in Central India
210
732330
3600
힌디어를 사용하는 인도 중부 농부들이
12:15
to search for agricultural videos
by speaking into a phone-based app.
211
735963
6667
농업 영상을 음성으로 찾을 수 있는
전화기용 앱이었습니다.
12:23
So we went to Madhya Pradesh
to collect data for this,
212
743363
3434
자료를 모으기 위해
마디야 프라데시로 향했습니다.
12:26
and we came back
and we were training our models
213
746830
2300
돌아와서 모형들을 학습시키다가
12:29
and we discovered
we're getting very bad results.
214
749163
2367
아주 좋지 않은 결과를
내고 있음을 알았습니다.
12:31
This is not working.
215
751530
1267
제대로 작동하질 않았고
우리는 헷갈렸습니다.
12:32
So we were very confused.
Why is this happening?
216
752830
2267
어떻게 된 일이지?
12:35
So we looked deeper
and deeper into the data
217
755130
2267
자료를 더욱 세밀히
관찰하다가 깨달았습니다.
12:37
and discovered that, yes,
we had collected data
218
757430
2233
우리는 마을이 저녁에 정말 조용하고
고요할 것으로 생각했습니다.
12:39
from what we thought was a very silent,
quiet village in the evening.
219
759697
4666
12:44
But what we hadn't heard
while we were doing this
220
764363
3400
그러나 이 일을 진행하면서
저희가 몰랐던 것은
12:47
was that there was this
constant buzz of night insects, you know?
221
767797
4100
야행성 곤충들의 지지직 소리가
끊이지 않았다는 것이죠.
12:51
So throughout the recordings,
we had this "bzz" of the insects,
222
771930
3467
그래서 녹음 곳곳에
곤충 소리가 들어 있었고,
12:55
which was actually distorting our speech.
223
775430
2533
이 소리가 음성을 왜곡하고 있었습니다.
12:58
The second thing was
that when we went there
224
778797
2233
두 번째는 저희가 마을로 가서
13:01
to kind of test our app in the village,
225
781030
3867
마을 내에서 앱을 시험하려고 했을 때,
13:04
I and my colleague Indrani Medhi,
226
784930
2533
제 동료이자 능력을 인정받는
도안 연구자인 인드라니 메디와 저는
13:07
who is a very well-regarded
design researcher,
227
787497
3600
13:11
we found that the women
couldn't pronounce the sanskritized words
228
791130
4400
여성들이 검색어 중
산스크리트어로 번역된 단어들을
읽지 못한다는 것을 발견했습니다.
13:15
that we had for some of the search terms.
229
795530
2767
13:18
So, like ...
230
798330
1500
그러니까…
13:21
(speaks Hindi)
231
801663
2800
(힌디어)
13:24
Which is like the term
for chemical pesticides, right?
232
804497
3866
이것은 힌디어로 화학 살충제입니다.
13:28
Because we got these terms
from the agricultural extension center
233
808363
5534
농업 진흥 센터에서
이 용어들을 수집했는데
13:33
and the women,
even though they are farming,
234
813930
2100
여성들은 농업에 종사하더라도
센터와의 접촉이 전혀 없습니다.
13:36
do not interact with that center at all.
235
816030
2867
13:38
The men do, the women probably
use something much simpler, like ...
236
818930
3967
남성들이 접촉합니다.
여성들은 훨씬 간단한
용어를 사용할 것입니다.
13:42
(speaks Hindi)
237
822930
1300
(힌디어)
13:44
Which basically means
killing pests with medicine.
238
824263
3534
간단히 말하면 해충을
약으로 죽인다는 뜻입니다.
13:48
So what I have learned through my journey
239
828430
3867
제가 이 여행을 통해 배웠고
13:52
and what I would like
to put across to you --
240
832330
2900
여러분께 전해드리고 싶은 것은
13:55
by now, I hope you've understood me,
241
835263
2000
지금쯤은 제 말이 이해가
되셨으면 좋겠는데,
13:57
is that there is the majority
of the world's languages
242
837297
3433
세계 언어 중 대부분은
14:00
that require intensive investment
for resource creation
243
840763
4267
언어 기술로 이익을 얻기 위해서는
자원 생성에 집중 투자가 필요합니다.
14:05
if they are to benefit
from language technology.
244
845030
2567
14:07
And this is unlikely to happen
in a very fast and efficient manner.
245
847630
5367
이는 아주 빠르고 효율적으로
이루어질 것 같지 않습니다.
14:13
So it is extremely important
for us to ensure
246
853963
2934
그러므로 언어 기술 분야에서
저희가 하는 일을 통해
14:16
that the community derives maximum benefit
247
856930
3533
사회가 최대의 이익을 얻도록 하는 일은
14:20
from whatever that we are doing
in the language tech area.
248
860497
3966
매우 중요한 일입니다.
14:24
And to do this and deliver
a positive social impact
249
864497
3466
이를 보장하고 해당 사회에
긍정적 영향을 주기 위해서
14:27
on these communities,
250
867997
1466
14:29
we follow what we call the modified
4-D design thinking methodology.
251
869497
4733
수정한 4-D 디자인 사고 방법론이라
부르는 방법을 사용합니다.
14:34
So the 4-D means:
discover, design, develop and deploy.
252
874263
5200
네가지의 D는 발견(discover),
디자인(design), 발전(develop),
그리고 적용(deploy)입니다.
14:39
So discover the problem
that language technology can solve
253
879497
3066
특정 언어 공동체에서 언어 기술이
해결 가능한 문제를 발견하는 것입니다.
14:42
for a particular language community.
254
882563
2200
14:44
This observation-led approach
can help allocate resources
255
884797
3233
관찰 중심적 접근은 제일 필요한 곳에
자원을 배분하는 걸 도울 수 있습니다.
14:48
where they are most needed,
256
888030
1700
14:49
designed for the users and their language,
257
889763
2767
언어와 언어 사용자를 위해 고안되어서
14:52
understand the diversity
in the linguistic properties
258
892530
3367
언어 요소의 다양성과 세계 언어의
다양성을 이해하는 데 도움을 줍니다.
14:55
and the languages of the world.
259
895930
2100
14:58
And don't think,
oh, this is made for English.
260
898030
2400
‘이건 영어를 위해 만들었는데
마라티어나 곤드어에 어떻게 적용하지?’
15:00
Now, how can we just adapt it
for Marathi or for Gondi, right?
261
900463
4334
라고 생각하지 말아주세요.
15:04
Develop rapidly and deploy frequently.
262
904830
2600
빠르게 개발하고 자주 적용합니다.
15:07
It's an iterative process
that will help you fail fast
263
907463
3500
반복적인 과정으로서 사용자가
빠르게 실패하도록 돕고
15:10
and early failures
will eventually lead to success.
264
910997
3366
이른 실패는 결국 성공이 될 것입니다.
15:15
The important thing is to persevere.
265
915497
1966
중요한 점은 인내하는 것입니다.
15:17
Do not give up.
266
917497
1366
포기하지 마십시오.
15:18
And I remember the story
of these two Aborigine Australian women,
267
918863
5734
오스트레일리아 원주민 여성
두 명의 이야기가 기억납니다.
15:24
Patricia O'Connor and Ysola Best.
268
924630
3800
페트리샤 오코너와
이솔라 베스트의 이야기입니다.
15:29
In the mid-90s, they went
to the University of Queensland
269
929763
3134
1990년대 중반 그들은
퀸즐랜드 대학에 갔고
15:32
and they wanted to learn
their own language, called Yugambeh,
270
932930
3333
그들의 언어인 유감베어를
배우고 싶었습니다.
15:36
and they were told very bluntly,
"Your language is dead.
271
936297
2633
아주 퉁명스럽게
이런 답이 돌아왔습니다.
15:38
It's been dead for three decades.
272
938963
1600
“여러분의 언어는 없어졌고
사어가 된 지 30년이 되었습니다.
15:40
You cannot work on this.
Find something else to work on."
273
940563
3867
이 분야를 공부할 수 없으니
다른 분야를 찾아보세요.”
15:44
They did not give up.
274
944463
1267
그들은 포기하지 않았습니다.
15:45
They went to the community,
275
945763
1600
그들은 유감베어 공동체를 방문했고
15:47
they dug up oral memories,
oral traditions, oral literature,
276
947363
4867
말로 전해지는 기억,
전통과 문학을 발굴했으며
15:52
and founded the Yugambeh Museum,
277
952263
3367
유감베 박물관을 설립했습니다.
15:55
which became the most important cultural
and linguistic center for the language
278
955663
5434
이 박물관은 유감베어와
그 공동체에게 문화적으로
그리고 언어적으로
가장 중요한 곳이 되었습니다.
16:01
and its community.
279
961130
1767
16:02
They did not have technology.
They only had their willpower.
280
962930
4033
그들은 기술이 없었습니다.
오직 의지만 있었죠.
16:06
Now, with the power of technology,
281
966997
2233
이제 기술의 힘으로
16:09
we can ensure that the next page
is written in Salmi from Finland,
282
969263
5767
우리는 이들 언어의
미래를 보장할 수 있습니다.
핀란드의 살미어,
16:15
Lillooet from Canada
or Mundari from India.
283
975030
3467
캐나다의 릴루엣어, 인도의 문다리어.
16:19
Thank you.
284
979163
1000
감사합니다.
New videos
Original video on YouTube.com
이 웹사이트 정보
이 사이트는 영어 학습에 유용한 YouTube 동영상을 소개합니다. 전 세계 최고의 선생님들이 가르치는 영어 수업을 보게 될 것입니다. 각 동영상 페이지에 표시되는 영어 자막을 더블 클릭하면 그곳에서 동영상이 재생됩니다. 비디오 재생에 맞춰 자막이 스크롤됩니다. 의견이나 요청이 있는 경우 이 문의 양식을 사용하여 문의하십시오.