How computers translate human language - Ioannis Papachimonas

컴퓨터는 어떻게 언어를 번역할까? |이오니스 파파치모나스(Ioannis Papachimonas)

418,908 views

2015-10-26 ・ TED-Ed


New videos

How computers translate human language - Ioannis Papachimonas

컴퓨터는 어떻게 언어를 번역할까? |이오니스 파파치모나스(Ioannis Papachimonas)

418,908 views ・ 2015-10-26

TED-Ed


아래 영문자막을 더블클릭하시면 영상이 재생됩니다.

번역: Saechan Park 검토: Jihyeon J. Kim
00:06
How is it that so many intergalactic species in movies and TV
0
6677
4629
영화나 텔레비전에 등장하는 수많은 외계 종족들은
00:11
just happen to speak perfect English?
1
11306
3177
어떻게 완벽한 영어를 구사하는 걸까요?
00:14
The short answer is that no one wants to watch a starship crew
2
14483
3403
간단히 말하자면, 우주 승무원이 수년 간 외계어 사전을 번역하는 것을
00:17
spend years compiling an alien dictionary.
3
17886
3888
아무도 보고 싶어하지 않기 때문일 겁니다.
00:21
But to keep things consistent,
4
21774
1618
그러나 일관성을 유지하기 위해서
00:23
the creators of Star Trek and other science-fiction worlds
5
23392
3397
"스타 트렉"과 다른 공상과학영화 제작자들은
00:26
have introduced the concept of a universal translator,
6
26789
3725
'만능 번역기'라는 개념을 만들어냈습니다.
00:30
a portable device that can instantly translate between any languages.
7
30514
4498
어떤 언어라도 바로 번역해주는 휴대용 번역기이죠.
00:35
So is a universal translator possible in real life?
8
35012
3527
그런데 과연 이게 현실에서 가능한 걸까요?
00:38
We already have many programs that claim to do just that,
9
38539
3598
사실 그런 기능이 있다고 '주장'하는 프로그램들은 이미 많이 있습니다.
00:42
taking a word, sentence, or entire book in one language
10
42137
3817
한 언어로 된 단어나 문장, 아니면 책 전체를
00:45
and translating it into almost any other,
11
45954
3050
거의 모든 언어로 번역해주는 것이죠.
00:49
whether it's modern English or Ancient Sanskrit.
12
49004
3333
현대 영어로든, 고대 산스크리트어로든요.
00:52
And if translation were just a matter of looking up words in a dictionary,
13
52337
3576
만약 번역이 단순히 사전에서 단어를 찾는 것의 문제였다면
00:55
these programs would run circles around humans.
14
55913
3912
이런 번역 프로그램들은 인간을 훨씬 능가했을 겁니다.
00:59
The reality, however, is a bit more complicated.
15
59825
3474
하지만 현실은 좀 더 복잡합니다.
01:03
A rule-based translation program uses a lexical database,
16
63299
4050
규칙 기반 번역 프로그램의 경우에는 '어휘 데이터베이스'를 사용하는데,
01:07
which includes all the words you'd find in a dictionary
17
67349
2953
이는 사람들이 사전에서 찾는 단어와
01:10
and all grammatical forms they can take,
18
70302
2981
사용하는 문법의 구조와
01:13
and set of rules to recognize the basic linguistic elements in the input language.
19
73283
5642
입력된 언어의 기본적인 요소들을 인식하는 법칙들을 모두 포함합니다.
01:18
For a seemingly simple sentence like, "The children eat the muffins,"
20
78925
3471
'아이들이 머핀을 먹는다.'와 같이 간단해 보이는 문장의 경우에
01:22
the program first parses its syntax, or grammatical structure,
21
82396
4654
번역 프로그램은 가장 먼저 구문이나 문법구조를 분석합니다.
01:27
by identifying the children as the subject,
22
87050
2537
'아이들'을 주어로
01:29
and the rest of the sentence as the predicate
23
89587
2730
그리고 문장의 나머지 부분들은
01:32
consisting of a verb "eat,"
24
92317
2051
'먹다'라는 동사와
01:34
and a direct object "the muffins."
25
94368
3054
'머핀'이라는 직접 목적어로 구성된 술부로 인식하는 거죠.
01:37
It then needs to recognize English morphology,
26
97422
2827
다음 단계로 프로그램은 영어를 형태론적으로 인지하거나
01:40
or how the language can be broken down into its smallest meaningful units,
27
100249
4432
의미를 갖는 가장 작은 단위로 언어가 어떻게 분해되는지를 찾게 됩니다.
01:44
such as the word muffin
28
104681
1443
단어 'muffins'가 'muffin'과
01:46
and the suffix "s," used to indicate plural.
29
106124
3631
복수형을 나타내는 접미사 's'로 나뉘는 것처럼요.
01:49
Finally, it needs to understand the semantics,
30
109755
2694
마지막으로 의미론에 대한 이해가 필요합니다.
01:52
what the different parts of the sentence actually mean.
31
112449
3729
다시 말해, 문장 각 부분의 실제 의미를 파악하는 거죠.
01:56
To translate this sentence properly,
32
116178
1896
이 문장을 제대로 번역하기 위해
01:58
the program would refer to a different set of vocabulary and rules
33
118074
3908
프로그램은 각각의 단어와 법칙들을
02:01
for each element of the target language.
34
121982
3184
번역하려는 언어의 각 요소에 적용합니다.
02:05
But this is where it gets tricky.
35
125166
1854
하지만 이 과정은 정말 까다롭습니다.
02:07
The syntax of some languages allows words to be arranged in any order,
36
127020
4800
몇몇 언어의 구문론에서는 단어를 어떤 순서로 배열하든 상관 없지만
02:11
while in others, doing so could make the muffin eat the child.
37
131820
5134
어떤 언어의 경우에는 순서가 잘못되었을 때 '머핀이 아이들을 먹게' 될 수도 있습니다.
02:16
Morphology can also pose a problem.
38
136954
2693
형태론과 관련해서도 문제가 발생할 수 있습니다.
02:19
Slovene distinguishes between two children and three or more
39
139647
3596
슬로베니아어의 경우에는 두 명, 세 명, 또는 그 이상의 아이들을
02:23
using a dual suffix absent in many other languages,
40
143243
3854
다른 많은 언어에서는 볼 수 없는 '이중 접미사'를 이용해 구분합니다.
02:27
while Russian's lack of definite articles might leave you wondering
41
147097
3435
반면 러시아어에는 정관사가 부족하기 때문에
02:30
whether the children are eating some particular muffins,
42
150532
3043
아이들이 '특정한 머핀'을 먹는 건지
02:33
or just eat muffins in general.
43
153575
3144
아니면 '그냥 머핀'을 먹는 건지 의문을 남길 수 있습니다.
02:36
Finally, even when the semantics are technically correct,
44
156719
2989
마지막으로 의미적인 부분이 기술적으로는 정확하다고 해도
02:39
the program might miss their finer points,
45
159708
3049
번역 프로그램은 미세한 점을 놓칠 수 있습니다.
02:42
such as whether the children "mangiano" the muffins,
46
162757
3052
아이들이 머핀을 '그냥' 먹는지
02:45
or "divorano" them.
47
165809
1985
아니면 '게걸스럽게' 먹는지요.
02:47
Another method is statistical machine translation,
48
167794
3764
또 다른 번역 방식은 통계에 근거한 번역 시스템입니다.
02:51
which analyzes a database of books, articles, and documents
49
171558
4204
이 프로그램의 경우에는 사람들이 이미 번역해 놓은
02:55
that have already been translated by humans.
50
175762
3726
책, 기사 또는 문서들의 통계 자료를 분석해서 언어를 번역합니다.
02:59
By finding matches between source and translated text
51
179488
3471
원본과 번역본에서 어떤 부분이 우연히 일치할 가능성은 거의 없기 때문에
03:02
that are unlikely to occur by chance,
52
182959
2434
원본과 번역본 사이에 일치하는 부분을 찾음으로써
03:05
the program can identify corresponding phrases and patterns,
53
185393
3952
프로그램은 서로의 언어에 부합하는 구절과 패턴을 찾을 수 있고
03:09
and use them for future translations.
54
189345
3084
이를 앞으로의 번역 과정에 사용할 수 있습니다.
03:12
However, the quality of this type of translation
55
192429
2540
하지만 이런 방식의 번역은
03:14
depends on the size of the initial database
56
194969
2721
초기 데이터베이스의 규모와
03:17
and the availability of samples for certain languages
57
197690
3667
특정 언어나 문체의 예시가 존재하는지의 여부에 따라
03:21
or styles of writing.
58
201357
2026
번역의 질이 좌우됩니다.
03:23
The difficulty that computers have with the exceptions, irregularities
59
203383
3757
예외적 요소들이나 불규칙한 부분들, 혹은 말의 뉘앙스와 같이
03:27
and shades of meaning that seem to come instinctively to humans
60
207140
3854
인간에게 자연스러운 요소들이 컴퓨터에게는 어려운 점일 수 있으며
03:30
has led some researchers to believe that our understanding of language
61
210994
4051
때문에 어떤 연구자들은 언어의 이해가
03:35
is a unique product of our biological brain structure.
62
215045
4206
생물학적 뇌 구조의 독특한 산물이라고 봅니다.
03:39
In fact, one of the most famous fictional universal translators,
63
219251
3850
실제로, 유명한 가상 번역기 중 하나인
03:43
the Babel fish from "The Hitchhiker's Guide to the Galaxy",
64
223101
3338
'은하수를 여행하는 히치하이커를 위한 안내서'의 '바벨 피쉬'도
03:46
is not a machine at all but a small creature
65
226439
3287
기계가 아닌 하나의 작은 생명체로서
03:49
that translates the brain waves and nerve signals of sentient species
66
229726
4484
텔레파시를 통해 지각이 있는 생명체들의
03:54
through a form of telepathy.
67
234210
2795
뇌파와 신경 신호를 번역합니다.
03:57
For now, learning a language the old fashioned way
68
237005
2721
당분간은 컴퓨터 번역 프로그램을 사용하는 것보다
03:59
will still give you better results than any currently available computer program.
69
239726
5380
지금까지 그랬던 것처럼 언어를 배우는 게 더 나을 겁니다.
04:05
But this is no easy task,
70
245106
1643
물론 언어를 배우는 일이 결코 쉬운 일은 아닙니다.
04:06
and the sheer number of languages in the world,
71
246749
2265
하지만 전 세계적으로 수많은 언어가 존재하고
04:09
as well as the increasing interaction between the people who speak them,
72
249014
3975
다양한 언어를 사용하는 사람들 간의 의사소통이 증가하고 있는 만큼
04:12
will only continue to spur greater advances in automatic translation.
73
252989
5015
자동 번역기의 발전을 위한 노력도 계속될 것입니다.
04:18
Perhaps by the time we encounter intergalactic life forms,
74
258004
3405
아마도 우리가 외계인을 만나게 될 때쯤이면
04:21
we'll be able to communicate with them through a tiny gizmo,
75
261409
3251
작고 간단한 장치를 통해 그들과 의사소통을 할 수 있을 겁니다.
04:24
or we might have to start compiling that dictionary, after all.
76
264660
4366
아니면 결국 외계어 사전 편찬을 시작해야 할 지도 모르는 일이죠.
이 웹사이트 정보

이 사이트는 영어 학습에 유용한 YouTube 동영상을 소개합니다. 전 세계 최고의 선생님들이 가르치는 영어 수업을 보게 될 것입니다. 각 동영상 페이지에 표시되는 영어 자막을 더블 클릭하면 그곳에서 동영상이 재생됩니다. 비디오 재생에 맞춰 자막이 스크롤됩니다. 의견이나 요청이 있는 경우 이 문의 양식을 사용하여 문의하십시오.

https://forms.gle/WvT1wiN1qDtmnspy7