How computers translate human language - Ioannis Papachimonas

423,721 views ・ 2015-10-26

TED-Ed


Пожалуйста, дважды щелкните на английские субтитры ниже, чтобы воспроизвести видео.

Переводчик: Вадим Гузик Редактор: Ростислав Голод
00:06
How is it that so many intergalactic species in movies and TV
0
6677
4629
Почему это в любом кино или по телевизору пришельцы-инопланетяне
00:11
just happen to speak perfect English?
1
11306
3177
всегда так хорошо владеют английским языком?
00:14
The short answer is that no one wants to watch a starship crew
2
14483
3403
Если коротко, то потому, что зрителям не интересно, как экипаж корабля
00:17
spend years compiling an alien dictionary.
3
17886
3888
будет годами составлять словарь пришельцев.
00:21
But to keep things consistent,
4
21774
1618
Но чтобы всё было логично,
00:23
the creators of Star Trek and other science-fiction worlds
5
23392
3397
создатели «Звёздного пути» и других фантастических миров
00:26
have introduced the concept of a universal translator,
6
26789
3725
придумали понятие «универсального переводчика»:
00:30
a portable device that can instantly translate between any languages.
7
30514
4498
переносного устройства, которое может мгновенно переводить на разные языки.
00:35
So is a universal translator possible in real life?
8
35012
3527
Возможен ли универсальный переводчик в реальности?
00:38
We already have many programs that claim to do just that,
9
38539
3598
На сегодняшний день есть много программ, чьи создатели утверждают,
00:42
taking a word, sentence, or entire book in one language
10
42137
3817
что можно взять на одном языке слово, предложение, целую книгу
00:45
and translating it into almost any other,
11
45954
3050
и перевести на почти любой язык,
00:49
whether it's modern English or Ancient Sanskrit.
12
49004
3333
будь то современный английский или древний санскрит.
00:52
And if translation were just a matter of looking up words in a dictionary,
13
52337
3576
Если бы при переводе нужно было просто отыскивать слова в словаре,
00:55
these programs would run circles around humans.
14
55913
3912
то эти программы давно бы за пояс заткнули живых переводчиков.
00:59
The reality, however, is a bit more complicated.
15
59825
3474
Однако в реальности всё намного сложнее.
01:03
A rule-based translation program uses a lexical database,
16
63299
4050
Обычная компьютерная программа-переводчик использует базу данных лексических единиц,
01:07
which includes all the words you'd find in a dictionary
17
67349
2953
которая включает все слова, содержащиеся в словаре,
01:10
and all grammatical forms they can take,
18
70302
2981
и все грамматические формы, которые они могут принимать,
01:13
and set of rules to recognize the basic linguistic elements in the input language.
19
73283
5642
а также набор правил, которые определяют базовые языковые элементы исходного языка.
01:18
For a seemingly simple sentence like, "The children eat the muffins,"
20
78925
3471
Казалось бы, в таком простом предложении, например: «Дети едят маффины»,
01:22
the program first parses its syntax, or grammatical structure,
21
82396
4654
программа вначале анализирует синтаксис или грамматическую структуру предложения,
01:27
by identifying the children as the subject,
22
87050
2537
она определяет, что «дети» — это субъект,
01:29
and the rest of the sentence as the predicate
23
89587
2730
а остаток предложения — его предикат,
01:32
consisting of a verb "eat,"
24
92317
2051
который состоит из глагола «едят»
01:34
and a direct object "the muffins."
25
94368
3054
и прямого дополнения «маффины».
01:37
It then needs to recognize English morphology,
26
97422
2827
Затем ей необходимо вникнуть в английскую морфологическую структуру,
01:40
or how the language can be broken down into its smallest meaningful units,
27
100249
4432
или как язык можно разбить на небольшие значимые единицы,
01:44
such as the word muffin
28
104681
1443
например, корень «маффин»
01:46
and the suffix "s," used to indicate plural.
29
106124
3631
и окончание «ы», указывающее на форму множественного числа.
01:49
Finally, it needs to understand the semantics,
30
109755
2694
Наконец, программа должна понять семантику,
01:52
what the different parts of the sentence actually mean.
31
112449
3729
что на самом деле означают различные части предложения.
01:56
To translate this sentence properly,
32
116178
1896
Чтобы правильно перевести это предложение,
01:58
the program would refer to a different set of vocabulary and rules
33
118074
3908
программа должна обладать определённым запасом словаря и правил
02:01
for each element of the target language.
34
121982
3184
для каждого элемента языка перевода.
02:05
But this is where it gets tricky.
35
125166
1854
А вот здесь-то и кроется подвох.
02:07
The syntax of some languages allows words to be arranged in any order,
36
127020
4800
Синтаксис некоторых языков допускает свободный порядок слов в предложении,
02:11
while in others, doing so could make the muffin eat the child.
37
131820
5134
зато в других языках подобные перестановки могут означать, что маффины едят детей.
02:16
Morphology can also pose a problem.
38
136954
2693
С морфологией всё тоже не так просто.
02:19
Slovene distinguishes between two children and three or more
39
139647
3596
В словенском языке есть различия, едят ли двое детей, трое или более,
02:23
using a dual suffix absent in many other languages,
40
143243
3854
это показывает суффикс парности, отсутствующий во многих других языках.
02:27
while Russian's lack of definite articles might leave you wondering
41
147097
3435
В русском языке не существует определённого артикля, отчего непонятно,
02:30
whether the children are eating some particular muffins,
42
150532
3043
едят ли дети какие-то конкретные маффины в данный момент
02:33
or just eat muffins in general.
43
153575
3144
или просто едят маффины вообще.
02:36
Finally, even when the semantics are technically correct,
44
156719
2989
Наконец, даже если с семантикой и всё хорошо,
02:39
the program might miss their finer points,
45
159708
3049
программа может не понять некоторых тонкостей,
02:42
such as whether the children "mangiano" the muffins,
46
162757
3052
например, едят ли дети маффины в смысле «mangiano»
02:45
or "divorano" them.
47
165809
1985
или они их «divorano».
02:47
Another method is statistical machine translation,
48
167794
3764
Вторым методом является статистический машинный перевод,
02:51
which analyzes a database of books, articles, and documents
49
171558
4204
который представляет собой анализ баз данных книг, статей, документов,
02:55
that have already been translated by humans.
50
175762
3726
которые уже переводились людьми.
Благодаря тому, что находятся соответствия между
02:59
By finding matches between source and translated text
51
179488
3471
текстами на исходном языке и языке перевода,
03:02
that are unlikely to occur by chance,
52
182959
2434
такие совпадения вряд ли бывают случайными,
03:05
the program can identify corresponding phrases and patterns,
53
185393
3952
это означает, что программа может выявлять фразы и конструкции
03:09
and use them for future translations.
54
189345
3084
и использовать их для будущих переводов.
03:12
However, the quality of this type of translation
55
192429
2540
Однако качество такого типа переводов
03:14
depends on the size of the initial database
56
194969
2721
зависит от объёма исходной базы банных
03:17
and the availability of samples for certain languages
57
197690
3667
и наличия образцов для определённых языков
03:21
or styles of writing.
58
201357
2026
или стилей письма.
03:23
The difficulty that computers have with the exceptions, irregularities
59
203383
3757
Трудности, с которыми сталкивается компьютер,
когда ему попадаются исключения, нарушения норм
03:27
and shades of meaning that seem to come instinctively to humans
60
207140
3854
или оттенки значений, которые люди интерпретируют интуитивно,
03:30
has led some researchers to believe that our understanding of language
61
210994
4051
заставило некоторых учёных предполагать, что понимание языка людьми —
03:35
is a unique product of our biological brain structure.
62
215045
4206
это уникальное явление, свойственное биологической структуре нашего мозга.
03:39
In fact, one of the most famous fictional universal translators,
63
219251
3850
Собственно, самый знаменитый фантастический универсальный переводчик
03:43
the Babel fish from "The Hitchhiker's Guide to the Galaxy",
64
223101
3338
Вавилонская рыбка из романа «Автостопом по галактике»
03:46
is not a machine at all but a small creature
65
226439
3287
и вовсе не прибор, а крошечное создание,
03:49
that translates the brain waves and nerve signals of sentient species
66
229726
4484
переводившее биотоки мозга и нервные сигналы разумных существ
03:54
through a form of telepathy.
67
234210
2795
путём телепатии.
03:57
For now, learning a language the old fashioned way
68
237005
2721
На сегодняшний день старое доброе изучение другого языка
03:59
will still give you better results than any currently available computer program.
69
239726
5380
по-прежнему результативнее любой из доступных программ-переводчиков.
04:05
But this is no easy task,
70
245106
1643
Но это не самый лёгкий путь,
04:06
and the sheer number of languages in the world,
71
246749
2265
а само число существующих в мире языков,
04:09
as well as the increasing interaction between the people who speak them,
72
249014
3975
а также всё возрастающее число контактов между говорящими на разных языках людьми
04:12
will only continue to spur greater advances in automatic translation.
73
252989
5015
будут только способствовать дальнейшему улучшению машинного перевода.
04:18
Perhaps by the time we encounter intergalactic life forms,
74
258004
3405
Возможно, что к моменту встречи
с представителями межгалактических цивилизаций
04:21
we'll be able to communicate with them through a tiny gizmo,
75
261409
3251
мы сможем общаться с ними посредством крохотных девайсов,
04:24
or we might have to start compiling that dictionary, after all.
76
264660
4366
или же нам придётся по старинке садиться за составление словаря.
Об этом сайте

Этот сайт познакомит вас с видеороликами YouTube, полезными для изучения английского языка. Вы увидите уроки английского языка, преподаваемые высококлассными учителями со всего мира. Дважды щелкните по английским субтитрам, отображаемым на каждой странице видео, чтобы воспроизвести видео оттуда. Субтитры прокручиваются синхронно с воспроизведением видео. Если у вас есть какие-либо комментарии или пожелания, пожалуйста, свяжитесь с нами, используя эту контактную форму.

https://forms.gle/WvT1wiN1qDtmnspy7