How computers translate human language - Ioannis Papachimonas

423,721 views ・ 2015-10-26

TED-Ed


Vui lòng nhấp đúp vào phụ đề tiếng Anh bên dưới để phát video.

Translator: Ba Dương Reviewer: Dieu Dang NguyenTran
Làm cách nào mà sinh vật giữa các thiên hà trên phim, TV
00:06
How is it that so many intergalactic species in movies and TV
0
6677
4629
00:11
just happen to speak perfect English?
1
11306
3177
có thể nói tiếng Anh một cách trôi chảy nhỉ?
00:14
The short answer is that no one wants to watch a starship crew
2
14483
3403
Ngắn gọn đó là chả ai muốn xem một thuyền trưởng phi hành đoàn
00:17
spend years compiling an alien dictionary.
3
17886
3888
dành nhiều năm trời để tìm hiểu từ điển của người ngoài hành tinh.
00:21
But to keep things consistent,
4
21774
1618
Nhưng để cho hợp lí
00:23
the creators of Star Trek and other science-fiction worlds
5
23392
3397
các nhà sản xuất phim Chiến tranh giữa các vì sao và những phim khác
00:26
have introduced the concept of a universal translator,
6
26789
3725
đã đưa ra một khái niệm máy phiên dịch vũ trụ-
00:30
a portable device that can instantly translate between any languages.
7
30514
4498
một thiết bị cầm tay có thể dịch tức thì ngôn ngữ nào.
00:35
So is a universal translator possible in real life?
8
35012
3527
Liệu máy phiên dịch vũ trụ có tồn tại trong đời thật?
00:38
We already have many programs that claim to do just that,
9
38539
3598
Chúng ta đã có nhiều chương trình máy tính chứng minh được khả năng này
00:42
taking a word, sentence, or entire book in one language
10
42137
3817
đánh 1 từ, 1 câu hoặc cả 1 cuốn sách bằng 1 ngôn ngữ
00:45
and translating it into almost any other,
11
45954
3050
và dịch ra bất kì ngôn ngữ nào khác
00:49
whether it's modern English or Ancient Sanskrit.
12
49004
3333
cho dù đó là tiếng Anh hiện đại hay tiếng Phạn cổ.
00:52
And if translation were just a matter of looking up words in a dictionary,
13
52337
3576
Nếu như việc dịch thuật chỉ đơn thuần là tra nghĩa trong từ điển
00:55
these programs would run circles around humans.
14
55913
3912
thì những chương trình này sẽ dịch còn tốt hơn so với con người.
00:59
The reality, however, is a bit more complicated.
15
59825
3474
Thực tế là, câu chuyện phức tạp hơn như thế một chút.
01:03
A rule-based translation program uses a lexical database,
16
63299
4050
Nguyên tắc cơ bản của một chương trình dịch là sử dụng hệ thông tin từ vựng
01:07
which includes all the words you'd find in a dictionary
17
67349
2953
bao gồm tất cả những từ mà bạn sẽ tìm thấy trong từ điển
01:10
and all grammatical forms they can take,
18
70302
2981
và các dạng ngữ pháp có thể có thể có
01:13
and set of rules to recognize the basic linguistic elements in the input language.
19
73283
5642
và bộ nguyên tắc để nhận diện thành phần ngôn ngữ học thiết yếu cần dịch.
01:18
For a seemingly simple sentence like, "The children eat the muffins,"
20
78925
3471
Thử lấy một ví dụ có vẻ đơn giản: "The children eat the muffins"
01:22
the program first parses its syntax, or grammatical structure,
21
82396
4654
chương trình sẽ đầu tiên phân tích cấu trúc ngữ pháp câu
01:27
by identifying the children as the subject,
22
87050
2537
bằng cách định dạng "The children" là chủ ngữ
01:29
and the rest of the sentence as the predicate
23
89587
2730
và phần còn lại của câu là vị ngữ
01:32
consisting of a verb "eat,"
24
92317
2051
động từ là "eat",
01:34
and a direct object "the muffins."
25
94368
3054
và tân ngữ trực tiếp là "the muffins".
01:37
It then needs to recognize English morphology,
26
97422
2827
Sau đó nó cần nhận diện hình thái ngôn ngữ của tiếng Anh
01:40
or how the language can be broken down into its smallest meaningful units,
27
100249
4432
hay làm cách nào mà ngôn ngữ này có thể chia thành những đơn vị nghĩa nhỏ nhất,
01:44
such as the word muffin
28
104681
1443
ví dụ từ "muffin"
01:46
and the suffix "s," used to indicate plural.
29
106124
3631
và hậu tố "s", sử dụng để chỉ số nhiều.
01:49
Finally, it needs to understand the semantics,
30
109755
2694
Cuối cùng câu dịch cần được hiểu về ngữ nghĩa học,
01:52
what the different parts of the sentence actually mean.
31
112449
3729
mỗi phần của câu thực tế ra có nghĩa gì.
01:56
To translate this sentence properly,
32
116178
1896
Để dịch một câu chính xác,
01:58
the program would refer to a different set of vocabulary and rules
33
118074
3908
chương trình sẽ quy ra hệ từ vựng và quy tắc
02:01
for each element of the target language.
34
121982
3184
của mỗi thành phần trong ngôn ngữ đích.
02:05
But this is where it gets tricky.
35
125166
1854
Nhưng đây là lúc dễ gây ra nhầm lẫn.
02:07
The syntax of some languages allows words to be arranged in any order,
36
127020
4800
Cú pháp của một số ngôn ngữ cho phép từ được đặt không cần theo trật tự,
02:11
while in others, doing so could make the muffin eat the child.
37
131820
5134
trong khi có những ngôn ngữ có thể khiến câu trở thành "The muffin eat the child".
02:16
Morphology can also pose a problem.
38
136954
2693
Hình thái ngôn ngữ cũng có thể gây ra rắc rối khi dịch.
02:19
Slovene distinguishes between two children and three or more
39
139647
3596
Tiếng Slovene có sự phân biệt giữa 2 đứa trẻ và 3 đứa trẻ hoặc nhiều hơn
02:23
using a dual suffix absent in many other languages,
40
143243
3854
khi sử dụng cặp hậu tố mà những ngôn ngữ khác không có,
02:27
while Russian's lack of definite articles might leave you wondering
41
147097
3435
trong khi tiếng Nga lại không sử dụng mạo từ có thể khiến bạn băn khoăn
02:30
whether the children are eating some particular muffins,
42
150532
3043
liệu là bọn trẻ đang ăn những cái bánh muffin cụ thể
02:33
or just eat muffins in general.
43
153575
3144
hay chỉ là ăn theo nghĩa chung.
02:36
Finally, even when the semantics are technically correct,
44
156719
2989
Cuối cùng, cho dù ngữ nghĩa có đúng về mặt kĩ thuật,
02:39
the program might miss their finer points,
45
159708
3049
chương trình có thể dịch chưa phù hợp,
02:42
such as whether the children "mangiano" the muffins,
46
162757
3052
như bọn trẻ ăn bánh muffin một cách bình thường,
02:45
or "divorano" them.
47
165809
1985
hay ăn một cách ngấu nghiến.
02:47
Another method is statistical machine translation,
48
167794
3764
Một phương thức dịch khác là máy dịch dữ liệu,
02:51
which analyzes a database of books, articles, and documents
49
171558
4204
phân tích những dữ liệu trong sách, báo hay tài liệu
02:55
that have already been translated by humans.
50
175762
3726
mà đã được dịch sẵn.
02:59
By finding matches between source and translated text
51
179488
3471
Bằng cách tìm ra sự phù hợp giữa dữ liệu nguồn và bài đã được dịch,
03:02
that are unlikely to occur by chance,
52
182959
2434
điều mà khó xảy ra một cách ngẫu nhiên,
03:05
the program can identify corresponding phrases and patterns,
53
185393
3952
chương trình này có thể xác định những cụm và mẫu câu tương đương
03:09
and use them for future translations.
54
189345
3084
và sử dụng chúng khi cần đến trong tương lai
03:12
However, the quality of this type of translation
55
192429
2540
Tuy nhiên chất lượng dịch kiểu này
03:14
depends on the size of the initial database
56
194969
2721
phụ thuộc vào dữ liệu ban đầu
03:17
and the availability of samples for certain languages
57
197690
3667
và sự sẵn có các mẫu trong những ngôn ngữ nhất định
03:21
or styles of writing.
58
201357
2026
hay phong cách viết.
03:23
The difficulty that computers have with the exceptions, irregularities
59
203383
3757
Khó khăn mà máy tính gặp phải với những ngoại lệ và trường hợp bất quy tắc
03:27
and shades of meaning that seem to come instinctively to humans
60
207140
3854
và nghĩa có vẻ tự nhiên như con người
03:30
has led some researchers to believe that our understanding of language
61
210994
4051
đã khiến các nhà khoa học tin rằng thấu hiểu ngôn ngữ
03:35
is a unique product of our biological brain structure.
62
215045
4206
là sản phẩm đặc trưng của cấu trúc sinh học của não bộ.
03:39
In fact, one of the most famous fictional universal translators,
63
219251
3850
Thực tế, một trong những máy phiên dịch ảo vũ trụ nổi tiếng nhất,
03:43
the Babel fish from "The Hitchhiker's Guide to the Galaxy",
64
223101
3338
Babel fish, trong phim "The Hitchhiker's Guide to the Galaxy",
03:46
is not a machine at all but a small creature
65
226439
3287
không hoàn toàn là 1 cái máy, mà là 1 sinh vật bé
03:49
that translates the brain waves and nerve signals of sentient species
66
229726
4484
có thể dịch được sóng não và tín hiệu thần kinh của những sinh vật có tri giác
03:54
through a form of telepathy.
67
234210
2795
thông qua một dạng cảm nhận.
03:57
For now, learning a language the old fashioned way
68
237005
2721
Cho đến nay, học một ngôn ngữ nào theo cách truyền thống
03:59
will still give you better results than any currently available computer program.
69
239726
5380
đều đem lại kết quả tốt hơn so với các chương trình dịch có sẵn.
04:05
But this is no easy task,
70
245106
1643
Nhưng đây không là cách đơn giản
04:06
and the sheer number of languages in the world,
71
246749
2265
và số lượng lớn các ngôn ngữ trên thế giới
04:09
as well as the increasing interaction between the people who speak them,
72
249014
3975
cũng như việc ngày càng tăng số lượng người nói chúng,
04:12
will only continue to spur greater advances in automatic translation.
73
252989
5015
điều này sẽ tiếp tục khuyến khích phát triển các máy phiên dịch tự động.
04:18
Perhaps by the time we encounter intergalactic life forms,
74
258004
3405
Đến khi chúng ta tiếp xúc với dạng thể sống khác trong các dãi ngân hà
04:21
we'll be able to communicate with them through a tiny gizmo,
75
261409
3251
chúng ta có thể giao tiếp với họ bằng 1 thiết bị gọn nhẹ
04:24
or we might have to start compiling that dictionary, after all.
76
264660
4366
hoặc chúng ta tiếp tục phải tra từ điển như cũ.
Về trang web này

Trang web này sẽ giới thiệu cho bạn những video YouTube hữu ích cho việc học tiếng Anh. Bạn sẽ thấy các bài học tiếng Anh được giảng dạy bởi các giáo viên hàng đầu từ khắp nơi trên thế giới. Nhấp đúp vào phụ đề tiếng Anh hiển thị trên mỗi trang video để phát video từ đó. Phụ đề cuộn đồng bộ với phát lại video. Nếu bạn có bất kỳ nhận xét hoặc yêu cầu nào, vui lòng liên hệ với chúng tôi bằng biểu mẫu liên hệ này.

https://forms.gle/WvT1wiN1qDtmnspy7