How computers translate human language - Ioannis Papachimonas

418,908 views ・ 2015-10-26

TED-Ed


אנא לחץ פעמיים על הכתוביות באנגלית למטה כדי להפעיל את הסרטון.

תרגום: Ido Dekkers עריכה: Sigal Tifferet
00:06
How is it that so many intergalactic species in movies and TV
0
6677
4629
איך זה שכל כך הרבה מינים אינטרגלקטיים בסרטים ובטלויזיה
00:11
just happen to speak perfect English?
1
11306
3177
מדברים במקרה אנגלית מושלמת?
00:14
The short answer is that no one wants to watch a starship crew
2
14483
3403
התשובה הקצרה היא שאף אחד לא רוצה לצפות בצוות ספינת חלל
00:17
spend years compiling an alien dictionary.
3
17886
3888
מבלה שנים בהרכבת מילון חייזרים.
00:21
But to keep things consistent,
4
21774
1618
אבל כדי לשמור על עקביות,
00:23
the creators of Star Trek and other science-fiction worlds
5
23392
3397
היוצרים של סטאר טרק ועולמות בדיוניים אחרים
00:26
have introduced the concept of a universal translator,
6
26789
3725
הציגו את הרעיון של מתרגם אוניברסלי,
00:30
a portable device that can instantly translate between any languages.
7
30514
4498
מכשיר נייד שיכול לתרגם מיידית כל שפה.
00:35
So is a universal translator possible in real life?
8
35012
3527
אז האם מתרגם אוניברסלי אפשרי בחיים האמיתיים?
00:38
We already have many programs that claim to do just that,
9
38539
3598
יש לנו כבר הרבה תוכנות שטוענות בדיוק לזה,
00:42
taking a word, sentence, or entire book in one language
10
42137
3817
לקחת מילה, משפט, או ספר שלם בשפה אחת
00:45
and translating it into almost any other,
11
45954
3050
ולתרגם אותו לכמעט כל אחת אחרת,
00:49
whether it's modern English or Ancient Sanskrit.
12
49004
3333
בין אם זה אנגלית מודרנית או סנסקריט עתיקה.
00:52
And if translation were just a matter of looking up words in a dictionary,
13
52337
3576
ואם תרגום היה פשוט עניין של לחפש מילים במילון,
00:55
these programs would run circles around humans.
14
55913
3912
התוכנות האלו היה יכולות בקלות לנצח אנשים.
00:59
The reality, however, is a bit more complicated.
15
59825
3474
המציאות, עם זאת, היא מעט יותר מורכבת.
01:03
A rule-based translation program uses a lexical database,
16
63299
4050
תרגום מבוסס חוקים משתמש במאגר מידע לשוני,
01:07
which includes all the words you'd find in a dictionary
17
67349
2953
שכולל את כל המילים שתמצאו במילון
01:10
and all grammatical forms they can take,
18
70302
2981
וכל המבנים הדקדוקיים שהן יכולות ללבוש,
01:13
and set of rules to recognize the basic linguistic elements in the input language.
19
73283
5642
וסט חוקים כדי להכיר את האלמנטים הלשוניים הבסיסיים בשפת הקלט.
01:18
For a seemingly simple sentence like, "The children eat the muffins,"
20
78925
3471
למשפט שנראה פשוט כמו, "הילדים אוכלים את המאפינס,"
01:22
the program first parses its syntax, or grammatical structure,
21
82396
4654
התוכנה ראשית תנסח את התחביר, או מבנה דקדוקי,
01:27
by identifying the children as the subject,
22
87050
2537
על ידי זיהוי הילדים כנושא,
01:29
and the rest of the sentence as the predicate
23
89587
2730
ושאר המשפט כנשוא
01:32
consisting of a verb "eat,"
24
92317
2051
שמכיל את הפועל "לאכול,"
01:34
and a direct object "the muffins."
25
94368
3054
ועצם ישיר "המאפינס."
01:37
It then needs to recognize English morphology,
26
97422
2827
אז היא צריכה לזהות מורפולוגיה אנגלית,
01:40
or how the language can be broken down into its smallest meaningful units,
27
100249
4432
או איך השפה יכולה להתחלק ליחידות הכי קטנות בעלות המשמעות,
01:44
such as the word muffin
28
104681
1443
כמו המילה מאפין
01:46
and the suffix "s," used to indicate plural.
29
106124
3631
והתוספת "ס" שמשמשת להראות רבים.
01:49
Finally, it needs to understand the semantics,
30
109755
2694
לבסוף, היא צריכה להבין את הסמנטיקה,
01:52
what the different parts of the sentence actually mean.
31
112449
3729
מה למעשה המשמעות של החלקים השונים של המשפט.
01:56
To translate this sentence properly,
32
116178
1896
כדי לתרגם את המשפט הזה נכון,
01:58
the program would refer to a different set of vocabulary and rules
33
118074
3908
התוכנה צריכה להתייחס לסטים שונים של אוצר מילים וחוקים
02:01
for each element of the target language.
34
121982
3184
לכל אלמנט של שפת המטרה.
02:05
But this is where it gets tricky.
35
125166
1854
אבל שם זה נעשה מסובך.
02:07
The syntax of some languages allows words to be arranged in any order,
36
127020
4800
התחביר של כמה שפות מאפשר למילים להיות מאורגנות בכל סדר,
02:11
while in others, doing so could make the muffin eat the child.
37
131820
5134
בעוד באחרות, זה יכול לגרום למאפין לאכול את הילד.
02:16
Morphology can also pose a problem.
38
136954
2693
מורפולוגיה יכולה גם להוות בעיה.
02:19
Slovene distinguishes between two children and three or more
39
139647
3596
סלובנית מבדילה בין שני ילדים ושלושה ילדים או יותר
02:23
using a dual suffix absent in many other languages,
40
143243
3854
בשימוש בתוספת כפולה שלא קיימת בהרבה שפות אחרות,
02:27
while Russian's lack of definite articles might leave you wondering
41
147097
3435
בעוד היעדר תוויות יידוע ברוסית ישאיר אתכם תוהים
02:30
whether the children are eating some particular muffins,
42
150532
3043
אם הילדים אוכלים מאפין מסויים,
02:33
or just eat muffins in general.
43
153575
3144
או פשוט אוכלים מאפינס באופן כללי.
02:36
Finally, even when the semantics are technically correct,
44
156719
2989
לבסוף, אפילו כשהסמנטיקה נכונה טכנית,
02:39
the program might miss their finer points,
45
159708
3049
התוכנית יכולה לפספס נקודות עדינות יותר,
02:42
such as whether the children "mangiano" the muffins,
46
162757
3052
כמו אם הילדים "מנג'יאנו" את המאפינס,
02:45
or "divorano" them.
47
165809
1985
או "דיבורני" אותם.
02:47
Another method is statistical machine translation,
48
167794
3764
שיטה נוספת היא תרגום מכונה סטטיסטי,
02:51
which analyzes a database of books, articles, and documents
49
171558
4204
שמנתח מאגר מידע של ספרים, מאמרים, ומסמכים
02:55
that have already been translated by humans.
50
175762
3726
שכבר תורגמו על ידי אנשים.
02:59
By finding matches between source and translated text
51
179488
3471
על ידי מציאת התאמות בין מקורות וטקסט מתורגם
03:02
that are unlikely to occur by chance,
52
182959
2434
שלא הגיוני שיתרחשו במקרה,
03:05
the program can identify corresponding phrases and patterns,
53
185393
3952
התוכנית יכולה לזהות מושגים ותבניות מותאמים,
03:09
and use them for future translations.
54
189345
3084
ולהשתמש בהם לתרגומים עתידיים.
03:12
However, the quality of this type of translation
55
192429
2540
עם זאת, האיכות של סוג זה של תרגום
03:14
depends on the size of the initial database
56
194969
2721
תלוי בגודל מאגר המידע הראשוני
03:17
and the availability of samples for certain languages
57
197690
3667
והזמינות של דוגמאות לשפות מסויימות
03:21
or styles of writing.
58
201357
2026
או סגנונות שונים של כתיבה.
03:23
The difficulty that computers have with the exceptions, irregularities
59
203383
3757
הקושי שיש למחשבים עם יוצאי הדופן, חוסר הסדר
03:27
and shades of meaning that seem to come instinctively to humans
60
207140
3854
והגוונים של משמעויות שנתפסים אינסטינקטיבית עבור אנשים
03:30
has led some researchers to believe that our understanding of language
61
210994
4051
הובילו כמה חוקרים להאמין שההבנה שלנו של שפה
03:35
is a unique product of our biological brain structure.
62
215045
4206
היא תוצא יחודי של מבנה המוח הביולוגי.
03:39
In fact, one of the most famous fictional universal translators,
63
219251
3850
למעשה, אחד המתרגמים האוניברסליים המומצאים הכי מפורסמים,
03:43
the Babel fish from "The Hitchhiker's Guide to the Galaxy",
64
223101
3338
דג בבל מ"מדריך הטרמפיסט לגלקסיה",
03:46
is not a machine at all but a small creature
65
226439
3287
הוא לא מכונה בכלל אלא יצור קטן
03:49
that translates the brain waves and nerve signals of sentient species
66
229726
4484
שמתרגם את גלי המוח וסימנים עצביים של יצורים תבוניים
03:54
through a form of telepathy.
67
234210
2795
דרך צורה של טלפטיה.
03:57
For now, learning a language the old fashioned way
68
237005
2721
בינתיים, למידת שפה בדרך המסורתית
03:59
will still give you better results than any currently available computer program.
69
239726
5380
עדיין תיתן לנו תוצאה טובה יותר מכל תוכנת תרגום שזמינה כעת.
04:05
But this is no easy task,
70
245106
1643
אבל זו לא מטלה פשוטה,
04:06
and the sheer number of languages in the world,
71
246749
2265
והמספר העצום של שפות בעולם,
04:09
as well as the increasing interaction between the people who speak them,
72
249014
3975
כמו גם האינטראקציה הגדלה בין האנשים שמדברים אותן,
04:12
will only continue to spur greater advances in automatic translation.
73
252989
5015
רק תמשיך לעורר התקדמות גדולה יותר בתרגום אוטומטי.
04:18
Perhaps by the time we encounter intergalactic life forms,
74
258004
3405
אולי בזמן שניתקל בצורות חיים אינטרגלקטיות,
04:21
we'll be able to communicate with them through a tiny gizmo,
75
261409
3251
נהיה מסוגלים לתקשר איתם דרך מכשיר זעיר,
04:24
or we might have to start compiling that dictionary, after all.
76
264660
4366
או שאולי נצטרך להתחיל להרכיב את המילון ההוא אחרי הכל.
על אתר זה

אתר זה יציג בפניכם סרטוני YouTube המועילים ללימוד אנגלית. תוכלו לראות שיעורי אנגלית המועברים על ידי מורים מהשורה הראשונה מרחבי העולם. לחץ פעמיים על הכתוביות באנגלית המוצגות בכל דף וידאו כדי להפעיל את הסרטון משם. הכתוביות גוללות בסנכרון עם הפעלת הווידאו. אם יש לך הערות או בקשות, אנא צור איתנו קשר באמצעות טופס יצירת קשר זה.

https://forms.gle/WvT1wiN1qDtmnspy7