How computers translate human language - Ioannis Papachimonas

418,908 views ・ 2015-10-26

TED-Ed


Dvaput kliknite na engleske titlove ispod za reprodukciju videozapisa.

Prevoditelj: Dunja Lilek-Toplak Recezent: Sanda L
00:06
How is it that so many intergalactic species in movies and TV
0
6677
4629
Zašto brojne intergalaktičke vrste u filmovima i na TV-u
00:11
just happen to speak perfect English?
1
11306
3177
sasvim slučajno savršeno govore engleski?
00:14
The short answer is that no one wants to watch a starship crew
2
14483
3403
Ukratko, jer nitko ne želi gledati posadu svemirske letjelice
00:17
spend years compiling an alien dictionary.
3
17886
3888
kako godinama sastavlja izvanzemaljski rječnik.
00:21
But to keep things consistent,
4
21774
1618
Zbog dosljednosti,
00:23
the creators of Star Trek and other science-fiction worlds
5
23392
3397
tvorci Zvjezdanih staza i drugih znanstveno-fantastičnih svjetova
00:26
have introduced the concept of a universal translator,
6
26789
3725
uveli su ideju univerzalnog prevoditelja,
00:30
a portable device that can instantly translate between any languages.
7
30514
4498
prijenosnog uređaja koji brzo prevodi bilo koji jezik.
00:35
So is a universal translator possible in real life?
8
35012
3527
Može li univerzalni prevoditelj postojati u stvarnom svijetu?
00:38
We already have many programs that claim to do just that,
9
38539
3598
Već postoje brojni programi koji to navodno mogu.
00:42
taking a word, sentence, or entire book in one language
10
42137
3817
Riječ, rečenicu, ili čak cijelu knjigu na nekom jeziku
00:45
and translating it into almost any other,
11
45954
3050
prevode na bilo koji drugi jezik,
bio to suvremeni engleski jezik ili drevni sanskrt.
00:49
whether it's modern English or Ancient Sanskrit.
12
49004
3333
00:52
And if translation were just a matter of looking up words in a dictionary,
13
52337
3576
Kada bi se prevođenje svodilo na traženje riječi u rječniku,
00:55
these programs would run circles around humans.
14
55913
3912
ti bi programi odmah nadmašili ljude.
00:59
The reality, however, is a bit more complicated.
15
59825
3474
Zapravo, stvar nije tako jednostavna.
01:03
A rule-based translation program uses a lexical database,
16
63299
4050
Sustav za prevođenje temeljen na pravilima prevodi pomoću leksičke baze podataka.
01:07
which includes all the words you'd find in a dictionary
17
67349
2953
U njoj se nalaze sve riječi koje se mogu naći i u rječniku
01:10
and all grammatical forms they can take,
18
70302
2981
i svi njihovi mogući gramatički oblici
01:13
and set of rules to recognize the basic linguistic elements in the input language.
19
73283
5642
te skup pravila kojima se prepoznaju jezični elementi izvornog jezika.
01:18
For a seemingly simple sentence like, "The children eat the muffins,"
20
78925
3471
Za naizgled jednostavnu rečenicu, kao "Djeca jedu kolače",
01:22
the program first parses its syntax, or grammatical structure,
21
82396
4654
program prvo raščlanjuje sintaksu, to jest gramatičke strukture,
01:27
by identifying the children as the subject,
22
87050
2537
prepoznajući djecu kao subjekt,
01:29
and the rest of the sentence as the predicate
23
89587
2730
a ostatak rečenice kao predikat
01:32
consisting of a verb "eat,"
24
92317
2051
koji se sastoji od glagola ,"jedu",
01:34
and a direct object "the muffins."
25
94368
3054
i izravnog objekta "kolače".
01:37
It then needs to recognize English morphology,
26
97422
2827
Zatim prepoznaje morfološku strukturu,
01:40
or how the language can be broken down into its smallest meaningful units,
27
100249
4432
to jest, kako se jezik razlaže na najmanje značenjske jedinice.
01:44
such as the word muffin
28
104681
1443
Tako prepoznaje riječ "kolač"
01:46
and the suffix "s," used to indicate plural.
29
106124
3631
i sufiks "e" koji označava množinu.
01:49
Finally, it needs to understand the semantics,
30
109755
2694
Na kraju, mora razumjeti semantiku,
01:52
what the different parts of the sentence actually mean.
31
112449
3729
koje je značenje rečeničnih djelova.
01:56
To translate this sentence properly,
32
116178
1896
Za pravilan prijevod ove rečenice,
01:58
the program would refer to a different set of vocabulary and rules
33
118074
3908
program u obzir uzima brojne skupove rječničkih unosa i pravila
02:01
for each element of the target language.
34
121982
3184
za svaki element u ciljnom jeziku.
Ovdje stvar postaje komplicirana.
02:05
But this is where it gets tricky.
35
125166
1854
Sintaksa nekih jezika omogućuje slobodan raspored riječi,
02:07
The syntax of some languages allows words to be arranged in any order,
36
127020
4800
02:11
while in others, doing so could make the muffin eat the child.
37
131820
5134
za druge bi primjena tog pravila uzrokovala da kolač jede dijete.
02:16
Morphology can also pose a problem.
38
136954
2693
I morfologija može biti problem.
02:19
Slovene distinguishes between two children and three or more
39
139647
3596
Slovenski razlikuje dvoje djece od troje ili više
02:23
using a dual suffix absent in many other languages,
40
143243
3854
jer ima sufiks koji označava dvojinu, za razliku od brojnih drugih jezika.
02:27
while Russian's lack of definite articles might leave you wondering
41
147097
3435
Ruski nema određene članove te više nije jasno
02:30
whether the children are eating some particular muffins,
42
150532
3043
jedu li djeca neke određene kolače
02:33
or just eat muffins in general.
43
153575
3144
ili bilo koje kolače.
02:36
Finally, even when the semantics are technically correct,
44
156719
2989
Na kraju, kada je i semantika otprilike točna,
02:39
the program might miss their finer points,
45
159708
3049
program ponekad ne uhvati finese,
02:42
such as whether the children "mangiano" the muffins,
46
162757
3052
kao "mangiano" (jedu) li djeca kolače
02:45
or "divorano" them.
47
165809
1985
ili ih pak "divorano" (proždiru).
02:47
Another method is statistical machine translation,
48
167794
3764
Postoje i sustavi za statističko strojno prevođenje
02:51
which analyzes a database of books, articles, and documents
49
171558
4204
koji analiziraju baze knjiga, članaka i dokumenata
02:55
that have already been translated by humans.
50
175762
3726
koje su ljudi već preveli.
02:59
By finding matches between source and translated text
51
179488
3471
Pronalaze podudarnosti izvornog i ciljnog teksta
03:02
that are unlikely to occur by chance,
52
182959
2434
koje najvjerojatnije nisu slučajne
03:05
the program can identify corresponding phrases and patterns,
53
185393
3952
te određuju odgovarajuće fraze i uzorke
03:09
and use them for future translations.
54
189345
3084
koje koriste za buduće prijevode.
03:12
However, the quality of this type of translation
55
192429
2540
Unatoč tome, kvaliteta te vrste prijevoda
03:14
depends on the size of the initial database
56
194969
2721
ovisi o veličini početne baze podataka
03:17
and the availability of samples for certain languages
57
197690
3667
i dostupnosti uzoraka za određene jezike
03:21
or styles of writing.
58
201357
2026
ili stilove pisanja.
03:23
The difficulty that computers have with the exceptions, irregularities
59
203383
3757
Računala imaju poteškoće s iznimkama i nepravilnostima
03:27
and shades of meaning that seem to come instinctively to humans
60
207140
3854
te nijansama značenja koje ljudi instinktivno razumiju.
03:30
has led some researchers to believe that our understanding of language
61
210994
4051
Zbog toga neki istraživači vjeruju da je naše razumijevanje jezika
03:35
is a unique product of our biological brain structure.
62
215045
4206
jedinstven proizvod biološke strukture našeg mozga.
03:39
In fact, one of the most famous fictional universal translators,
63
219251
3850
Zapravo, jedna od najpoznatijih fiktivnih univerzalnih prevoditelja,
03:43
the Babel fish from "The Hitchhiker's Guide to the Galaxy",
64
223101
3338
babilonska ribica iz "Vodiča kroz galaksiju za autostopere",
03:46
is not a machine at all but a small creature
65
226439
3287
nije stroj, već malo stvorenje
03:49
that translates the brain waves and nerve signals of sentient species
66
229726
4484
koje prevodi moždane valove i signale živaca vrsta sa sviješću
03:54
through a form of telepathy.
67
234210
2795
jednom vrstom telepatije.
03:57
For now, learning a language the old fashioned way
68
237005
2721
Za sada, učenje jezika na staromodan način
03:59
will still give you better results than any currently available computer program.
69
239726
5380
i dalje pruža bolje rezultate od trenutno dostupnih računalnih sustava.
04:05
But this is no easy task,
70
245106
1643
To nije jednostavno,
04:06
and the sheer number of languages in the world,
71
246749
2265
a i sam broj jezika na svijetu,
04:09
as well as the increasing interaction between the people who speak them,
72
249014
3975
kao i sve češća interakcija među govornicima tih jezika,
04:12
will only continue to spur greater advances in automatic translation.
73
252989
5015
samo povećava napredak automatiziranog prevođenja.
04:18
Perhaps by the time we encounter intergalactic life forms,
74
258004
3405
Možda ćemo s izvanzemaljskim vrstama koje susretnemo
04:21
we'll be able to communicate with them through a tiny gizmo,
75
261409
3251
moći komunicirati pomoću spravice,
04:24
or we might have to start compiling that dictionary, after all.
76
264660
4366
a možda ćemo ipak morati sastavljati rječnike.
O ovoj web stranici

Ova stranica će vas upoznati s YouTube videozapisima koji su korisni za učenje engleskog jezika. Vidjet ćete lekcije engleskog koje vode vrhunski profesori iz cijelog svijeta. Dvaput kliknite na engleske titlove prikazane na svakoj video stranici da biste reproducirali video s tog mjesta. Titlovi se pomiču sinkronizirano s reprodukcijom videozapisa. Ako imate bilo kakvih komentara ili zahtjeva, obratite nam se putem ovog obrasca za kontakt.

https://forms.gle/WvT1wiN1qDtmnspy7