How to get better at video games, according to babies - Brian Christian

552,809 views ・ 2021-11-02

TED-Ed


Vă rugăm să faceți dublu clic pe subtitrările în limba engleză de mai jos pentru a reda videoclipul.

Traducător: Krisztina Flora Antal Corector: Cristina Nicolae
00:08
In 2013, a group of researchers at DeepMind in London
0
8871
4292
În 2013, un grup de cercetători de la DeepMind, Londra,
00:13
had set their sights on a grand challenge.
1
13163
2666
puseseră ochii pe o mare provocare.
00:15
They wanted to create an AI system that could beat,
2
15996
3292
Au vrut să creeze un sistem de IA care să poată învinge
00:19
not just a single Atari game, but every Atari game.
3
19288
4833
nu doar un singur joc Atari, ci fiecare joc Atari.
00:24
They developed a system they called Deep Q Networks, or DQN,
4
24663
5166
Au dezvoltat un sistem pe care l-au numit Deep Q Networks, sau DQN,
00:29
and less than two years later, it was superhuman.
5
29829
3667
iar în mai puțin de doi ani a devenit supraomenesc.
00:33
DQN was getting scores 13 times better
6
33954
4167
DQN a obținut scoruri de 13 ori mai bune
00:38
than professional human games testers at “Breakout,”
7
38121
3541
decât testerii profesioniști de jocuri la „Breakout”,
00:41
17 times better at “Boxing,” and 25 times better at “Video Pinball.”
8
41662
6334
de 17 ori mai bune la „Boxing”, și de 25 de ori la „Video Pinball.”
00:48
But there was one notable, and glaring, exception.
9
48162
3834
Dar a existat o excepție notabilă și flagrantă.
00:52
When playing “Montezuma’s Revenge” DQN couldn’t score a single point,
10
52496
5791
Când juca „Montezuma’s Revenge”, DQN nu a putut înscrie niciun punct,
00:58
even after playing for weeks.
11
58537
2625
chiar dacă a jucat săptămâni întregi.
01:01
What was it that made this particular game so vexingly difficult for AI?
12
61412
5459
Ce anume a făcut ca acest joc să fie atât de dificil pentru IA?
01:07
And what would it take to solve it?
13
67204
2459
Și de ce ar fi nevoie pentru a-l rezolva?
01:10
Spoiler alert: babies.
14
70538
2833
Fiți atenți: bebeluși.
01:13
We’ll come back to that in a minute.
15
73746
2000
Vom reveni la asta într-un minut.
01:16
Playing Atari games with AI involves what’s called reinforcement learning,
16
76163
5541
A juca jocuri Atari cu IA implică ceea ce numim consolidarea învățării,
01:21
where the system is designed to maximize some kind of numerical rewards.
17
81871
4917
unde sistemul este proiectat să maximizeze niște recompense numerice.
01:26
In this case, those rewards were simply the game's points.
18
86788
3833
În acest caz, acele recompense erau pur și simplu punctele din joc.
01:30
This underlying goal drives the system to learn which buttons to press
19
90746
4333
Acest obiectiv de bază determină sistemul să învețe ce butoane să apese
01:35
and when to press them to get the most points.
20
95079
3000
și când să le apese pentru a obține cele mai multe puncte.
01:38
Some systems use model-based approaches, where they have a model of the environment
21
98079
5542
Unele sisteme utilizează abordări bazate pe modele,
în care au un model al mediului
01:43
that they can use to predict what will happen next
22
103621
3125
care se poate folosi pentru a prezice ce se va întâmpla
01:46
once they take a certain action.
23
106746
2000
odată ce vor întreprinde anumite acțiuni.
01:49
DQN, however, is model free.
24
109288
3041
DQN, însă, nu are modele.
01:52
Instead of explicitly modeling its environment,
25
112704
2584
În loc să-și modeleze în mod explicit mediul,
01:55
it just learns to predict, based on the images on screen,
26
115288
3458
doar învață să prezică, pe baza imaginilor de pe ecran,
01:58
how many future points it can expect to earn by pressing different buttons.
27
118746
4958
la câte puncte să se aștepte în viitor, prin apăsarea diferitelor butoane.
02:03
For instance, “if the ball is here and I move left, more points,
28
123871
4792
De exemplu: „dacă mingea este aici și mă mișc la stânga, mai multe puncte,
02:08
but if I move right, no more points.”
29
128663
2833
dar dacă mă mișc la dreapta, fără puncte.”
02:12
But learning these connections requires a lot of trial and error.
30
132038
4500
Dar învățarea acestor conexiuni implică multe încercări și greșeli.
02:16
The DQN system would start by mashing buttons randomly,
31
136704
3834
Sistemul DQN ar începe prin a apăsa butoanele la întâmplare,
02:20
and then slowly piece together which buttons to mash when
32
140538
3541
iar apoi ar înțelege ce butoane să apese și când
02:24
in order to maximize its score.
33
144079
2125
pentru a-și maximiza scorul.
02:26
But in playing “Montezuma’s Revenge,”
34
146704
2375
Dar în jocul „Montezuma’s Revenge,”
02:29
this approach of random button-mashing fell flat on its face.
35
149079
4334
această abordare a apăsării butoanelor la întâmplare a dat greș.
02:34
A player would have to perform this entire sequence
36
154121
3000
Un jucător ar trebui să execute toată această secvență
02:37
just to score their first points at the very end.
37
157121
3375
doar pentru a înscrie primele puncte chiar la sfârșit.
02:40
A mistake? Game over.
38
160871
2208
O singură greșeală? Se termină jocul.
02:43
So how could DQN even know it was on the right track?
39
163538
3708
Deci, cum a putut DQN să știe că este pe drumul cel bun?
02:47
This is where babies come in.
40
167746
2458
Aici intervin bebelușii.
02:50
In studies, infants consistently look longer at pictures
41
170746
3875
În studii se spune că bebelușii se uită mai mult la fotografiile
02:54
they haven’t seen before than ones they have.
42
174621
2667
pe care nu le-au mai văzut înainte decât la cele văzute.
02:57
There just seems to be something intrinsically rewarding about novelty.
43
177579
4000
Pare să existe ceva intrinsec satisfăcător în ceea ce privește noutatea.
03:02
This behavior has been essential in understanding the infant mind.
44
182121
4125
Acest comportament a fost esențial în înțelegerea minții copilului.
03:06
It also turned out to be the secret to beating “Montezuma’s Revenge.”
45
186496
4792
De asemenea, s-a dovedit a fi secretul pentru a învinge „Montezuma’s Revenge.”
03:12
The DeepMind researchers worked out an ingenious way
46
192121
3708
Cercetătorii DeepMind au găsit o modalitate ingenioasă
03:15
to plug this preference for novelty into reinforcement learning.
47
195829
4500
de a lega preferința pentru noutate de învățarea prin consolidare.
03:20
They made it so that unusual or new images appearing on the screen
48
200704
4542
Au făcut ca imaginile neobișnuite sau noi care apăreau pe ecran
03:25
were every bit as rewarding as real in-game points.
49
205246
4208
să fie la fel de satisfăcătoare ca și punctele reale din joc.
03:29
Suddenly, DQN was behaving totally differently from before.
50
209704
4709
Dintr-o dată, DQN se comporta complet diferit.
03:34
It wanted to explore the room it was in,
51
214579
2334
Vroia să exploreze camera în care se afla,
03:36
to grab the key and escape through the locked door—
52
216913
2708
să apuce cheia și să scape prin ușa încuiată -
03:39
not because it was worth 100 points,
53
219621
2708
nu pentru că ar fi valorat 100 de puncte,
03:42
but for the same reason we would: to see what was on the other side.
54
222329
4667
ci din același motiv pentru care am face-o și noi: să vadă ce era de cealaltă parte.
03:48
With this new drive, DQN not only managed to grab that first key—
55
228163
5250
Cu această nouă unitate, DQN nu doar a reușit să ia prima cheie -
03:53
it explored all the way through 15 of the temple’s 24 chambers.
56
233413
4833
ci a explorat 15 dintre cele 24 de camere ale templului.
03:58
But emphasizing novelty-based rewards can sometimes create more problems
57
238454
4209
Dar accentuarea recompenselor inedite poate crea uneori mai multe probleme
04:02
than it solves.
58
242663
1166
decât ar rezolva.
04:03
A novelty-seeking system that’s played a game too long
59
243913
3208
Un sistem de căutare a noutăților care a jucat un joc prea mult timp
04:07
will eventually lose motivation.
60
247121
2500
își va pierde în cele din urmă motivația.
04:09
If it’s seen it all before, why go anywhere?
61
249996
3042
Dacă ai văzut totul înainte, de ce să mai mergi undeva?
04:13
Alternately, if it encounters, say, a television, it will freeze.
62
253621
5167
Alternativ, dacă întâlnește, să zicem, un televizor, va îngheța.
04:18
The constant novel images are essentially paralyzing.
63
258954
3750
Imaginile noi constante sunt în esență paralizante.
04:23
The ideas and inspiration here go in both directions.
64
263204
3625
Ideile și inspirația de aici merg în ambele direcții.
04:27
AI researchers stuck on a practical problem,
65
267079
3125
Cercetătorii IA blocați la o problemă practică,
04:30
like how to get DQN to beat a difficult game,
66
270204
3334
cum ar fi să faci DQN să învingă un joc dificil,
04:33
are turning increasingly to experts in human intelligence for ideas.
67
273538
5000
tot mai mult apelează pentru idei la experți în inteligența umană.
04:38
At the same time,
68
278788
1125
În același timp,
04:39
AI is giving us new insights into the ways we get stuck and unstuck:
69
279913
5416
IA ne dă noi perspective asupra modurilor în care ne blocăm și ne deblocăm:
04:45
into boredom, depression, and addiction,
70
285329
2792
în plictiseală, depresie și dependență,
04:48
along with curiosity, creativity, and play.
71
288121
3667
împreună cu curiozitate, creativitate și joc.
Despre acest site

Acest site vă va prezenta videoclipuri de pe YouTube care sunt utile pentru a învăța limba engleză. Veți vedea lecții de engleză predate de profesori de top din întreaga lume. Faceți dublu clic pe subtitrările în limba engleză afișate pe fiecare pagină video pentru a reda videoclipul de acolo. Subtitrările se derulează în sincron cu redarea videoclipului. Dacă aveți comentarii sau solicitări, vă rugăm să ne contactați folosind acest formular de contact.

https://forms.gle/WvT1wiN1qDtmnspy7