How to get better at video games, according to babies - Brian Christian

552,809 views ・ 2021-11-02

TED-Ed


Fare doppio clic sui sottotitoli in inglese per riprodurre il video.

Traduttore: Elisabetta Biolzi Revisore: Samridh Aggarwal
00:08
In 2013, a group of researchers at DeepMind in London
0
8871
4292
Nel 2013, un gruppo di ricercatori alla DeepMind di Londra
00:13
had set their sights on a grand challenge.
1
13163
2666
avevano messo gli occhi su una grande sfida.
00:15
They wanted to create an AI system that could beat,
2
15996
3292
Volevano creare un sistema di IA che potesse battere,
00:19
not just a single Atari game, but every Atari game.
3
19288
4833
non solo un singolo gioco Atari, ma ogni gioco Atari.
00:24
They developed a system they called Deep Q Networks, or DQN,
4
24663
5166
Hanno sviluppato un sistema che hanno chiamato Deep Q Networks, o DQN,
00:29
and less than two years later, it was superhuman.
5
29829
3667
e meno di due anni dopo, è diventato sovrumano.
00:33
DQN was getting scores 13 times better
6
33954
4167
Il DQN totalizzava punteggi 13 volte migliori
00:38
than professional human games testers at “Breakout,”
7
38121
3541
dei tester di giochi professionisti in “Breakout”.
00:41
17 times better at “Boxing,” and 25 times better at “Video Pinball.”
8
41662
6334
17 volte migliori a “Boxe”. e 25 volte migliori a “Video Pinball”.
00:48
But there was one notable, and glaring, exception.
9
48162
3834
Ma si è verificata una notevole, e clamorosa eccezione.
00:52
When playing “Montezuma’s Revenge” DQN couldn’t score a single point,
10
52496
5791
Durante il gioco “Montezuma’s Revenge” DQN non è riuscito a fare un solo punto,
00:58
even after playing for weeks.
11
58537
2625
anche dopo averci giocato per settimane.
01:01
What was it that made this particular game so vexingly difficult for AI?
12
61412
5459
Cos’è che ha reso questo particolare gioco così fastidiosamente difficile per l’IA?
01:07
And what would it take to solve it?
13
67204
2459
E cosa ci vorrebbe per risolverlo?
01:10
Spoiler alert: babies.
14
70538
2833
Spoiler: i neonati.
01:13
We’ll come back to that in a minute.
15
73746
2000
Ci torneremo tra un attimo.
01:16
Playing Atari games with AI involves what’s called reinforcement learning,
16
76163
5541
Giocare ai giochi Atari con l’IA comporta un apprendimento per rinforzo,
01:21
where the system is designed to maximize some kind of numerical rewards.
17
81871
4917
in cui il sistema è progettato per massimizzare certe ricompense numeriche.
01:26
In this case, those rewards were simply the game's points.
18
86788
3833
In questo caso, le ricompense erano i punteggi del gioco.
01:30
This underlying goal drives the system to learn which buttons to press
19
90746
4333
Questo obiettivo di fondo spinge il sistema a imparare quali pulsanti premere
01:35
and when to press them to get the most points.
20
95079
3000
e quando premerli per ottenere il maggior numero di punti.
01:38
Some systems use model-based approaches, where they have a model of the environment
21
98079
5542
Alcuni sistemi usano approcci basati su modelli, dove un modello dell’ambiente
01:43
that they can use to predict what will happen next
22
103621
3125
permette di prevedere cosa accadrà
01:46
once they take a certain action.
23
106746
2000
una volta intrapresa una certa azione.
01:49
DQN, however, is model free.
24
109288
3041
Il DQN, tuttavia, è privo di modelli.
01:52
Instead of explicitly modeling its environment,
25
112704
2584
Invece di modellare esplicitamente il suo ambiente,
01:55
it just learns to predict, based on the images on screen,
26
115288
3458
impara a prevedere, in base alle immagini sullo schermo,
01:58
how many future points it can expect to earn by pressing different buttons.
27
118746
4958
quanti punti futuri può sperare di accumulare premendo diversi pulsanti.
02:03
For instance, “if the ball is here and I move left, more points,
28
123871
4792
Per esempio, “se la palla è qui e mi sposto a sinistra, si fanno più punti,
02:08
but if I move right, no more points.”
29
128663
2833
ma se mi muovo a destra, niente punti”.
02:12
But learning these connections requires a lot of trial and error.
30
132038
4500
Ma imparare queste correlazioni richiede un sacco di tentativi ed errori.
02:16
The DQN system would start by mashing buttons randomly,
31
136704
3834
Il sistema DQN inizierebbe schiacciando pulsanti a caso,
02:20
and then slowly piece together which buttons to mash when
32
140538
3541
e poi lentamente mettendo insieme quali pulsanti schiacciare
02:24
in order to maximize its score.
33
144079
2125
per massimizzare il suo punteggio.
02:26
But in playing “Montezuma’s Revenge,”
34
146704
2375
Ma nel giocare a “Montezuma’s Revenge,”
02:29
this approach of random button-mashing fell flat on its face.
35
149079
4334
questo metodo di schiacciare i tasti a caso ha fallito.
02:34
A player would have to perform this entire sequence
36
154121
3000
Un giocatore dovrebbe eseguire questa intera sequenza
02:37
just to score their first points at the very end.
37
157121
3375
solo per fare i primissimi punti proprio alla fine.
02:40
A mistake? Game over.
38
160871
2208
Un errore? Game over.
02:43
So how could DQN even know it was on the right track?
39
163538
3708
Quindi come poteva sapere il DQN di essere sulla strada giusta?
02:47
This is where babies come in.
40
167746
2458
È qui che entrano in gioco i bambini.
02:50
In studies, infants consistently look longer at pictures
41
170746
3875
In alcuni studi si afferma che i bambini guardano più a lungo le immagini
02:54
they haven’t seen before than ones they have.
42
174621
2667
che non hanno mai visto prima rispetto alle già viste.
02:57
There just seems to be something intrinsically rewarding about novelty.
43
177579
4000
Sembra che ci sia qualcosa di gratificante nella novità.
03:02
This behavior has been essential in understanding the infant mind.
44
182121
4125
Questo comportamento è stato essenziale nella comprensione della mente infantile.
03:06
It also turned out to be the secret to beating “Montezuma’s Revenge.”
45
186496
4792
Ed è anche il segreto per battere “Montezuma’s Revenge”.
03:12
The DeepMind researchers worked out an ingenious way
46
192121
3708
I ricercatori di DeepMind hanno elaborato un modo ingegnoso
03:15
to plug this preference for novelty into reinforcement learning.
47
195829
4500
per inserire questa preferenza per la novità nell’apprendimento per rinforzo.
03:20
They made it so that unusual or new images appearing on the screen
48
200704
4542
Hanno fatto sì che le immagini insolite o nuove che appaiono sullo schermo
03:25
were every bit as rewarding as real in-game points.
49
205246
4208
fossero tanto gratificanti quanto i veri punti del gioco.
03:29
Suddenly, DQN was behaving totally differently from before.
50
209704
4709
Improvvisamente, il DQN si comportava in modo totalmente diverso da prima.
03:34
It wanted to explore the room it was in,
51
214579
2334
Voleva esplorare la stanza in cui si trovava,
03:36
to grab the key and escape through the locked door—
52
216913
2708
prendere la chiave e scappare dalla porta chiusa,
03:39
not because it was worth 100 points,
53
219621
2708
non perché valesse 100 punti,
03:42
but for the same reason we would: to see what was on the other side.
54
222329
4667
ma per la stessa ragione per cui noi lo faremmo: vedere cosa c’è dall’altra parte.
03:48
With this new drive, DQN not only managed to grab that first key—
55
228163
5250
Con questa nuova spinta, il DQN non solo è riuscito ad afferrare la prima chiave
03:53
it explored all the way through 15 of the temple’s 24 chambers.
56
233413
4833
ha esplorato tutto il percorso in 15 delle 24 camere del tempio.
03:58
But emphasizing novelty-based rewards can sometimes create more problems
57
238454
4209
Ma enfatizzare le ricompense basate sulla novità può a volte creare più problemi
04:02
than it solves.
58
242663
1166
di quelli che risolve.
04:03
A novelty-seeking system that’s played a game too long
59
243913
3208
Un sistema alla ricerca di novità che ha giocato troppo a lungo
04:07
will eventually lose motivation.
60
247121
2500
alla fine perderà la motivazione.
04:09
If it’s seen it all before, why go anywhere?
61
249996
3042
Se si è già visto tutto, perché andare da qualche parte?
04:13
Alternately, if it encounters, say, a television, it will freeze.
62
253621
5167
In alternativa, se incontra, per esempio, una televisione, si blocca.
04:18
The constant novel images are essentially paralyzing.
63
258954
3750
Immagini costanti e nuove sono paralizzanti.
04:23
The ideas and inspiration here go in both directions.
64
263204
3625
Le idee e l’ispirazione qui vanno in entrambe le direzioni.
04:27
AI researchers stuck on a practical problem,
65
267079
3125
I ricercatori di IA bloccati su un problema pratico,
04:30
like how to get DQN to beat a difficult game,
66
270204
3334
come far battere al DQN un gioco difficile,
04:33
are turning increasingly to experts in human intelligence for ideas.
67
273538
5000
si rivolgono sempre più agli esperti dell’intelligenza umana per trovare idee.
04:38
At the same time,
68
278788
1125
Allo stesso tempo,
04:39
AI is giving us new insights into the ways we get stuck and unstuck:
69
279913
5416
L’AI ci mostra i modi in cui ci blocchiamo e ci disincastriamo:
04:45
into boredom, depression, and addiction,
70
285329
2792
nella noia, nella depressione e nella dipendenza,
04:48
along with curiosity, creativity, and play.
71
288121
3667
insieme alla curiosità, alla creatività, e al gioco.
A proposito di questo sito web

Questo sito vi presenterà i video di YouTube utili per l'apprendimento dell'inglese. Vedrete lezioni di inglese tenute da insegnanti di alto livello provenienti da tutto il mondo. Fate doppio clic sui sottotitoli in inglese visualizzati su ogni pagina video per riprodurre il video da lì. I sottotitoli scorrono in sincronia con la riproduzione del video. Se avete commenti o richieste, contattateci tramite questo modulo di contatto.

https://forms.gle/WvT1wiN1qDtmnspy7