How to get better at video games, according to babies - Brian Christian

559,494 views ・ 2021-11-02

TED-Ed

Veuillez double-cliquer sur les sous-titres anglais ci-dessous pour lire la vidéo.

Traducteur: Alia Lassal Relecteur: eric vautier

00:08

In 2013, a group of researchers at DeepMind in London

8871

4292

En 2013, un groupe de chercheurs chez DeepMind,

à Londres, s’est fixé un grand défi.

00:13

had set their sights on a grand challenge.

13163

2666

00:15

They wanted to create an AI system that could beat,

15996

3292

Ils voulaient créer un système d’IA qui pourrait battre,

00:19

not just a single Atari game, but every Atari game.

19288

4833

non pas un jeu d’Atari, mais tous les jeux d’Atari.

00:24

They developed a system they called Deep Q Networks, or DQN,

24663

5166

Ils ont développé un système qu’ils ont appelé Deep Q Networks, ou DQN,

00:29

and less than two years later, it was superhuman.

29829

3667

et moins de deux ans plus tard, il était un surhumain.

00:33

DQN was getting scores 13 times better

33954

4167

DQN obtenait des scores 13 fois meilleurs

00:38

than professional human games testers at “Breakout,”

38121

3541

que ceux de testeurs de jeux humains professionnels à « Breakout »,

00:41

17 times better at “Boxing,” and 25 times better at “Video Pinball.”

41662

6334

17 fois meilleurs à « Boxing », et 25 fois meilleurs à « Video Pinball ».

00:48

But there was one notable, and glaring, exception.

48162

3834

Mais il y avait une exception notable.

00:52

When playing “Montezuma’s Revenge” DQN couldn’t score a single point,

52496

5791

Quand il jouait à « Montezuma’s Revenge », DQN n’arrivait pas à marquer un point,

00:58

even after playing for weeks.

58537

2625

même après avoir joué durant des semaines.

01:01

What was it that made this particular game so vexingly difficult for AI?

61412

5459

Qu’est-ce qui a fait que ce jeu soit si difficile pour l’IA ?

01:07

And what would it take to solve it?

67204

2459

Et que faudrait-il pour résoudre cela ?

01:10

Spoiler alert: babies.

70538

2833

Alerte spoiler : des bébés.

01:13

We’ll come back to that in a minute.

73746

2000

Nous reviendrons à cela dans une minute.

01:16

Playing Atari games with AI involves what’s called reinforcement learning,

76163

5541

Jouer à des jeux Atari avec l’IA implique l’apprentissage par renforcement,

01:21

where the system is designed to maximize some kind of numerical rewards.

81871

4917

où le système est conçu pour maximiser des récompenses numériques.

01:26

In this case, those rewards were simply the game's points.

86788

3833

Dans ce cas, ces récompenses étaient simplement les points du jeu.

01:30

This underlying goal drives the system to learn which buttons to press

90746

4333

Cet objectif sous-jacent conduit le système

à apprendre sur quels boutons appuyer et quand, pour obtenir le plus de points.

01:35

and when to press them to get the most points.

95079

3000

01:38

Some systems use model-based approaches, where they have a model of the environment

98079

5542

Certains systèmes utilisent des approches basées sur des modèles,

ils ont un modèle de l’environnement

01:43

that they can use to predict what will happen next

103621

3125

qu’ils peuvent utiliser pour prédire ce qui va se passer

01:46

once they take a certain action.

106746

2000

une fois qu’ils ont fait une action.

01:49

DQN, however, is model free.

109288

3041

Cependant, DQN n’a pas de modèle.

01:52

Instead of explicitly modeling its environment,

112704

2584

Au lieu de modéliser son environnement,

01:55

it just learns to predict, based on the images on screen,

115288

3458

il apprend juste à prédire, basé sur les images sur l’écran,

01:58

how many future points it can expect to earn by pressing different buttons.

118746

4958

combien de points il peut s’attendre à gagner

en appuyant sur différents boutons.

02:03

For instance, “if the ball is here and I move left, more points,

123871

4792

Par exemple, « si la balle est ici et que je bouge à gauche, plus de points

02:08

but if I move right, no more points.”

128663

2833

mais si je me déplace à droite, aucun point. »

02:12

But learning these connections requires a lot of trial and error.

132038

4500

Mais apprendre ces connexions requiert beaucoup d’essais et d’erreurs.

02:16

The DQN system would start by mashing buttons randomly,

136704

3834

Le système DQN commencerait par appuyer sur des boutons au hasard,

02:20

and then slowly piece together which buttons to mash when

140538

3541

puis doucement il se mettrait d’accord sur quels boutons appuyer

02:24

in order to maximize its score.

144079

2125

dans le but de maximiser son score.

02:26

But in playing “Montezuma’s Revenge,”

146704

2375

Mais en jouant à « Montezuma’s Revenge »,

02:29

this approach of random button-mashing fell flat on its face.

149079

4334

cette approche, appuyer sur des boutons au hasard, a échoué

02:34

A player would have to perform this entire sequence

154121

3000

Un joueur doit exécuter une séquence entière

02:37

just to score their first points at the very end.

157121

3375

seulement pour marquer les points à la toute fin.

02:40

A mistake? Game over.

160871

2208

Une erreur ? Fin de partie.

02:43

So how could DQN even know it was on the right track?

163538

3708

Alors comment DQN pouvait même savoir s’il était sur la bonne voie ?

02:47

This is where babies come in.

167746

2458

C’est là où les bébés entrent en jeu.

02:50

In studies, infants consistently look longer at pictures

170746

3875

Selon des études, les nourrissons regardent plus longtemps

02:54

they haven’t seen before than ones they have.

174621

2667

des images inconnues que des images qu’ils ont déjà vues.

02:57

There just seems to be something intrinsically rewarding about novelty.

177579

4000

Il semble y avoir quelque chose de gratifiant dans la nouveauté.

03:02

This behavior has been essential in understanding the infant mind.

182121

4125

Ce comportement a été essentiel pour comprendre l’esprit du nourrisson.

03:06

It also turned out to be the secret to beating “Montezuma’s Revenge.”

186496

4792

Il s’est aussi avéré que c’était le secret pour gagner à « Montezuma’s Revenge ».

03:12

The DeepMind researchers worked out an ingenious way

192121

3708

Les chercheurs de DeepMind ont trouvé un moyen ingénieux d’intégrer

03:15

to plug this preference for novelty into reinforcement learning.

195829

4500

cette préférence pour la nouveauté dans l’apprentissage par renforcement.

03:20

They made it so that unusual or new images appearing on the screen

200704

4542

Ils ont fait en sorte de faire apparaître les nouvelles images sur l’écran

03:25

were every bit as rewarding as real in-game points.

205246

4208

étaient tout aussi gratifiantes que les points réels du jeu.

03:29

Suddenly, DQN was behaving totally differently from before.

209704

4709

Soudainement, DQN s’est comporté totalement différemment.

03:34

It wanted to explore the room it was in,

214579

2334

Il voulait explorer la pièce où il était,

03:36

to grab the key and escape through the locked door—

216913

2708

pour attraper la clé et s’échapper par la porte verrouillée,

03:39

not because it was worth 100 points,

219621

2708

non pas parce que cela valait 100 points,

03:42

but for the same reason we would: to see what was on the other side.

222329

4667

mais pour la même raison que nous : pour voir ce qu’il y a de l’autre côté.

03:48

With this new drive, DQN not only managed to grab that first key—

228163

5250

Avec ce changement, DQN n’a pas seulement réussi à attraper cette première clé,

03:53

it explored all the way through 15 of the temple’s 24 chambers.

233413

4833

il a exploré tous les chemins à travers 15 des 24 chambres du temple.

03:58

But emphasizing novelty-based rewards can sometimes create more problems

238454

4209

Mais prioriser les récompenses basées sur la nouveauté

peut parfois créer plus de problèmes

04:02

than it solves.

242663

1166

que ça n’en résout.

04:03

A novelty-seeking system that’s played a game too long

243913

3208

Un système de recherche de nouveauté qui a joué à un jeu trop longtemps

04:07

will eventually lose motivation.

247121

2500

perdra éventuellement sa motivation.

04:09

If it’s seen it all before, why go anywhere?

249996

3042

S’il a vu tout ça avant, pourquoi aller partout ?

04:13

Alternately, if it encounters, say, a television, it will freeze.

253621

5167

Alternativement, s’il rencontre, disons, une télévision, il se fige.

04:18

The constant novel images are essentially paralyzing.

258954

3750

Les nouvelles images constantes sont essentiellement paralysantes.

04:23

The ideas and inspiration here go in both directions.

263204

3625

Les idées et l’inspiration ici vont dans les deux sens.

04:27

AI researchers stuck on a practical problem,

267079

3125

Les chercheurs en IA bloquent sur un problème pratique,

04:30

like how to get DQN to beat a difficult game,

270204

3334

comme comment faire pour que DQN batte un jeu difficile.

04:33

are turning increasingly to experts in human intelligence for ideas.

273538

5000

Alors ils se tournent de plus en plus vers des experts en intelligence humaine

pour trouver des idées.

04:38

At the same time,

278788

1125

Dans le même temps,

04:39

AI is giving us new insights into the ways we get stuck and unstuck:

279913

5416

l’IA nous donne de nouvelles perspectives sur la façon dont nous sommes bloqués

04:45

into boredom, depression, and addiction,

285329

2792

dans l’ennui, la dépression et l’addiction

04:48

along with curiosity, creativity, and play.

288121

3667

ainsi que dans la curiosité, la créativité et le jeu.

New videos

06:27

How do drugs make you hallucinate? - Anees Bahji

06:16

How important is politeness? ⏲️ 6 Minute English

07:44

North Korea’s secrets revealed by phone: Study:...

17:30

Advanced English Learning: Speaking Practice

03:48

What can you do? Easy English Conversations 💬 ...

12:13

Speak English Confidently: Daily Tricks & Tips 🧠

13:00

Practice English Conversation (Family life) Imp...

10:22

VOCABULARY English Speaking Practice

Original video on YouTube.com

How to get better at video games, according to babies - Brian Christian - YouTube

À propos de ce site Web

Ce site vous présentera des vidéos YouTube utiles pour apprendre l'anglais. Vous verrez des leçons d'anglais dispensées par des professeurs de premier ordre du monde entier. Double-cliquez sur les sous-titres anglais affichés sur chaque page de vidéo pour lire la vidéo à partir de là. Les sous-titres défilent en synchronisation avec la lecture de la vidéo. Si vous avez des commentaires ou des demandes, veuillez nous contacter en utilisant ce formulaire de contact.

https://forms.gle/WvT1wiN1qDtmnspy7

Playback speed

Subtitle font size

How to get better at video games, according to babies - Brian Christian

New videos

How to get better at video games, according to babies - Brian Christian

New videos

Original video on YouTube.com