How to get better at video games, according to babies - Brian Christian

559,494 views ・ 2021-11-02

TED-Ed

Por favor, clique duas vezes nas legendas em inglês abaixo para reproduzir o vídeo.

Tradutor: Maurício Kakuei Tanaka Revisor: Jorge Santos

00:08

In 2013, a group of researchers at DeepMind in London

8871

4292

Em 2013, um grupo de pesquisadores da DeepMind em Londres

00:13

had set their sights on a grand challenge.

13163

2666

dedicou-se a um desafio grandioso.

00:15

They wanted to create an AI system that could beat,

15996

3292

Eles queriam criar um sistema de IA que pudesse vencer

00:19

not just a single Atari game, but every Atari game.

19288

4833

não apenas um jogo de Atari, mas todos os jogos de Atari.

00:24

They developed a system they called Deep Q Networks, or DQN,

24663

5166

Eles desenvolveram um sistema que chamaram de Deep Q Networks, ou DQN,

00:29

and less than two years later, it was superhuman.

29829

3667

que, em menos de dois anos, tornou-se super-humano.

00:33

DQN was getting scores 13 times better

33954

4167

O DQN obtinha pontuações 13 vezes melhores

00:38

than professional human games testers at “Breakout,”

38121

3541

do que testadores humanos profissionais de jogos em “Breakout”,

00:41

17 times better at “Boxing,” and 25 times better at “Video Pinball.”

41662

6334

17 vezes melhores em “Boxing”

e 25 vezes melhores em “Video Pinball”.

00:48

But there was one notable, and glaring, exception.

48162

3834

Mas havia uma exceção notável e evidente.

00:52

When playing “Montezuma’s Revenge” DQN couldn’t score a single point,

52496

5791

Quando jogava “Montezuma’s Revenge”, o DQN não conseguia marcar um único ponto

00:58

even after playing for weeks.

58537

2625

mesmo depois de jogar por semanas.

01:01

What was it that made this particular game so vexingly difficult for AI?

61412

5459

O que aquele jogo tinha de especial para ser tão difícil para a IA?

01:07

And what would it take to solve it?

67204

2459

E o que seria preciso para resolvê-lo?

01:10

Spoiler alert: babies.

70538

2833

A revelação:

bebês.

01:13

We’ll come back to that in a minute.

73746

2000

Voltaremos em breve a esse assunto.

01:16

Playing Atari games with AI involves what’s called reinforcement learning,

76163

5541

Disputar jogos de Atari com IA

envolve o que chamamos de aprendizagem por reforço,

01:21

where the system is designed to maximize some kind of numerical rewards.

81871

4917

em que o sistema é projetado para maximizar recompensas numéricas.

01:26

In this case, those rewards were simply the game's points.

86788

3833

Nesse caso, essas recompensas eram simplesmente a pontuação do jogo.

01:30

This underlying goal drives the system to learn which buttons to press

90746

4333

Esse objetivo básico leva o sistema a aprender quais botões pressionar

01:35

and when to press them to get the most points.

95079

3000

e quando pressioná-los para ganhar mais pontos.

01:38

Some systems use model-based approaches, where they have a model of the environment

98079

5542

Alguns sistemas usam abordagens baseadas em modelos

em que têm um modelo do ambiente

01:43

that they can use to predict what will happen next

103621

3125

que podem usar para prever o que vai acontecer a seguir,

01:46

once they take a certain action.

106746

2000

depois de realizar uma determinada ação.

01:49

DQN, however, is model free.

109288

3041

O DQN, no entanto, não segue modelo algum.

01:52

Instead of explicitly modeling its environment,

112704

2584

Em vez de modelar o ambiente de forma explícita,

01:55

it just learns to predict, based on the images on screen,

115288

3458

ele só aprende a prever, com base nas imagens da tela,

01:58

how many future points it can expect to earn by pressing different buttons.

118746

4958

quantos pontos pode esperar ganhar pressionando botões diferentes.

02:03

For instance, “if the ball is here and I move left, more points,

123871

4792

Por exemplo, “se a bola estiver aqui, e eu mover para a esquerda, mais pontos,

02:08

but if I move right, no more points.”

128663

2833

mas, se eu mover para a direita, nenhum ponto”.

02:12

But learning these connections requires a lot of trial and error.

132038

4500

Mas aprender essas relações exige muita tentativa e erro.

02:16

The DQN system would start by mashing buttons randomly,

136704

3834

O sistema DQN começará pressionando botões ao acaso,

02:20

and then slowly piece together which buttons to mash when

140538

3541

e depois percebe lentamente quais botões pressionar e quando

02:24

in order to maximize its score.

144079

2125

a fim de maximizar a pontuação.

02:26

But in playing “Montezuma’s Revenge,”

146704

2375

Mas, ao jogar ”Montezuma’s Revenge”,

02:29

this approach of random button-mashing fell flat on its face.

149079

4334

essa abordagem de pressionar botões ao acaso não adianta.

02:34

A player would have to perform this entire sequence

154121

3000

Um jogador precisa executar toda esta sequência

02:37

just to score their first points at the very end.

157121

3375

só para marcar os primeiros pontos no fim.

02:40

A mistake? Game over.

160871

2208

Um erro? Fim de jogo.

02:43

So how could DQN even know it was on the right track?

163538

3708

Como o DQN pode saber se estava no caminho certo?

02:47

This is where babies come in.

167746

2458

É aqui que entram os bebês.

02:50

In studies, infants consistently look longer at pictures

170746

3875

Em estudos, os bebês olham durante mais tempo

02:54

they haven’t seen before than ones they have.

174621

2667

para imagens que nunca viram do que para as que já viram.

02:57

There just seems to be something intrinsically rewarding about novelty.

177579

4000

Parece haver qualquer coisa de gratificante na novidade.

03:02

This behavior has been essential in understanding the infant mind.

182121

4125

Esse comportamento tem sido fundamental para entender a mente dos bebês.

03:06

It also turned out to be the secret to beating “Montezuma’s Revenge.”

186496

4792

Também se revelou ser o segredo para vencer “Montezuma’s Revenge”.

03:12

The DeepMind researchers worked out an ingenious way

192121

3708

Os pesquisadores da DeepMind desenvolveram um modo engenhoso

03:15

to plug this preference for novelty into reinforcement learning.

195829

4500

de vincular a preferência pela novidade à aprendizagem por reforço.

03:20

They made it so that unusual or new images appearing on the screen

200704

4542

Eles fizeram com que imagens incomuns ou novas que apareciam na tela

03:25

were every bit as rewarding as real in-game points.

205246

4208

fossem tão gratificantes como pontos de jogos na realidade.

03:29

Suddenly, DQN was behaving totally differently from before.

209704

4709

De repente, o DQN estava se comportando de modo totalmente diferente.

03:34

It wanted to explore the room it was in,

214579

2334

Ele queria explorar o lugar em que estava,

03:36

to grab the key and escape through the locked door—

216913

2708

pegar a chave e fugir pela porta trancada,

03:39

not because it was worth 100 points,

219621

2708

não porque valia 100 pontos,

03:42

but for the same reason we would: to see what was on the other side.

222329

4667

mas pela mesma razão que nós:

ver o que estava do outro lado.

03:48

With this new drive, DQN not only managed to grab that first key—

228163

5250

Com essa nova motivação, o DQN não só conseguiu pegar a primeira chave,

03:53

it explored all the way through 15 of the temple’s 24 chambers.

233413

4833

como explorou 15 das 24 câmaras do templo.

03:58

But emphasizing novelty-based rewards can sometimes create more problems

238454

4209

Mas realçar recompensas com base na novidade

pode, às vezes, criar mais problemas

04:02

than it solves.

242663

1166

do que resolver.

04:03

A novelty-seeking system that’s played a game too long

243913

3208

Um sistema que procure a novidade e dispute demais um jogo

04:07

will eventually lose motivation.

247121

2500

vai acabar perdendo a motivação.

04:09

If it’s seen it all before, why go anywhere?

249996

3042

Se já viu tudo antes, por que continuar?

04:13

Alternately, if it encounters, say, a television, it will freeze.

253621

5167

Alternadamente, se encontrar, digamos, uma televisão, ele vai paralisar.

04:18

The constant novel images are essentially paralyzing.

258954

3750

As imagens novas e constantes são paralisantes.

04:23

The ideas and inspiration here go in both directions.

263204

3625

As ideias e a inspiração vão em ambas as direções.

04:27

AI researchers stuck on a practical problem,

267079

3125

Pesquisadores de IA presos em um problema prático,

04:30

like how to get DQN to beat a difficult game,

270204

3334

como o modo de levar o DQN a vencer um jogo difícil,

04:33

are turning increasingly to experts in human intelligence for ideas.

273538

5000

recorrem cada vez mais a especialistas de inteligência humana em busca de ideias.

04:38

At the same time,

278788

1125

Ao mesmo tempo,

04:39

AI is giving us new insights into the ways we get stuck and unstuck:

279913

5416

a IA nos dá novas percepções sobre a forma como ficamos presos e nos soltamos:

04:45

into boredom, depression, and addiction,

285329

2792

no tédio, na depressão e no vício,

04:48

along with curiosity, creativity, and play.

288121

3667

com curiosidade, criatividade e jogo.

New videos

$LEARN ENGLISH phrases using HEART \ English Addict with Mr Duncan -16 #englishaddictwithmrduncan$

10:15

LEARN ENGLISH phrases using HEART \ English Add...

06:45

Parkour! How the Sport Keeps Your Body and Mind...

09:49

What is the best way to learn English? - Mr Dun...

08:33

Agree to disagree - What is a squabble? Mr Dunc...

01:04:41

English Addict Ep 363 -🔴LIVE stream / Sunday 4...

07:02

How to learn English with the 'learning curve' ...

04:46

Are you 'reluctant'? - Mr Duncan Explains - Lea...

05:08

'Can you feel the anticipation?' - Mr Duncan ex...

Original video on YouTube.com

How to get better at video games, according to babies - Brian Christian - YouTube

Sobre este site

Este site apresentará a você vídeos do YouTube que são úteis para o aprendizado do inglês. Você verá aulas de inglês ministradas por professores de primeira linha de todo o mundo. Clique duas vezes nas legendas em inglês exibidas em cada página de vídeo para reproduzir o vídeo a partir daí. As legendas rolarão em sincronia com a reprodução do vídeo. Se você tiver algum comentário ou solicitação, por favor, entre em contato conosco usando este formulário de contato.

https://forms.gle/WvT1wiN1qDtmnspy7

Playback speed

Subtitle font size

How to get better at video games, according to babies - Brian Christian

New videos

How to get better at video games, according to babies - Brian Christian

New videos

Original video on YouTube.com