How to get better at video games, according to babies - Brian Christian

559,494 views ・ 2021-11-02

TED-Ed

Пожалуйста, дважды щелкните на английские субтитры ниже, чтобы воспроизвести видео.

Переводчик: Olga Lazareva Редактор: Rostislav Golod

00:08

In 2013, a group of researchers at DeepMind in London

8871

4292

В 2013 году в Лондоне группа учёных DeepMind

00:13

had set their sights on a grand challenge.

13163

2666

поставила перед собой серьёзную задачу.

00:15

They wanted to create an AI system that could beat,

15996

3292

Они хотели создать искусственный интеллект (ИИ), способный победить

00:19

not just a single Atari game, but every Atari game.

19288

4833

не просто в одной игре Atari, а во всех таких играх.

00:24

They developed a system they called Deep Q Networks, or DQN,

24663

5166

Они разработали систему под названием Deep Q Networks (DQN),

00:29

and less than two years later, it was superhuman.

29829

3667

и менее чем через 2 года этот ИИ превзошёл человека.

00:33

DQN was getting scores 13 times better

33954

4167

DQN играл в аркадную игру «Breakout» в 13 раз лучше,

00:38

than professional human games testers at “Breakout,”

38121

3541

чем профессиональные тестировщики,

00:41

17 times better at “Boxing,” and 25 times better at “Video Pinball.”

41662

6334

в 17 раз превосходил их в «Boxing» и в 25 раз — в «Video Pinball».

00:48

But there was one notable, and glaring, exception.

48162

3834

Но было одно серьёзное и явное исключение.

00:52

When playing “Montezuma’s Revenge” DQN couldn’t score a single point,

52496

5791

Играя в платформер «Montezuma’s Revenge», DQN не мог заработать ни очка,

00:58

even after playing for weeks.

58537

2625

даже в течение нескольких недель.

01:01

What was it that made this particular game so vexingly difficult for AI?

61412

5459

Но почему именно эта игра оказалась настолько сложной для ИИ?

01:07

And what would it take to solve it?

67204

2459

И как ситуацию можно было исправить?

01:10

Spoiler alert: babies.

70538

2833

Спойлер — младенцы.

01:13

We’ll come back to that in a minute.

73746

2000

О них речь ещё впереди.

01:16

Playing Atari games with AI involves what’s called reinforcement learning,

76163

5541

Для прохождения игр Atari в ИИ применяется метод обучения с подкреплением,

01:21

where the system is designed to maximize some kind of numerical rewards.

81871

4917

когда система настроена на максимальное численное вознаграждение.

01:26

In this case, those rewards were simply the game's points.

86788

3833

В данном случае это игровые очки.

01:30

This underlying goal drives the system to learn which buttons to press

90746

4333

И ради этой цели система обучается «нажимать» на правильные кнопки

01:35

and when to press them to get the most points.

95079

3000

в нужное время для получения наибольшего количества очков.

01:38

Some systems use model-based approaches, where they have a model of the environment

98079

5542

Есть системы с модельным мышлением, составляющие модель среды,

01:43

that they can use to predict what will happen next

103621

3125

в которой они прогнозируют дальнейшие события

01:46

once they take a certain action.

106746

2000

после совершения конкретного действия.

01:49

DQN, however, is model free.

109288

3041

Но DQN не использует модели.

01:52

Instead of explicitly modeling its environment,

112704

2584

Вместо детального моделирования среды

01:55

it just learns to predict, based on the images on screen,

115288

3458

он учится предсказывать по изображениям на экране

01:58

how many future points it can expect to earn by pressing different buttons.

118746

4958

количество возможных очков при нажатии разных кнопок.

02:03

For instance, “if the ball is here and I move left, more points,

123871

4792

Например, «если шарик подвинуть влево, я получу больше очков,

02:08

but if I move right, no more points.”

128663

2833

а если вправо — ни одного».

02:12

But learning these connections requires a lot of trial and error.

132038

4500

Но такое обучение предполагает множество проб и ошибок.

02:16

The DQN system would start by mashing buttons randomly,

136704

3834

DQN начинает с нажатия случайной комбинации кнопок

02:20

and then slowly piece together which buttons to mash when

140538

3541

и потом сопоставляет, какие комбинации и когда именно

02:24

in order to maximize its score.

144079

2125

дают максимальный счёт.

02:26

But in playing “Montezuma’s Revenge,”

146704

2375

А вот в игре «Montezuma’s Revenge»

02:29

this approach of random button-mashing fell flat on its face.

149079

4334

такой поход перебора случайных комбинаций не сработал.

02:34

A player would have to perform this entire sequence

154121

3000

Игроку нужно было пройти весь путь,

02:37

just to score their first points at the very end.

157121

3375

чтобы в самом конце заработать какие-то очки.

02:40

A mistake? Game over.

160871

2208

Ошибся? Игра окончена.

02:43

So how could DQN even know it was on the right track?

163538

3708

Как же DQN мог понять, что он двигается в верном направлении?

02:47

This is where babies come in.

167746

2458

Здесь-то и пригодились маленькие дети.

02:50

In studies, infants consistently look longer at pictures

170746

3875

Согласно исследованиям, младенцы всегда смотрят дольше

02:54

they haven’t seen before than ones they have.

174621

2667

на незнакомые им изображения, чем на те, что уже видели раньше.

02:57

There just seems to be something intrinsically rewarding about novelty.

177579

4000

Как будто они получают вознаграждение от всего нового.

03:02

This behavior has been essential in understanding the infant mind.

182121

4125

Такое поведение легло в основу понимания того, как мыслят младенцы.

03:06

It also turned out to be the secret to beating “Montezuma’s Revenge.”

186496

4792

Оказалось, что в этом и заключался секрет прохождения «Montezuma’s Revenge».

03:12

The DeepMind researchers worked out an ingenious way

192121

3708

Исследователи из DeepMind придумали хитрый способ

03:15

to plug this preference for novelty into reinforcement learning.

195829

4500

добавить стремление к новизне в подкреплённое обучение.

03:20

They made it so that unusual or new images appearing on the screen

200704

4542

Они сделали так, что вывод на экран необычных или новых изображений

03:25

were every bit as rewarding as real in-game points.

205246

4208

также позволял зарабатывать игровые очки.

03:29

Suddenly, DQN was behaving totally differently from before.

209704

4709

Внезапно DQN стал вести себя иначе.

03:34

It wanted to explore the room it was in,

214579

2334

Он захотел исследовать комнату,

03:36

to grab the key and escape through the locked door—

216913

2708

взять ключ и пройти через закрытую дверь,

03:39

not because it was worth 100 points,

219621

2708

но не из-за награды в 100 очков,

03:42

but for the same reason we would: to see what was on the other side.

222329

4667

а по причине, близкой всем нам: узнать, что же будет дальше.

03:48

With this new drive, DQN not only managed to grab that first key—

228163

5250

В таком режиме DQN не только нашёл первый ключ,

03:53

it explored all the way through 15 of the temple’s 24 chambers.

233413

4833

а полностью исследовал 15 из 24 комнат пирамиды.

03:58

But emphasizing novelty-based rewards can sometimes create more problems

238454

4209

Но акцент на поощрении нового опыта может иногда создавать больше проблем,

04:02

than it solves.

242663

1166

чем решений.

04:03

A novelty-seeking system that’s played a game too long

243913

3208

Стремление к новому настолько увеличивает время игры,

04:07

will eventually lose motivation.

247121

2500

что теряется мотивация.

04:09

If it’s seen it all before, why go anywhere?

249996

3042

Если уже всё видел, зачем ещё куда-то идти?

04:13

Alternately, if it encounters, say, a television, it will freeze.

253621

5167

Или если он обнаружит, скажем, телевизор, то застынет на месте.

04:18

The constant novel images are essentially paralyzing.

258954

3750

Новые изображения фактически парализуют.

04:23

The ideas and inspiration here go in both directions.

263204

3625

Так что идеи и вдохновение могут давать разные результаты.

04:27

AI researchers stuck on a practical problem,

267079

3125

Исследователи ИИ не могли решить,

04:30

like how to get DQN to beat a difficult game,

270204

3334

как заставить DQN выиграть в сложной игре,

04:33

are turning increasingly to experts in human intelligence for ideas.

273538

5000

и постоянно обращались к специалистам по человеческому мышлению за идеями.

04:38

At the same time,

278788

1125

В то же время

04:39

AI is giving us new insights into the ways we get stuck and unstuck:

279913

5416

ИИ дал новое понимание, как мы попадаем в тупик и выходим из него:

04:45

into boredom, depression, and addiction,

285329

2792

почему возникают скука, депрессия и зависимость

04:48

along with curiosity, creativity, and play.

288121

3667

наравне с любознательностью, творчеством и игрой.

New videos

06:45

Parkour! How the Sport Keeps Your Body and Mind...

09:09

The Best Way to Lower Earth's Temperature — Fas...

06:40

Why Joy and Flexibility Are Good for Business |...

04:46

Are you 'reluctant'? - Mr Duncan Explains - Lea...

07:29

'MONEY makes the WORLD go round' - Mr Duncan ex...

04:06

What is the secret of success? - Mr Duncan expl...

01:13:01

English Addict Ep 358 -?LIVE stream / Wednesday...

05:30

The golden rules for Learning English - Mr Dunc...

Original video on YouTube.com

How to get better at video games, according to babies - Brian Christian - YouTube

Об этом сайте

Этот сайт познакомит вас с видеороликами YouTube, полезными для изучения английского языка. Вы увидите уроки английского языка, преподаваемые высококлассными учителями со всего мира. Дважды щелкните по английским субтитрам, отображаемым на каждой странице видео, чтобы воспроизвести видео оттуда. Субтитры прокручиваются синхронно с воспроизведением видео. Если у вас есть какие-либо комментарии или пожелания, пожалуйста, свяжитесь с нами, используя эту контактную форму.

https://forms.gle/WvT1wiN1qDtmnspy7

Playback speed

Subtitle font size

How to get better at video games, according to babies - Brian Christian

New videos

How to get better at video games, according to babies - Brian Christian

New videos

Original video on YouTube.com