How to get better at video games, according to babies - Brian Christian

553,768 views ・ 2021-11-02

TED-Ed


Пожалуйста, дважды щелкните на английские субтитры ниже, чтобы воспроизвести видео.

Переводчик: Olga Lazareva Редактор: Rostislav Golod
00:08
In 2013, a group of researchers at DeepMind in London
0
8871
4292
В 2013 году в Лондоне группа учёных DeepMind
00:13
had set their sights on a grand challenge.
1
13163
2666
поставила перед собой серьёзную задачу.
00:15
They wanted to create an AI system that could beat,
2
15996
3292
Они хотели создать искусственный интеллект (ИИ), способный победить
00:19
not just a single Atari game, but every Atari game.
3
19288
4833
не просто в одной игре Atari, а во всех таких играх.
00:24
They developed a system they called Deep Q Networks, or DQN,
4
24663
5166
Они разработали систему под названием Deep Q Networks (DQN),
00:29
and less than two years later, it was superhuman.
5
29829
3667
и менее чем через 2 года этот ИИ превзошёл человека.
00:33
DQN was getting scores 13 times better
6
33954
4167
DQN играл в аркадную игру «Breakout» в 13 раз лучше,
00:38
than professional human games testers at “Breakout,”
7
38121
3541
чем профессиональные тестировщики,
00:41
17 times better at “Boxing,” and 25 times better at “Video Pinball.”
8
41662
6334
в 17 раз превосходил их в «Boxing» и в 25 раз — в «Video Pinball».
00:48
But there was one notable, and glaring, exception.
9
48162
3834
Но было одно серьёзное и явное исключение.
00:52
When playing “Montezuma’s Revenge” DQN couldn’t score a single point,
10
52496
5791
Играя в платформер «Montezuma’s Revenge», DQN не мог заработать ни очка,
00:58
even after playing for weeks.
11
58537
2625
даже в течение нескольких недель.
01:01
What was it that made this particular game so vexingly difficult for AI?
12
61412
5459
Но почему именно эта игра оказалась настолько сложной для ИИ?
01:07
And what would it take to solve it?
13
67204
2459
И как ситуацию можно было исправить?
01:10
Spoiler alert: babies.
14
70538
2833
Спойлер — младенцы.
01:13
We’ll come back to that in a minute.
15
73746
2000
О них речь ещё впереди.
01:16
Playing Atari games with AI involves what’s called reinforcement learning,
16
76163
5541
Для прохождения игр Atari в ИИ применяется метод обучения с подкреплением,
01:21
where the system is designed to maximize some kind of numerical rewards.
17
81871
4917
когда система настроена на максимальное численное вознаграждение.
01:26
In this case, those rewards were simply the game's points.
18
86788
3833
В данном случае это игровые очки.
01:30
This underlying goal drives the system to learn which buttons to press
19
90746
4333
И ради этой цели система обучается «нажимать» на правильные кнопки
01:35
and when to press them to get the most points.
20
95079
3000
в нужное время для получения наибольшего количества очков.
01:38
Some systems use model-based approaches, where they have a model of the environment
21
98079
5542
Есть системы с модельным мышлением, составляющие модель среды,
01:43
that they can use to predict what will happen next
22
103621
3125
в которой они прогнозируют дальнейшие события
01:46
once they take a certain action.
23
106746
2000
после совершения конкретного действия.
01:49
DQN, however, is model free.
24
109288
3041
Но DQN не использует модели.
01:52
Instead of explicitly modeling its environment,
25
112704
2584
Вместо детального моделирования среды
01:55
it just learns to predict, based on the images on screen,
26
115288
3458
он учится предсказывать по изображениям на экране
01:58
how many future points it can expect to earn by pressing different buttons.
27
118746
4958
количество возможных очков при нажатии разных кнопок.
02:03
For instance, “if the ball is here and I move left, more points,
28
123871
4792
Например, «если шарик подвинуть влево, я получу больше очков,
02:08
but if I move right, no more points.”
29
128663
2833
а если вправо — ни одного».
02:12
But learning these connections requires a lot of trial and error.
30
132038
4500
Но такое обучение предполагает множество проб и ошибок.
02:16
The DQN system would start by mashing buttons randomly,
31
136704
3834
DQN начинает с нажатия случайной комбинации кнопок
02:20
and then slowly piece together which buttons to mash when
32
140538
3541
и потом сопоставляет, какие комбинации и когда именно
02:24
in order to maximize its score.
33
144079
2125
дают максимальный счёт.
02:26
But in playing “Montezuma’s Revenge,”
34
146704
2375
А вот в игре «Montezuma’s Revenge»
02:29
this approach of random button-mashing fell flat on its face.
35
149079
4334
такой поход перебора случайных комбинаций не сработал.
02:34
A player would have to perform this entire sequence
36
154121
3000
Игроку нужно было пройти весь путь,
02:37
just to score their first points at the very end.
37
157121
3375
чтобы в самом конце заработать какие-то очки.
02:40
A mistake? Game over.
38
160871
2208
Ошибся? Игра окончена.
02:43
So how could DQN even know it was on the right track?
39
163538
3708
Как же DQN мог понять, что он двигается в верном направлении?
02:47
This is where babies come in.
40
167746
2458
Здесь-то и пригодились маленькие дети.
02:50
In studies, infants consistently look longer at pictures
41
170746
3875
Согласно исследованиям, младенцы всегда смотрят дольше
02:54
they haven’t seen before than ones they have.
42
174621
2667
на незнакомые им изображения, чем на те, что уже видели раньше.
02:57
There just seems to be something intrinsically rewarding about novelty.
43
177579
4000
Как будто они получают вознаграждение от всего нового.
03:02
This behavior has been essential in understanding the infant mind.
44
182121
4125
Такое поведение легло в основу понимания того, как мыслят младенцы.
03:06
It also turned out to be the secret to beating “Montezuma’s Revenge.”
45
186496
4792
Оказалось, что в этом и заключался секрет прохождения «Montezuma’s Revenge».
03:12
The DeepMind researchers worked out an ingenious way
46
192121
3708
Исследователи из DeepMind придумали хитрый способ
03:15
to plug this preference for novelty into reinforcement learning.
47
195829
4500
добавить стремление к новизне в подкреплённое обучение.
03:20
They made it so that unusual or new images appearing on the screen
48
200704
4542
Они сделали так, что вывод на экран необычных или новых изображений
03:25
were every bit as rewarding as real in-game points.
49
205246
4208
также позволял зарабатывать игровые очки.
03:29
Suddenly, DQN was behaving totally differently from before.
50
209704
4709
Внезапно DQN стал вести себя иначе.
03:34
It wanted to explore the room it was in,
51
214579
2334
Он захотел исследовать комнату,
03:36
to grab the key and escape through the locked door—
52
216913
2708
взять ключ и пройти через закрытую дверь,
03:39
not because it was worth 100 points,
53
219621
2708
но не из-за награды в 100 очков,
03:42
but for the same reason we would: to see what was on the other side.
54
222329
4667
а по причине, близкой всем нам: узнать, что же будет дальше.
03:48
With this new drive, DQN not only managed to grab that first key—
55
228163
5250
В таком режиме DQN не только нашёл первый ключ,
03:53
it explored all the way through 15 of the temple’s 24 chambers.
56
233413
4833
а полностью исследовал 15 из 24 комнат пирамиды.
03:58
But emphasizing novelty-based rewards can sometimes create more problems
57
238454
4209
Но акцент на поощрении нового опыта может иногда создавать больше проблем,
04:02
than it solves.
58
242663
1166
чем решений.
04:03
A novelty-seeking system that’s played a game too long
59
243913
3208
Стремление к новому настолько увеличивает время игры,
04:07
will eventually lose motivation.
60
247121
2500
что теряется мотивация.
04:09
If it’s seen it all before, why go anywhere?
61
249996
3042
Если уже всё видел, зачем ещё куда-то идти?
04:13
Alternately, if it encounters, say, a television, it will freeze.
62
253621
5167
Или если он обнаружит, скажем, телевизор, то застынет на месте.
04:18
The constant novel images are essentially paralyzing.
63
258954
3750
Новые изображения фактически парализуют.
04:23
The ideas and inspiration here go in both directions.
64
263204
3625
Так что идеи и вдохновение могут давать разные результаты.
04:27
AI researchers stuck on a practical problem,
65
267079
3125
Исследователи ИИ не могли решить,
04:30
like how to get DQN to beat a difficult game,
66
270204
3334
как заставить DQN выиграть в сложной игре,
04:33
are turning increasingly to experts in human intelligence for ideas.
67
273538
5000
и постоянно обращались к специалистам по человеческому мышлению за идеями.
04:38
At the same time,
68
278788
1125
В то же время
04:39
AI is giving us new insights into the ways we get stuck and unstuck:
69
279913
5416
ИИ дал новое понимание, как мы попадаем в тупик и выходим из него:
04:45
into boredom, depression, and addiction,
70
285329
2792
почему возникают скука, депрессия и зависимость
04:48
along with curiosity, creativity, and play.
71
288121
3667
наравне с любознательностью, творчеством и игрой.
Об этом сайте

Этот сайт познакомит вас с видеороликами YouTube, полезными для изучения английского языка. Вы увидите уроки английского языка, преподаваемые высококлассными учителями со всего мира. Дважды щелкните по английским субтитрам, отображаемым на каждой странице видео, чтобы воспроизвести видео оттуда. Субтитры прокручиваются синхронно с воспроизведением видео. Если у вас есть какие-либо комментарии или пожелания, пожалуйста, свяжитесь с нами, используя эту контактную форму.

https://forms.gle/WvT1wiN1qDtmnspy7