How to get better at video games, according to babies - Brian Christian

551,493 views ・ 2021-11-02

TED-Ed


Vui lòng nhấp đúp vào phụ đề tiếng Anh bên dưới để phát video.

Translator: Diem Dinh Reviewer: Ly Nguyễn
00:08
In 2013, a group of researchers at DeepMind in London
0
8871
4292
Năm 2013, một nhóm nghiên cứu của DeepMind tại Luân Đôn
00:13
had set their sights on a grand challenge.
1
13163
2666
quyết định đối diện một thử thách lớn.
00:15
They wanted to create an AI system that could beat,
2
15996
3292
Họ muốn tạo ra một hệ thống trí tuệ nhân tạo (AI)
có thể thắng không chỉ một mà mọi tựa game của Atari.
00:19
not just a single Atari game, but every Atari game.
3
19288
4833
00:24
They developed a system they called Deep Q Networks, or DQN,
4
24663
5166
Họ phát triển một hệ thống tên Deep Q Networks, hay DQN,
00:29
and less than two years later, it was superhuman.
5
29829
3667
và chưa đầy hai năm sau, nó đã vượt qua con người.
00:33
DQN was getting scores 13 times better
6
33954
4167
DQN đạt số điểm cao gấp 13 lần
00:38
than professional human games testers at “Breakout,”
7
38121
3541
người thử nghiệm game chuyên nghiệp ở trò Breakout,
00:41
17 times better at “Boxing,” and 25 times better at “Video Pinball.”
8
41662
6334
gấp 17 lần ở trò Boxing và gấp 25 lần ở trò Video Pinball.
00:48
But there was one notable, and glaring, exception.
9
48162
3834
Nhưng có một ngoại lệ nổi bật rõ ràng.
00:52
When playing “Montezuma’s Revenge” DQN couldn’t score a single point,
10
52496
5791
Khi chơi trò Montezuma’s Revenge, DQN không thắng được điểm nào
00:58
even after playing for weeks.
11
58537
2625
dù đã chơi nhiều tuần.
01:01
What was it that made this particular game so vexingly difficult for AI?
12
61412
5459
Tại sao trò chơi này lại gây khó khăn cho AI như vậy?
01:07
And what would it take to solve it?
13
67204
2459
Và ta khắc phục nó bằng cách nào?
01:10
Spoiler alert: babies.
14
70538
2833
Tiết lộ trước nhé: em bé.
01:13
We’ll come back to that in a minute.
15
73746
2000
Chúng ta sẽ quay lại phần này sau.
01:16
Playing Atari games with AI involves what’s called reinforcement learning,
16
76163
5541
Chơi game của Atari bằng AI đòi hỏi sử dụng học tăng cường,
01:21
where the system is designed to maximize some kind of numerical rewards.
17
81871
4917
trong đó hệ thống được thiết kế để tối đa hóa một loại phần thưởng bằng số.
01:26
In this case, those rewards were simply the game's points.
18
86788
3833
Trong trường hợp này, phần thưởng chính là số điểm của trò chơi.
01:30
This underlying goal drives the system to learn which buttons to press
19
90746
4333
Mục tiêu cơ bản này thôi thúc hệ thống học phải nhấn nút nào
01:35
and when to press them to get the most points.
20
95079
3000
và nhấn khi nào để đạt số điểm cao nhất.
01:38
Some systems use model-based approaches, where they have a model of the environment
21
98079
5542
Một số hệ thống dùng phương pháp dựa trên mô hình, trong đó mô hình của môi trường
01:43
that they can use to predict what will happen next
22
103621
3125
được sử dụng để dự đoán điều gì sẽ xảy ra
01:46
once they take a certain action.
23
106746
2000
khi hệ thống thử một hành động nhất định.
01:49
DQN, however, is model free.
24
109288
3041
Tuy nhiên, DQN không sử dụng mô hình.
01:52
Instead of explicitly modeling its environment,
25
112704
2584
Thay vì mô hình hóa rõ ràng môi trường,
01:55
it just learns to predict, based on the images on screen,
26
115288
3458
nó chỉ học cách dự đoán – dựa trên ảnh trên màn hình –
01:58
how many future points it can expect to earn by pressing different buttons.
27
118746
4958
mình sẽ đạt được bao nhiêu điểm trong tương lai khi nhấn các nút khác nhau.
02:03
For instance, “if the ball is here and I move left, more points,
28
123871
4792
Ví dụ, “nếu quả bóng ở đây mà ta chạy sang trái thì điểm tăng,
02:08
but if I move right, no more points.”
29
128663
2833
nhưng sang phải thì điểm không tăng.”
02:12
But learning these connections requires a lot of trial and error.
30
132038
4500
Nhưng để biết mối liên hệ này, nó phải thử và rút kinh nghiệm nhiều lần.
02:16
The DQN system would start by mashing buttons randomly,
31
136704
3834
Hệ thống DQN bắt đầu bằng cách nhấn nút ngẫu nhiên,
02:20
and then slowly piece together which buttons to mash when
32
140538
3541
sau đó dần dần tìm hiểu khi nào phải nhấn nút nào
02:24
in order to maximize its score.
33
144079
2125
để đạt điểm tối đa.
02:26
But in playing “Montezuma’s Revenge,”
34
146704
2375
Nhưng khi chơi Montezuma’s Revenge,
02:29
this approach of random button-mashing fell flat on its face.
35
149079
4334
phương pháp nhấn bừa nút này thất bại hoàn toàn.
02:34
A player would have to perform this entire sequence
36
154121
3000
Người chơi phải thực hiện toàn bộ chuỗi hành động này
02:37
just to score their first points at the very end.
37
157121
3375
rồi mới nhận được số điểm đầu tiên.
02:40
A mistake? Game over.
38
160871
2208
Làm sai? Trò chơi kết thúc.
02:43
So how could DQN even know it was on the right track?
39
163538
3708
Vậy làm sao DQN biết được mình có đi đúng hướng không?
02:47
This is where babies come in.
40
167746
2458
Đây là lúc ta cần đến em bé.
02:50
In studies, infants consistently look longer at pictures
41
170746
3875
Theo nghiên cứu, trẻ sơ sinh luôn nhìn những bức ảnh
02:54
they haven’t seen before than ones they have.
42
174621
2667
mà mình chưa từng thấy trước đây lâu hơn.
02:57
There just seems to be something intrinsically rewarding about novelty.
43
177579
4000
Những điều mới lạ dường như đem lại sự thỏa mãn cố hữu.
03:02
This behavior has been essential in understanding the infant mind.
44
182121
4125
Hành vi này là yếu tố cần thiết để hiểu trí óc trẻ sơ sinh.
03:06
It also turned out to be the secret to beating “Montezuma’s Revenge.”
45
186496
4792
Thật tình cờ, nó cũng chính là bí quyết để thắng trò Montezuma’s Revenge.
03:12
The DeepMind researchers worked out an ingenious way
46
192121
3708
Nhóm nghiên cứu tại DeepMind đã khéo léo tìm ra cách
03:15
to plug this preference for novelty into reinforcement learning.
47
195829
4500
áp dụng cảm giác thích tính mới này vào học tăng cường.
03:20
They made it so that unusual or new images appearing on the screen
48
200704
4542
Họ khiến những hình ảnh bất thường hoặc mới xuất hiện trên màn hình
03:25
were every bit as rewarding as real in-game points.
49
205246
4208
cũng có giá trị ngang với số điểm thực trong trò chơi.
03:29
Suddenly, DQN was behaving totally differently from before.
50
209704
4709
DQN lập tức hành động hoàn toàn khác trước.
03:34
It wanted to explore the room it was in,
51
214579
2334
Nó muốn khám phá căn phòng,
03:36
to grab the key and escape through the locked door—
52
216913
2708
muốn lấy chìa khóa và thoát khỏi cánh cửa khóa kín –
03:39
not because it was worth 100 points,
53
219621
2708
không phải vì nó có thể nhận được 100 điểm,
03:42
but for the same reason we would: to see what was on the other side.
54
222329
4667
nhưng vì cùng lý do như chúng ta: để xem phía bên kia có gì.
03:48
With this new drive, DQN not only managed to grab that first key—
55
228163
5250
Với động lực mới này, DQN chẳng những lấy được chìa khóa đầu tiên
03:53
it explored all the way through 15 of the temple’s 24 chambers.
56
233413
4833
mà còn khám phá hết 15 trong số 24 phòng của ngôi đền.
03:58
But emphasizing novelty-based rewards can sometimes create more problems
57
238454
4209
Song, phần thưởng dựa trên tính mới đôi khi tạo ra nhiều vấn đề
04:02
than it solves.
58
242663
1166
hơn là giải quyết.
04:03
A novelty-seeking system that’s played a game too long
59
243913
3208
Nếu chơi một trò chơi quá lâu, một hệ thống tìm kiếm tính mới
04:07
will eventually lose motivation.
60
247121
2500
sẽ dần mất động lực.
04:09
If it’s seen it all before, why go anywhere?
61
249996
3042
Nếu đã thấy mọi thứ rồi thì cần gì đi tiếp nữa?
04:13
Alternately, if it encounters, say, a television, it will freeze.
62
253621
5167
Mặt khác, nếu nó gặp một cái ti vi chẳng hạn, nó sẽ đứng yên.
04:18
The constant novel images are essentially paralyzing.
63
258954
3750
Những hình ảnh mới liên tục xuất hiện sẽ làm tê liệt nó.
04:23
The ideas and inspiration here go in both directions.
64
263204
3625
Ý tưởng và cảm hứng ở đây là hai chiều.
04:27
AI researchers stuck on a practical problem,
65
267079
3125
Khi các nhà nghiên cứu AI gặp một vấn đề thực tế –
04:30
like how to get DQN to beat a difficult game,
66
270204
3334
như phải làm sao để giúp DQN thắng một trò chơi khó –
04:33
are turning increasingly to experts in human intelligence for ideas.
67
273538
5000
họ ngày càng tham khảo nhiều ý tưởng của các chuyên gia về trí tuệ con người.
04:38
At the same time,
68
278788
1125
Cùng lúc đó,
04:39
AI is giving us new insights into the ways we get stuck and unstuck:
69
279913
5416
AI cũng đem lại hiểu biết mới về cách ta gặp và vượt qua khó khăn:
04:45
into boredom, depression, and addiction,
70
285329
2792
về sự buồn tẻ, chán nản và nghiện ngập,
04:48
along with curiosity, creativity, and play.
71
288121
3667
cùng với sự tò mò, sáng tạo và vui chơi.
Về trang web này

Trang web này sẽ giới thiệu cho bạn những video YouTube hữu ích cho việc học tiếng Anh. Bạn sẽ thấy các bài học tiếng Anh được giảng dạy bởi các giáo viên hàng đầu từ khắp nơi trên thế giới. Nhấp đúp vào phụ đề tiếng Anh hiển thị trên mỗi trang video để phát video từ đó. Phụ đề cuộn đồng bộ với phát lại video. Nếu bạn có bất kỳ nhận xét hoặc yêu cầu nào, vui lòng liên hệ với chúng tôi bằng biểu mẫu liên hệ này.

https://forms.gle/WvT1wiN1qDtmnspy7