How to get better at video games, according to babies - Brian Christian

559,494 views ・ 2021-11-02

TED-Ed

Vui lòng nhấp đúp vào phụ đề tiếng Anh bên dưới để phát video.

Translator: Diem Dinh Reviewer: Ly Nguyễn

00:08

In 2013, a group of researchers at DeepMind in London

8871

4292

Năm 2013, một nhóm nghiên cứu của DeepMind tại Luân Đôn

00:13

had set their sights on a grand challenge.

13163

2666

quyết định đối diện một thử thách lớn.

00:15

They wanted to create an AI system that could beat,

15996

3292

Họ muốn tạo ra một hệ thống trí tuệ nhân tạo (AI)

có thể thắng không chỉ một mà mọi tựa game của Atari.

00:19

not just a single Atari game, but every Atari game.

19288

4833

00:24

They developed a system they called Deep Q Networks, or DQN,

24663

5166

Họ phát triển một hệ thống tên Deep Q Networks, hay DQN,

00:29

and less than two years later, it was superhuman.

29829

3667

và chưa đầy hai năm sau, nó đã vượt qua con người.

00:33

DQN was getting scores 13 times better

33954

4167

DQN đạt số điểm cao gấp 13 lần

00:38

than professional human games testers at “Breakout,”

38121

3541

người thử nghiệm game chuyên nghiệp ở trò Breakout,

00:41

17 times better at “Boxing,” and 25 times better at “Video Pinball.”

41662

6334

gấp 17 lần ở trò Boxing và gấp 25 lần ở trò Video Pinball.

00:48

But there was one notable, and glaring, exception.

48162

3834

Nhưng có một ngoại lệ nổi bật rõ ràng.

00:52

When playing “Montezuma’s Revenge” DQN couldn’t score a single point,

52496

5791

Khi chơi trò Montezuma’s Revenge, DQN không thắng được điểm nào

00:58

even after playing for weeks.

58537

2625

dù đã chơi nhiều tuần.

01:01

What was it that made this particular game so vexingly difficult for AI?

61412

5459

Tại sao trò chơi này lại gây khó khăn cho AI như vậy?

01:07

And what would it take to solve it?

67204

2459

Và ta khắc phục nó bằng cách nào?

01:10

Spoiler alert: babies.

70538

2833

Tiết lộ trước nhé: em bé.

01:13

We’ll come back to that in a minute.

73746

2000

Chúng ta sẽ quay lại phần này sau.

01:16

Playing Atari games with AI involves what’s called reinforcement learning,

76163

5541

Chơi game của Atari bằng AI đòi hỏi sử dụng học tăng cường,

01:21

where the system is designed to maximize some kind of numerical rewards.

81871

4917

trong đó hệ thống được thiết kế để tối đa hóa một loại phần thưởng bằng số.

01:26

In this case, those rewards were simply the game's points.

86788

3833

Trong trường hợp này, phần thưởng chính là số điểm của trò chơi.

01:30

This underlying goal drives the system to learn which buttons to press

90746

4333

Mục tiêu cơ bản này thôi thúc hệ thống học phải nhấn nút nào

01:35

and when to press them to get the most points.

95079

3000

và nhấn khi nào để đạt số điểm cao nhất.

01:38

Some systems use model-based approaches, where they have a model of the environment

98079

5542

Một số hệ thống dùng phương pháp dựa trên mô hình, trong đó mô hình của môi trường

01:43

that they can use to predict what will happen next

103621

3125

được sử dụng để dự đoán điều gì sẽ xảy ra

01:46

once they take a certain action.

106746

2000

khi hệ thống thử một hành động nhất định.

01:49

DQN, however, is model free.

109288

3041

Tuy nhiên, DQN không sử dụng mô hình.

01:52

Instead of explicitly modeling its environment,

112704

2584

Thay vì mô hình hóa rõ ràng môi trường,

01:55

it just learns to predict, based on the images on screen,

115288

3458

nó chỉ học cách dự đoán – dựa trên ảnh trên màn hình –

01:58

how many future points it can expect to earn by pressing different buttons.

118746

4958

mình sẽ đạt được bao nhiêu điểm trong tương lai khi nhấn các nút khác nhau.

02:03

For instance, “if the ball is here and I move left, more points,

123871

4792

Ví dụ, “nếu quả bóng ở đây mà ta chạy sang trái thì điểm tăng,

02:08

but if I move right, no more points.”

128663

2833

nhưng sang phải thì điểm không tăng.”

02:12

But learning these connections requires a lot of trial and error.

132038

4500

Nhưng để biết mối liên hệ này, nó phải thử và rút kinh nghiệm nhiều lần.

02:16

The DQN system would start by mashing buttons randomly,

136704

3834

Hệ thống DQN bắt đầu bằng cách nhấn nút ngẫu nhiên,

02:20

and then slowly piece together which buttons to mash when

140538

3541

sau đó dần dần tìm hiểu khi nào phải nhấn nút nào

02:24

in order to maximize its score.

144079

2125

để đạt điểm tối đa.

02:26

But in playing “Montezuma’s Revenge,”

146704

2375

Nhưng khi chơi Montezuma’s Revenge,

02:29

this approach of random button-mashing fell flat on its face.

149079

4334

phương pháp nhấn bừa nút này thất bại hoàn toàn.

02:34

A player would have to perform this entire sequence

154121

3000

Người chơi phải thực hiện toàn bộ chuỗi hành động này

02:37

just to score their first points at the very end.

157121

3375

rồi mới nhận được số điểm đầu tiên.

02:40

A mistake? Game over.

160871

2208

Làm sai? Trò chơi kết thúc.

02:43

So how could DQN even know it was on the right track?

163538

3708

Vậy làm sao DQN biết được mình có đi đúng hướng không?

02:47

This is where babies come in.

167746

2458

Đây là lúc ta cần đến em bé.

02:50

In studies, infants consistently look longer at pictures

170746

3875

Theo nghiên cứu, trẻ sơ sinh luôn nhìn những bức ảnh

02:54

they haven’t seen before than ones they have.

174621

2667

mà mình chưa từng thấy trước đây lâu hơn.

02:57

There just seems to be something intrinsically rewarding about novelty.

177579

4000

Những điều mới lạ dường như đem lại sự thỏa mãn cố hữu.

03:02

This behavior has been essential in understanding the infant mind.

182121

4125

Hành vi này là yếu tố cần thiết để hiểu trí óc trẻ sơ sinh.

03:06

It also turned out to be the secret to beating “Montezuma’s Revenge.”

186496

4792

Thật tình cờ, nó cũng chính là bí quyết để thắng trò Montezuma’s Revenge.

03:12

The DeepMind researchers worked out an ingenious way

192121

3708

Nhóm nghiên cứu tại DeepMind đã khéo léo tìm ra cách

03:15

to plug this preference for novelty into reinforcement learning.

195829

4500

áp dụng cảm giác thích tính mới này vào học tăng cường.

03:20

They made it so that unusual or new images appearing on the screen

200704

4542

Họ khiến những hình ảnh bất thường hoặc mới xuất hiện trên màn hình

03:25

were every bit as rewarding as real in-game points.

205246

4208

cũng có giá trị ngang với số điểm thực trong trò chơi.

03:29

Suddenly, DQN was behaving totally differently from before.

209704

4709

DQN lập tức hành động hoàn toàn khác trước.

03:34

It wanted to explore the room it was in,

214579

2334

Nó muốn khám phá căn phòng,

03:36

to grab the key and escape through the locked door—

216913

2708

muốn lấy chìa khóa và thoát khỏi cánh cửa khóa kín –

03:39

not because it was worth 100 points,

219621

2708

không phải vì nó có thể nhận được 100 điểm,

03:42

but for the same reason we would: to see what was on the other side.

222329

4667

nhưng vì cùng lý do như chúng ta: để xem phía bên kia có gì.

03:48

With this new drive, DQN not only managed to grab that first key—

228163

5250

Với động lực mới này, DQN chẳng những lấy được chìa khóa đầu tiên

03:53

it explored all the way through 15 of the temple’s 24 chambers.

233413

4833

mà còn khám phá hết 15 trong số 24 phòng của ngôi đền.

03:58

But emphasizing novelty-based rewards can sometimes create more problems

238454

4209

Song, phần thưởng dựa trên tính mới đôi khi tạo ra nhiều vấn đề

04:02

than it solves.

242663

1166

hơn là giải quyết.

04:03

A novelty-seeking system that’s played a game too long

243913

3208

Nếu chơi một trò chơi quá lâu, một hệ thống tìm kiếm tính mới

04:07

will eventually lose motivation.

247121

2500

sẽ dần mất động lực.

04:09

If it’s seen it all before, why go anywhere?

249996

3042

Nếu đã thấy mọi thứ rồi thì cần gì đi tiếp nữa?

04:13

Alternately, if it encounters, say, a television, it will freeze.

253621

5167

Mặt khác, nếu nó gặp một cái ti vi chẳng hạn, nó sẽ đứng yên.

04:18

The constant novel images are essentially paralyzing.

258954

3750

Những hình ảnh mới liên tục xuất hiện sẽ làm tê liệt nó.

04:23

The ideas and inspiration here go in both directions.

263204

3625

Ý tưởng và cảm hứng ở đây là hai chiều.

04:27

AI researchers stuck on a practical problem,

267079

3125

Khi các nhà nghiên cứu AI gặp một vấn đề thực tế –

04:30

like how to get DQN to beat a difficult game,

270204

3334

như phải làm sao để giúp DQN thắng một trò chơi khó –

04:33

are turning increasingly to experts in human intelligence for ideas.

273538

5000

họ ngày càng tham khảo nhiều ý tưởng của các chuyên gia về trí tuệ con người.

04:38

At the same time,

278788

1125

Cùng lúc đó,

04:39

AI is giving us new insights into the ways we get stuck and unstuck:

279913

5416

AI cũng đem lại hiểu biết mới về cách ta gặp và vượt qua khó khăn:

04:45

into boredom, depression, and addiction,

285329

2792

về sự buồn tẻ, chán nản và nghiện ngập,

04:48

along with curiosity, creativity, and play.

288121

3667

cùng với sự tò mò, sáng tạo và vui chơi.

New videos

06:27

How do drugs make you hallucinate? - Anees Bahji

06:16

How important is politeness? ⏲️ 6 Minute English

07:44

North Korea’s secrets revealed by phone: Study:...

17:30

Advanced English Learning: Speaking Practice

03:48

What can you do? Easy English Conversations 💬 ...

12:13

Speak English Confidently: Daily Tricks & Tips 🧠

13:00

Practice English Conversation (Family life) Imp...

10:22

VOCABULARY English Speaking Practice

Original video on YouTube.com

How to get better at video games, according to babies - Brian Christian - YouTube

Về trang web này

Trang web này sẽ giới thiệu cho bạn những video YouTube hữu ích cho việc học tiếng Anh. Bạn sẽ thấy các bài học tiếng Anh được giảng dạy bởi các giáo viên hàng đầu từ khắp nơi trên thế giới. Nhấp đúp vào phụ đề tiếng Anh hiển thị trên mỗi trang video để phát video từ đó. Phụ đề cuộn đồng bộ với phát lại video. Nếu bạn có bất kỳ nhận xét hoặc yêu cầu nào, vui lòng liên hệ với chúng tôi bằng biểu mẫu liên hệ này.

https://forms.gle/WvT1wiN1qDtmnspy7

Playback speed

Subtitle font size

How to get better at video games, according to babies - Brian Christian

New videos

How to get better at video games, according to babies - Brian Christian

New videos

Original video on YouTube.com