How to get better at video games, according to babies - Brian Christian

551,493 views ・ 2021-11-02

TED-Ed


لطفا برای پخش فیلم روی زیرنویس انگلیسی زیر دوبار کلیک کنید.

Translator: Atrina Abbasi Reviewer: sadegh vn
00:08
In 2013, a group of researchers at DeepMind in London
0
8871
4292
در سال ۲۰۱۳، گروهی از پژوهشگران شرکت ذهن عمیق در لندن
00:13
had set their sights on a grand challenge.
1
13163
2666
توجهشان را بر روی یک چالش بزرگ گذاشتند.
00:15
They wanted to create an AI system that could beat,
2
15996
3292
آنها می‌خواستند یک سیستم هوش مصنوعی بسازند
00:19
not just a single Atari game, but every Atari game.
3
19288
4833
که نه فقط یک بازی بلکه از پس تمام بازی‌های آتاری بر‌آید.
00:24
They developed a system they called Deep Q Networks, or DQN,
4
24663
5166
آنها سیستمی به نام شبکه‌های ارتباطی عمیق کیو، یا دی‌.کیو‌.ان توسعه دادند،
00:29
and less than two years later, it was superhuman.
5
29829
3667
و در کمتر از دو سال بعد، به یک ابر‌انسان تبدیل شده بود.
00:33
DQN was getting scores 13 times better
6
33954
4167
دی‌.کیو‌.ان داشت ۱۳‌برابر بهتر از
00:38
than professional human games testers at “Breakout,”
7
38121
3541
آن امتحان‌کننده‌های انسان‌ حرفه‌ای در بازی “Breakout” عمل می‌کرد.
00:41
17 times better at “Boxing,” and 25 times better at “Video Pinball.”
8
41662
6334
۱۷‌برابر بهتر در “بوکس،” و ۲۵‌برابر بهتر در “پینبال.”
00:48
But there was one notable, and glaring, exception.
9
48162
3834
ولی‌ یک استثنا قابل‌توجه و چشمگیر وجود داشت.
00:52
When playing “Montezuma’s Revenge” DQN couldn’t score a single point,
10
52496
5791
وقتی دی.کیو.ان“انتقام مونتزوما”بازی می‌کرد نمی‌توانست یک امتیاز هم بگیرد،
00:58
even after playing for weeks.
11
58537
2625
حتی بعد از بازی کردن بعد از هفته‌ها:
01:01
What was it that made this particular game so vexingly difficult for AI?
12
61412
5459
چرا انجام این بازی خاص برای هوش مصنوعی بسیار سخت بود؟
01:07
And what would it take to solve it?
13
67204
2459
و چه چیزی باعث حل شدنش شد؟
01:10
Spoiler alert: babies.
14
70538
2833
آلارم اسپویل: نوزادان.
01:13
We’ll come back to that in a minute.
15
73746
2000
چند دقیقه دیگر به آن می‌پردازیم.
01:16
Playing Atari games with AI involves what’s called reinforcement learning,
16
76163
5541
بازی کردن با هوش مصنوعی موجب چیزی به نام یادگیری تقویتی می‌شود،
01:21
where the system is designed to maximize some kind of numerical rewards.
17
81871
4917
که سیستم طراحی شده تا حداکثر بعضی از انواع پاداش عددی را مشخص کند.
01:26
In this case, those rewards were simply the game's points.
18
86788
3833
در این مورد،آن پاداش‌ها در واقع امتیاز‌های بازی هستند.
01:30
This underlying goal drives the system to learn which buttons to press
19
90746
4333
این هدف اساسی به سیستم نشان می‌دهد که کدام دکمه را فشار دهد
01:35
and when to press them to get the most points.
20
95079
3000
و چه زمانی آنها را فشار دهد تا بیشترین امتیاز را بگیرد.
01:38
Some systems use model-based approaches, where they have a model of the environment
21
98079
5542
بعضی از سیستم‌ها از رویکرد‌های مبتنی بر مدل با توجه به محیط استفاده می‌کنند
01:43
that they can use to predict what will happen next
22
103621
3125
که آنها پیش‌بینی می‌کنند چه اتفاقاتی بعداً می‌افتد
01:46
once they take a certain action.
23
106746
2000
زمانی که آنها ‌یک حرکت انجام می‌دهند.
01:49
DQN, however, is model free.
24
109288
3041
با اینکه دی‌.کیو‌.ان نیازی به مدل ندارد.
01:52
Instead of explicitly modeling its environment,
25
112704
2584
بلکه به‌جای مدل‌سازی سریع محیط،
01:55
it just learns to predict, based on the images on screen,
26
115288
3458
فقط می‌آموزد تا بر طبق عکس‌های روی صفحه، پیش‌بینی کند
01:58
how many future points it can expect to earn by pressing different buttons.
27
118746
4958
که با فشار دادن دکمه‌های متفاوت چه مقدار امتیاز می‌تواند کسب کند.
02:03
For instance, “if the ball is here and I move left, more points,
28
123871
4792
به عنوان مثال، “اگر توپ اینجا باشد و من به سمت چپ حرکت کنم، امتیاز بیشتری دارد
02:08
but if I move right, no more points.”
29
128663
2833
ولی اگر به طرف راست حرکت کنم، امتیازی نمی‌گیرم.”
02:12
But learning these connections requires a lot of trial and error.
30
132038
4500
ولی برای یادگیری این ارتباط‌ها نیاز به آزمایش‌ها و خطا‌های بسیاری است.
02:16
The DQN system would start by mashing buttons randomly,
31
136704
3834
سیستم دی‌.کیو‌.ان با فشار دادن دکمه‌ها به صورت تصادفی شروع می‌کند،
02:20
and then slowly piece together which buttons to mash when
32
140538
3541
و بعد به آرامی نتیجه‌گیری می‌کند که کدام دکمه‌ها را فشار دهد
02:24
in order to maximize its score.
33
144079
2125
تا حداکثر امتیاز را به دست آورد.
02:26
But in playing “Montezuma’s Revenge,”
34
146704
2375
ولی در بازی “انتقام مونتزوما”،
02:29
this approach of random button-mashing fell flat on its face.
35
149079
4334
فشار دادن دکمه‌ها به صورت تصادفی یک اشتباه بود.
02:34
A player would have to perform this entire sequence
36
154121
3000
بازیکن باید این توالی کلی را اجرا کند
02:37
just to score their first points at the very end.
37
157121
3375
فقط برای اینکه در نهایت اولین امتیاز‌ها را بگیرد.
02:40
A mistake? Game over.
38
160871
2208
یک خطا؟ بازی به اتمام می‌رسد.
02:43
So how could DQN even know it was on the right track?
39
163538
3708
پس دی‌.کیو‌.ان چگونه باید می‌فهمید کدام راه درست است؟
02:47
This is where babies come in.
40
167746
2458
اینجاست که نوزادان وارد می‌شوند.
02:50
In studies, infants consistently look longer at pictures
41
170746
3875
در پژوهش‌ها نوزادان به طور مداوم و طولانی‌تر به تصاویری نگاه می‌کنند
02:54
they haven’t seen before than ones they have.
42
174621
2667
که تا‌به‌حال آن‌ها را ندیده‌اند.
02:57
There just seems to be something intrinsically rewarding about novelty.
43
177579
4000
فقط به نظر می‌رسد چیز‌های جدید به خودی خود پاداش هستند.
03:02
This behavior has been essential in understanding the infant mind.
44
182121
4125
این رفتار گزینه مهمی برای شناختن ذهن نوزاد بوده است.
03:06
It also turned out to be the secret to beating “Montezuma’s Revenge.”
45
186496
4792
و معلوم شد که روشی برای برنده شدن در بازی “انتقام مونتزوما” هم هست.
03:12
The DeepMind researchers worked out an ingenious way
46
192121
3708
پژوهشگران ذهن عمیق به روشی مبتکرانه کار کردند
03:15
to plug this preference for novelty into reinforcement learning.
47
195829
4500
تا اولویت داشتن چیز‌های جدید را به یادگیری تقویتی مرتبط سازند.
03:20
They made it so that unusual or new images appearing on the screen
48
200704
4542
آنها شرایط را غیر معمول کردند یا اشکال جدیدی بر روی صفحه ظاهر کردند
03:25
were every bit as rewarding as real in-game points.
49
205246
4208
که هر کدام امتیازی داشت مثل امتیاز‌های واقعی بازی.
03:29
Suddenly, DQN was behaving totally differently from before.
50
209704
4709
ناگهان، دی‌.کیو‌.ان کاملا متفاوت از قبل رفتار کرد.
03:34
It wanted to explore the room it was in,
51
214579
2334
می‌خواست اتاقی که درونش بود را بررسی کند،
03:36
to grab the key and escape through the locked door—
52
216913
2708
تا کلید را به دست آورده و از در قفل شده فرار کند-
03:39
not because it was worth 100 points,
53
219621
2708
نه برای اینکه ۱۰۰ امتیاز به دست می‌آورد،
03:42
but for the same reason we would: to see what was on the other side.
54
222329
4667
بلکه به همان دلیلی که ما داشتیم: تا ببیند چه چیزی در آن سمت دیگر است.
03:48
With this new drive, DQN not only managed to grab that first key—
55
228163
5250
با این سیستم جدید، دی‌.کیو‌.ان نه‌تنها توانست اولین کلید را بگیرد-
03:53
it explored all the way through 15 of the temple’s 24 chambers.
56
233413
4833
بلکه تمام ۱۵‌ تا از ۲۴ اتاق پلکان‌ها را بررسی کرد.
03:58
But emphasizing novelty-based rewards can sometimes create more problems
57
238454
4209
اما گاهی تاکید بر پاداش‌های جدید باعث مشکلاتی می‌شود
04:02
than it solves.
58
242663
1166
که باید حل شوند.
04:03
A novelty-seeking system that’s played a game too long
59
243913
3208
این سیستم نو‌جویی است که انجام یک بازی با آن خیلی طولانی می‌شود
04:07
will eventually lose motivation.
60
247121
2500
که در نهایت انگیزه‌ از دست خواهد رفت.
04:09
If it’s seen it all before, why go anywhere?
61
249996
3042
اگر قبلا همه را حل کرده چرا باید دوباره انجامش دهد؟
04:13
Alternately, if it encounters, say, a television, it will freeze.
62
253621
5167
اگر پشت سر هم با آن مواجه شده باشد،می‌داند که مثلاً به تلویزیون بخورد یخ خواهد زد.
04:18
The constant novel images are essentially paralyzing.
63
258954
3750
اشکال جدید تکراری اساساً فلج کننده هستند.
04:23
The ideas and inspiration here go in both directions.
64
263204
3625
ایده و الهامات در اینجا به دو سمت می‌روند.
04:27
AI researchers stuck on a practical problem,
65
267079
3125
پژوهشگران هوش مصنوعی درگیر این مسئله‌ شده بودند که
04:30
like how to get DQN to beat a difficult game,
66
270204
3334
چگونه دی‌.کیو‌.ان می‌تواند از عهده یک بازی سخت برآید،
04:33
are turning increasingly to experts in human intelligence for ideas.
67
273538
5000
که همین به متخصصان درباره هوش انسانی ایده‌های روز افزونی ‌‌‌‌‌‌‌‌‌‌‌‌‌‌داد.
04:38
At the same time,
68
278788
1125
در همین موقع،
04:39
AI is giving us new insights into the ways we get stuck and unstuck:
69
279913
5416
هوش مصنوعی به ما آگاهی‌های جدیدی در مورد درگیر شدن یا نشدن ما در زمینه‌های مختلفی
04:45
into boredom, depression, and addiction,
70
285329
2792
مثل بی‌حوصلگی، افسردگی و اعتیاد،
04:48
along with curiosity, creativity, and play.
71
288121
3667
به علاوه کنجکاوی، خلاقیت و بازی کردن می‌دهد.
درباره این وب سایت

این سایت ویدیوهای یوتیوب را به شما معرفی می کند که برای یادگیری زبان انگلیسی مفید هستند. دروس انگلیسی را خواهید دید که توسط معلمان درجه یک از سراسر جهان تدریس می شود. روی زیرنویس انگلیسی نمایش داده شده در هر صفحه ویدیو دوبار کلیک کنید تا ویدیو از آنجا پخش شود. زیرنویس‌ها با پخش ویدیو همگام می‌شوند. اگر نظر یا درخواستی دارید، لطفا با استفاده از این فرم تماس با ما تماس بگیرید.

https://forms.gle/WvT1wiN1qDtmnspy7