How to get better at video games, according to babies - Brian Christian

551,493 views ・ 2021-11-02

TED-Ed


يرجى النقر نقرًا مزدوجًا فوق الترجمة الإنجليزية أدناه لتشغيل الفيديو.

المترجم: GIS WITH US المدقّق: Shimaa Nabil
00:08
In 2013, a group of researchers at DeepMind in London
0
8871
4292
في عام 2013، مجموعة من الباحثين في العقل العميق في لندن
00:13
had set their sights on a grand challenge.
1
13163
2666
وضعوا أمامهم تحدٍ كبير.
00:15
They wanted to create an AI system that could beat,
2
15996
3292
يرغبون في خلق نظام ذكاء اصطناعي والذي يمكنه هزيمة،
00:19
not just a single Atari game, but every Atari game.
3
19288
4833
ليس فقط لعبة أتاري واحدة، وإنما جميع ألعاب الأتاري.
00:24
They developed a system they called Deep Q Networks, or DQN,
4
24663
5166
فقد طوروا نظام أسموه كيو العميق أو دي كيو إن،
00:29
and less than two years later, it was superhuman.
5
29829
3667
وفي أقل من عامين أصبح نظامًا خارقًا.
00:33
DQN was getting scores 13 times better
6
33954
4167
كان دي كيو إن يحصل على نتائج أفضل بـ 13 مرة
00:38
than professional human games testers at “Breakout,”
7
38121
3541
من مختبر بشري محترف بالألعاب في لعبة “الانطلاق”،
00:41
17 times better at “Boxing,” and 25 times better at “Video Pinball.”
8
41662
6334
وأفضل 17 مرة في لعبة “الملاكمة”، وب 25 مرة في لعبة “فيديو كرة الدبوس”.
00:48
But there was one notable, and glaring, exception.
9
48162
3834
ولكن كان هناك شيئًا واحدًا بارزًا وواضحًا، استثناء.
00:52
When playing “Montezuma’s Revenge” DQN couldn’t score a single point,
10
52496
5791
عند لعب لعبة “انتقام مونتيزوما” فإن دي كيو إن لا يمكنه الحصول على نقطة واحدة،
00:58
even after playing for weeks.
11
58537
2625
حتى بعد لعبه لأسابيع.
01:01
What was it that made this particular game so vexingly difficult for AI?
12
61412
5459
فما الذي جعل اللعبة بهذه الصعوبة على الذكاء الاصطناعي؟
01:07
And what would it take to solve it?
13
67204
2459
وما الذي تحتاجه لحلها؟
01:10
Spoiler alert: babies.
14
70538
2833
تنبيه: الأطفال.
01:13
We’ll come back to that in a minute.
15
73746
2000
سنعود لهذا بعد دقيقة.
01:16
Playing Atari games with AI involves what’s called reinforcement learning,
16
76163
5541
لعب لعبة الأتاري يشتمل على ما يسمى بالتعلم الموجه،
01:21
where the system is designed to maximize some kind of numerical rewards.
17
81871
4917
يكون فيه النظام مصمم على الإكثار من المكافآت العددية.
01:26
In this case, those rewards were simply the game's points.
18
86788
3833
في هذه الحالة، هذه الجوائز ببساطة هي نقاط اللعبة.
01:30
This underlying goal drives the system to learn which buttons to press
19
90746
4333
هذا الهدف المحدد يقود النظام لتعلم أي الأزرار يجب ضغطها
01:35
and when to press them to get the most points.
20
95079
3000
ومتى يجب ضغطها للحصول على أكبد عدد من النقاط.
01:38
Some systems use model-based approaches, where they have a model of the environment
21
98079
5542
بعض الأنظمة تستخدم مناهج مبنية على النماذج والتي يكون لها نموذج من البيئة
01:43
that they can use to predict what will happen next
22
103621
3125
والذي يمكن استخدامه للتنبؤ بما سيحدث لاحقًا
01:46
once they take a certain action.
23
106746
2000
عند القيام بردة فعل معينة.
01:49
DQN, however, is model free.
24
109288
3041
دي كيو إن هو نموذج حر.
01:52
Instead of explicitly modeling its environment,
25
112704
2584
بدلاً من النمذجة الصريحة في بيئته،
01:55
it just learns to predict, based on the images on screen,
26
115288
3458
فقط يتعلم ليتنبأ بناء على الصور الموجودة على الشاشة،
01:58
how many future points it can expect to earn by pressing different buttons.
27
118746
4958
عدد النقاط المستقبلية التي يمكن أن يتوقعها ليكسب بالضغط على مختلف الأزرار.
02:03
For instance, “if the ball is here and I move left, more points,
28
123871
4792
للتوضيح: “إذا كانت الكرة هنا و تحركت يسارًا سأحصل على نقاط أكثر،
02:08
but if I move right, no more points.”
29
128663
2833
لكن إن تحركت لليمين، فلن أحصل على النقاط.”
02:12
But learning these connections requires a lot of trial and error.
30
132038
4500
لكن تعلم هذه العلاقات تحتاج للعديد من محاولات التجربة والخطأ.
02:16
The DQN system would start by mashing buttons randomly,
31
136704
3834
نظام دي كيو إن سيبدأ من خلال ضغط الأزار عشوائيًا،
02:20
and then slowly piece together which buttons to mash when
32
140538
3541
وبعدها سيعرف ببطئ أي زر يجب ضغطه
02:24
in order to maximize its score.
33
144079
2125
للحصول على قدر من النقاط.
02:26
But in playing “Montezuma’s Revenge,”
34
146704
2375
لكن في لعبة “انتقام مونتيزوما،”
02:29
this approach of random button-mashing fell flat on its face.
35
149079
4334
هذا النهج العشوائي من ضغط الأزرار يسقط على وجهه.
02:34
A player would have to perform this entire sequence
36
154121
3000
يجب على اللاعب أداء كل هذه السلسلة
02:37
just to score their first points at the very end.
37
157121
3375
فقط للحصول على أول النقاط في النهاية.
02:40
A mistake? Game over.
38
160871
2208
في حال الخطأ؟ تنتهي اللعبة.
02:43
So how could DQN even know it was on the right track?
39
163538
3708
إذًا كيف يمكن لدي كيو إن أن يعلم بأنه على الطريق الصحيح؟
02:47
This is where babies come in.
40
167746
2458
هنا يأتي دور الأطفال.
02:50
In studies, infants consistently look longer at pictures
41
170746
3875
وجدت الدراسات أن الرضع ينظرون بشكل أطول للصور
02:54
they haven’t seen before than ones they have.
42
174621
2667
التي لم يشاهدوها قط مقارنة بأخرى شاهدوها.
02:57
There just seems to be something intrinsically rewarding about novelty.
43
177579
4000
يبدو أن هناك شيئًا ما مجزيًا.
03:02
This behavior has been essential in understanding the infant mind.
44
182121
4125
هذا السلوك أصبح أساسيًا في فهم عقلية الرضيع.
03:06
It also turned out to be the secret to beating “Montezuma’s Revenge.”
45
186496
4792
كذلك أصبح السر المستخدم لهزيمة لعبة “انتقام مونتيزوما.”
03:12
The DeepMind researchers worked out an ingenious way
46
192121
3708
عمل الباحثون القائمون على العقل العميق بطريقة بارعة
03:15
to plug this preference for novelty into reinforcement learning.
47
195829
4500
لتوصيل هذا التفضيل المبدع في التعلم الموجه.
03:20
They made it so that unusual or new images appearing on the screen
48
200704
4542
هم من صنعوه لذلك ظهرت صور جديدة وغير مألوفة على الشاشة
03:25
were every bit as rewarding as real in-game points.
49
205246
4208
كانت كل قطعة مجزية كنقاط حقيقية داخل اللعبة.
03:29
Suddenly, DQN was behaving totally differently from before.
50
209704
4709
فجأة، دي كيو إن سلك سلوكًا مختلفًا عما كان عليه.
03:34
It wanted to explore the room it was in,
51
214579
2334
يرغب في استكشاف الغرفة الواقع بها،
03:36
to grab the key and escape through the locked door—
52
216913
2708
للاستيلاء على المفتاح والهروب من خلال الباب المغلق
03:39
not because it was worth 100 points,
53
219621
2708
ليس للحصول على 100 نقطة فحسب،
03:42
but for the same reason we would: to see what was on the other side.
54
222329
4667
ولكن لنفس السبب الذي سنفعله من أجله، وهو لنعرف ما يوجد في الجانب الآخر.
03:48
With this new drive, DQN not only managed to grab that first key—
55
228163
5250
من خلال هذه النتيجة الجديدة، دي كيو إن لا يدار للحصول على أول مفتاح فقط
03:53
it explored all the way through 15 of the temple’s 24 chambers.
56
233413
4833
وإنما اكتشف كل الطرق خلال 15 من ال 24 غرفة للمعبد.
03:58
But emphasizing novelty-based rewards can sometimes create more problems
57
238454
4209
لكن التشديد على المكافآت المبنية على الإبداع يمكن أحيانًا أن يخلق مشاكل أكثر
04:02
than it solves.
58
242663
1166
من المحلولة.
04:03
A novelty-seeking system that’s played a game too long
59
243913
3208
نظام البحث عن الإبداع الذي يلعب بشكل طويل
04:07
will eventually lose motivation.
60
247121
2500
سيفقد الحافز بالنهاية.
04:09
If it’s seen it all before, why go anywhere?
61
249996
3042
إذا قام برؤيتها مسبقًا فلماذا يذهب لأي مكان؟
04:13
Alternately, if it encounters, say, a television, it will freeze.
62
253621
5167
بالتناوب، إذا واجهت تلفزيون، سوف يتجمد.
04:18
The constant novel images are essentially paralyzing.
63
258954
3750
الصور الثابتة عاجزة بشكل أساسي.
04:23
The ideas and inspiration here go in both directions.
64
263204
3625
الأفكار والإلهام هنا ذهبا في كلا الاتجاهين.
04:27
AI researchers stuck on a practical problem,
65
267079
3125
علق باحثي الذكاء الاصطناعي في مشكلة عملية،
04:30
like how to get DQN to beat a difficult game,
66
270204
3334
مثل كيف يمكن لدي كيو إن أن يهزم لعبة صعبة،
04:33
are turning increasingly to experts in human intelligence for ideas.
67
273538
5000
فتوجهوا بشكل متزايد إلى الخبراء في ذكاء الإنسان لإيجاد الأفكار.
04:38
At the same time,
68
278788
1125
في الوقت ذاته،
04:39
AI is giving us new insights into the ways we get stuck and unstuck:
69
279913
5416
يمنحنا الذكاء الاصطناعي رؤى جديدة في الطرق الملتصقة بنا والمفككة:
04:45
into boredom, depression, and addiction,
70
285329
2792
في الملل والاكتئاب والإدمان،
04:48
along with curiosity, creativity, and play.
71
288121
3667
جنبًا إلى جنب مع الفضول والإبداع واللعب.
حول هذا الموقع

سيقدم لك هذا الموقع مقاطع فيديو YouTube المفيدة لتعلم اللغة الإنجليزية. سترى دروس اللغة الإنجليزية التي يتم تدريسها من قبل مدرسين من الدرجة الأولى من جميع أنحاء العالم. انقر نقرًا مزدوجًا فوق الترجمة الإنجليزية المعروضة على كل صفحة فيديو لتشغيل الفيديو من هناك. يتم تمرير الترجمات بالتزامن مع تشغيل الفيديو. إذا كان لديك أي تعليقات أو طلبات ، يرجى الاتصال بنا باستخدام نموذج الاتصال هذا.

https://forms.gle/WvT1wiN1qDtmnspy7