How to get better at video games, according to babies - Brian Christian

542,613 views ・ 2021-11-02

TED-Ed


Videoyu oynatmak için lütfen aşağıdaki İngilizce altyazılara çift tıklayınız.

Çeviri: Şevval Naz Ertik Gözden geçirme: Ebrar Batmaz
00:08
In 2013, a group of researchers at DeepMind in London
0
8871
4292
2013 yılında Londra’daki DeepMind’da araştırmacılardan oluşan bir ekip
00:13
had set their sights on a grand challenge.
1
13163
2666
oldukça çetin bir işi gerçekleştirmeyi kafasına koymuştu.
00:15
They wanted to create an AI system that could beat,
2
15996
3292
Tek bir Atari oyununu değil,
00:19
not just a single Atari game, but every Atari game.
3
19288
4833
hepsini kazanabilen bir yapay zekâ sistemi yaratmak istiyorlardı.
00:24
They developed a system they called Deep Q Networks, or DQN,
4
24663
5166
DQN yani Deep Q Networks isimli bir sistem geliştirdiler
00:29
and less than two years later, it was superhuman.
5
29829
3667
ve bu sistem iki yıldan kısa bir sürede insanüstü hâle geldi.
00:33
DQN was getting scores 13 times better
6
33954
4167
DQN; profesyonel şekilde oyun test eden kişilere kıyasla
00:38
than professional human games testers at “Breakout,”
7
38121
3541
Breakout’ta 13 kat,
00:41
17 times better at “Boxing,” and 25 times better at “Video Pinball.”
8
41662
6334
Boxing’de 17 kat ve Video Pinball’da 25 kat daha yüksek puan alıyordu.
00:48
But there was one notable, and glaring, exception.
9
48162
3834
Ancak göze çarpan bir istisna vardı.
00:52
When playing “Montezuma’s Revenge” DQN couldn’t score a single point,
10
52496
5791
DQN sistemi, “Montezuma’s Revenge” oyununda
00:58
even after playing for weeks.
11
58537
2625
haftalarca tek bir puan dahi alamamıştı.
01:01
What was it that made this particular game so vexingly difficult for AI?
12
61412
5459
Bu oyunu yapay zekâ için böylesine can sıkıcı hâle getiren neydi?
01:07
And what would it take to solve it?
13
67204
2459
Bu sorun nasıl çözülebilirdi?
01:10
Spoiler alert: babies.
14
70538
2833
Spoiler uyarısı: Bebekler.
01:13
We’ll come back to that in a minute.
15
73746
2000
Birazdan bu konuya değineceğiz.
01:16
Playing Atari games with AI involves what’s called reinforcement learning,
16
76163
5541
Atari oyunlarında yapay zekâya karşı oynamak, pekiştirmeli öğrenmeyi kapsıyor.
01:21
where the system is designed to maximize some kind of numerical rewards.
17
81871
4917
Yani sistem bir çeşit sayısal ödülü maksimuma çıkarmak üzerine tasarlanmış.
01:26
In this case, those rewards were simply the game's points.
18
86788
3833
Bu durumda ise bahsi geçen ödüller, oyundaki puanlar oluyor.
01:30
This underlying goal drives the system to learn which buttons to press
19
90746
4333
Altta yatan bu hedef, sistemin hangi butonlara basacağını
ve en yüksek puanı alabilmek için
01:35
and when to press them to get the most points.
20
95079
3000
butonlara ne zaman basması gerektiğini öğrenmesini sağlıyor.
01:38
Some systems use model-based approaches, where they have a model of the environment
21
98079
5542
Bazı sistemler model bazlı yöntemler kullanıyor.
Bu yöntemlerde, belli bir hareketi yaptıktan sonra
01:43
that they can use to predict what will happen next
22
103621
3125
ne olacağını tahmin etmek için kullanabilecekleri bir çevre modeli var.
01:46
once they take a certain action.
23
106746
2000
01:49
DQN, however, is model free.
24
109288
3041
DQN ise modelsiz bir sistem.
01:52
Instead of explicitly modeling its environment,
25
112704
2584
Çevresini doğrudan modellemek yerine
01:55
it just learns to predict, based on the images on screen,
26
115288
3458
ekrandaki görselleri baz alıyor ve yalnızca farklı butonlara basarak
01:58
how many future points it can expect to earn by pressing different buttons.
27
118746
4958
kaç puan kazanabileceğini tahmin etmeyi öğreniyor.
02:03
For instance, “if the ball is here and I move left, more points,
28
123871
4792
Örneğin, top buradaysa ve sola doğru hareket ederse puan kazanır
02:08
but if I move right, no more points.”
29
128663
2833
ancak sağa doğru hareket ederse puan kazanamaz.
02:12
But learning these connections requires a lot of trial and error.
30
132038
4500
Bu bağlantıları öğrenmek ise birçok kez deneme ve yanılmayı gerektiriyor.
02:16
The DQN system would start by mashing buttons randomly,
31
136704
3834
DQN sistemi, butonlara rastgele basarak başlar
ve maksimum puana ulaşmak için hangi butona ne zaman basması gerektiğini
02:20
and then slowly piece together which buttons to mash when
32
140538
3541
02:24
in order to maximize its score.
33
144079
2125
yavaş yavaş kavrardı.
02:26
But in playing “Montezuma’s Revenge,”
34
146704
2375
Ancak “Montezuma’s Revenge” oyununda
02:29
this approach of random button-mashing fell flat on its face.
35
149079
4334
DQN sisteminin bu yöntemi çuvalladı.
02:34
A player would have to perform this entire sequence
36
154121
3000
Yalnızca en sonda ilk puanlarını kazanabilmeleri için
02:37
just to score their first points at the very end.
37
157121
3375
oyuncuların tüm bu seriyi baştan yapmaları gerekiyordu.
02:40
A mistake? Game over.
38
160871
2208
Tek bir hatada ise oyun bitiyordu.
02:43
So how could DQN even know it was on the right track?
39
163538
3708
Peki DQN sistemi doğru yolda olduğunu nasıl bilebilirdi?
02:47
This is where babies come in.
40
167746
2458
Bebekler bu noktada devreye giriyor.
02:50
In studies, infants consistently look longer at pictures
41
170746
3875
Araştırmalara göre bebekler daha önce gördükleri resimlere kıyasla
ilk kez gördükleri resimlere daha uzun süre bakıyorlar
02:54
they haven’t seen before than ones they have.
42
174621
2667
ve bir tutarlılık söz konusu.
02:57
There just seems to be something intrinsically rewarding about novelty.
43
177579
4000
Görünüşe göre yeniliğin, doğası itibarıyla memnun eden bir hâli var.
03:02
This behavior has been essential in understanding the infant mind.
44
182121
4125
Bu davranış, bebeklerin zihnini anlamak için oldukça önemli oldu.
03:06
It also turned out to be the secret to beating “Montezuma’s Revenge.”
45
186496
4792
Aynı zamanda “Montezuma’s Revenge” oyununu kazanmanın sırrı olduğu ortaya çıktı.
03:12
The DeepMind researchers worked out an ingenious way
46
192121
3708
DeepMind’daki araştırmacılar, yeniliğin bu üstünlüğünü
03:15
to plug this preference for novelty into reinforcement learning.
47
195829
4500
pekiştirmeli öğrenmeye entegre etmenin ustaca bir yolunu buldu.
03:20
They made it so that unusual or new images appearing on the screen
48
200704
4542
Ekranda beliren yeni ya da alışılmadık görüntülerin
03:25
were every bit as rewarding as real in-game points.
49
205246
4208
oyun içi puanlar kadar ödüllendirici olmasını sağladılar.
03:29
Suddenly, DQN was behaving totally differently from before.
50
209704
4709
DQN sistemi birdenbire eskiye kıyasla tamamen farklı davranmaya başlamıştı.
03:34
It wanted to explore the room it was in,
51
214579
2334
İçinde bulunduğu odayı keşfetmek,
03:36
to grab the key and escape through the locked door—
52
216913
2708
anahtarı almak ve kilitli kapıdan çıkıp kaçmak istiyordu.
03:39
not because it was worth 100 points,
53
219621
2708
Bunu yaparken 100 puanı kazanmayı amaçlamıyordu.
03:42
but for the same reason we would: to see what was on the other side.
54
222329
4667
Tıpkı bizim yapacağımız gibi öbür tarafta ne olduğunu görmek istiyordu.
03:48
With this new drive, DQN not only managed to grab that first key—
55
228163
5250
Bu yeni dürtü ile DQN sistemi ilk anahtarı almakla kalmadı.
03:53
it explored all the way through 15 of the temple’s 24 chambers.
56
233413
4833
Ayrıca odadaki 24 tapınaktan 15 tanesini keşfetti.
03:58
But emphasizing novelty-based rewards can sometimes create more problems
57
238454
4209
Ancak yenilik bazlı ödülleri vurgulamak bazen çözümden çok sorun yaratabilir.
04:02
than it solves.
58
242663
1166
04:03
A novelty-seeking system that’s played a game too long
59
243913
3208
Yenilik arayışındaki bir sistem aynı oyunu çok uzun süre oynadığında
04:07
will eventually lose motivation.
60
247121
2500
önünde sonunda motivasyonunu kaybeder.
04:09
If it’s seen it all before, why go anywhere?
61
249996
3042
Daha önce her şeyi gördüyse neden bunu tekrarlasın ki?
04:13
Alternately, if it encounters, say, a television, it will freeze.
62
253621
5167
Ayrıca bir televizyon gibi yeni bir şeyle karşılaşırsa donacaktır.
04:18
The constant novel images are essentially paralyzing.
63
258954
3750
Sürekli yeni görüntülere maruz kalmak aksamalara sebep olur.
04:23
The ideas and inspiration here go in both directions.
64
263204
3625
Fikirler ve ilham, iç içe bir durumda.
04:27
AI researchers stuck on a practical problem,
65
267079
3125
DQN sisteminin zor bir oyunu nasıl kazanacağı gibi
04:30
like how to get DQN to beat a difficult game,
66
270204
3334
pratik bir soruna takılıp kalan yapay zekâ araştırmacıları,
04:33
are turning increasingly to experts in human intelligence for ideas.
67
273538
5000
gittikçe artarak insan zekâsı uzmanlarına fikir danışıyorlar.
04:38
At the same time,
68
278788
1125
Aynı zamanda yapay zekâ bizlere
04:39
AI is giving us new insights into the ways we get stuck and unstuck:
69
279913
5416
can sıkıntısı, depresyon ve bağımlılık gibi konularda
04:45
into boredom, depression, and addiction,
70
285329
2792
nasıl çıkmaza girip çıktığımızın iç yüzünü gösteriyor.
04:48
along with curiosity, creativity, and play.
71
288121
3667
Merak, yaratıcılık ve oyun da bu konulara dâhil.
Bu web sitesi hakkında

Bu site size İngilizce öğrenmek için yararlı olan YouTube videolarını tanıtacaktır. Dünyanın dört bir yanından birinci sınıf öğretmenler tarafından verilen İngilizce derslerini göreceksiniz. Videoyu oradan oynatmak için her video sayfasında görüntülenen İngilizce altyazılara çift tıklayın. Altyazılar video oynatımı ile senkronize olarak kayar. Herhangi bir yorumunuz veya isteğiniz varsa, lütfen bu iletişim formunu kullanarak bizimle iletişime geçin.

https://forms.gle/WvT1wiN1qDtmnspy7