How to get better at video games, according to babies - Brian Christian

551,493 views ・ 2021-11-02

TED-Ed


Κάντε διπλό κλικ στους αγγλικούς υπότιτλους παρακάτω για να αναπαραγάγετε το βίντεο.

Μετάφραση: Giannis Tsiougkos Επιμέλεια: Maria Pericleous
00:08
In 2013, a group of researchers at DeepMind in London
0
8871
4292
Το 2013, μια ομάδα ερευνητών του DeepMind στο Λονδίνο
00:13
had set their sights on a grand challenge.
1
13163
2666
έστρεψαν τα βλέμματά τους σε μια μεγάλη πρόκληση.
00:15
They wanted to create an AI system that could beat,
2
15996
3292
Να δημιουργήσουν ένα σύστημα Τεχνητής Νοημοσύνης
που θα κέρδιζε
00:19
not just a single Atari game, but every Atari game.
3
19288
4833
όχι μόνο ένα, αλλά όλα τα παιχνίδια της Atari.
00:24
They developed a system they called Deep Q Networks, or DQN,
4
24663
5166
Ανέπτυξαν ένα σύστημα το οποίο ονόμασαν Deep Q Networks, ή DQN,
00:29
and less than two years later, it was superhuman.
5
29829
3667
που μέσα σε λιγότερο από δύο χρόνια είχε γίνει υπεράνθρωπο.
00:33
DQN was getting scores 13 times better
6
33954
4167
Το DQN πετύχαινε 13 φορές καλύτερα σκορ
00:38
than professional human games testers at “Breakout,”
7
38121
3541
από ανθρώπους, επαγγελματίες δοκιμαστές παιχνιδιών στο «Breakout»,
00:41
17 times better at “Boxing,” and 25 times better at “Video Pinball.”
8
41662
6334
17 φορές καλύτερα στο «Boxing»,
και 25 φορές στο «Video Pinball».
00:48
But there was one notable, and glaring, exception.
9
48162
3834
Όμως, υπήρχε μια σημαντική και ολοφάνερη εξαίρεση.
00:52
When playing “Montezuma’s Revenge” DQN couldn’t score a single point,
10
52496
5791
Στο «Montezuma’s Revenge», το DQN δεν μπορούσε να κερδίσει ούτε έναν πόντο
00:58
even after playing for weeks.
11
58537
2625
ακόμη και μετά από εβδομάδες παιξίματος.
01:01
What was it that made this particular game so vexingly difficult for AI?
12
61412
5459
Τι ήταν αυτό που έκανε το συγκεκριμένο παιχνίδι τόσο δύσκολο για την ΤΝ;
01:07
And what would it take to solve it?
13
67204
2459
Και τι χρειαζόταν για να λυθεί το πρόβλημα;
01:10
Spoiler alert: babies.
14
70538
2833
Σπόιλερ: μωρά.
01:13
We’ll come back to that in a minute.
15
73746
2000
Θα επανέλθουμε σε αυτό σε λίγο.
01:16
Playing Atari games with AI involves what’s called reinforcement learning,
16
76163
5541
Το παίξιμο παιχνιδιών της Atari με την ΤΝ εμπεριέχει τη λεγόμενη ενισχυτική μάθηση,
01:21
where the system is designed to maximize some kind of numerical rewards.
17
81871
4917
στην οποία το σύστημα είναι σχεδιασμένο να μεγιστοποιεί αριθμητικές ανταμοιβές.
01:26
In this case, those rewards were simply the game's points.
18
86788
3833
Σε αυτή την περίπτωση, η ανταμοιβή ήταν απλά οι πόντοι του παιχνιδιού.
01:30
This underlying goal drives the system to learn which buttons to press
19
90746
4333
Αυτός ο στόχος ωθεί το σύστημα να μάθει ποια κουμπιά πρέπει να πατήσει
01:35
and when to press them to get the most points.
20
95079
3000
και πότε να τα πατήσει για να κερδίσει τους πιο πολλούς πόντους.
01:38
Some systems use model-based approaches, where they have a model of the environment
21
98079
5542
Κάποια χρησιμοποιούν ένα σύστημα που βασίζεται στα μοντέλα,
όπου υπάρχει ένα μοντέλο του περιβάλλοντος,
01:43
that they can use to predict what will happen next
22
103621
3125
που τους επιτρέπει να προβλέψουν το τι θα συμβεί
01:46
once they take a certain action.
23
106746
2000
μόλις κάνουν μια συγκεκριμένη ενέργεια.
01:49
DQN, however, is model free.
24
109288
3041
Το DQN, ωστόσο, δεν έχει μοντέλο.
01:52
Instead of explicitly modeling its environment,
25
112704
2584
Αντί να τροποποιεί αναλυτικά το περιβάλλον του,
01:55
it just learns to predict, based on the images on screen,
26
115288
3458
απλά μαθαίνει να προβλέπει, ανάλογα με τις εικόνες στην οθόνη,
01:58
how many future points it can expect to earn by pressing different buttons.
27
118746
4958
πόσους μελλοντικούς πόντους θα κερδίσει πατώντας διαφορετικά κουμπιά.
02:03
For instance, “if the ball is here and I move left, more points,
28
123871
4792
Για παράδειγμα: «αν η μπάλα είναι εδώ και πάω αριστερά, πιο πολλοί οι πόντοι,
02:08
but if I move right, no more points.”
29
128663
2833
αλλά αν πάω δεξιά, δεν κερδίζω άλλους πόντους».
02:12
But learning these connections requires a lot of trial and error.
30
132038
4500
Για να κάνει, όμως, αυτές τις συνδέσεις απαιτούνται πολλές δοκιμές και λάθη.
02:16
The DQN system would start by mashing buttons randomly,
31
136704
3834
Το σύστημα DQN ξεκινούσε πατώντας κουμπιά στην τύχη
02:20
and then slowly piece together which buttons to mash when
32
140538
3541
και μετά καταλάβαινε σταδιακά ποια κουμπιά έπρεπε να πατήσει και πότε,
02:24
in order to maximize its score.
33
144079
2125
ώστε να μεγιστοποιήσει το σκορ του.
02:26
But in playing “Montezuma’s Revenge,”
34
146704
2375
Στο «Montezuma’s Revenge» όμως,
02:29
this approach of random button-mashing fell flat on its face.
35
149079
4334
αυτή η προσέγγιση του τυχαίου πατήματος κουμπιών απέτυχε εντελώς.
02:34
A player would have to perform this entire sequence
36
154121
3000
Ο παίκτης έπρεπε να εκτελέσει όλη αυτή την ακολουθία
02:37
just to score their first points at the very end.
37
157121
3375
απλά και μόνο για να κερδίσει τους πρώτους του πόντους στο τέλος.
02:40
A mistake? Game over.
38
160871
2208
Αν έκανε λάθος; Τέλος παιχνιδιού.
02:43
So how could DQN even know it was on the right track?
39
163538
3708
Πώς θα καταλάβαινε, λοιπόν, το DQN πότε ήταν στο σωστό δρόμο;
02:47
This is where babies come in.
40
167746
2458
Εδώ έρχονται τα μωρά.
02:50
In studies, infants consistently look longer at pictures
41
170746
3875
Σε όλες τις έρευνες, τα βρέφη κοιτούν για περισσότερη ώρα τις εικόνες
02:54
they haven’t seen before than ones they have.
42
174621
2667
που δεν έχουν ξαναδεί απ′ ό,τι αυτές που έχουν ήδη δει.
02:57
There just seems to be something intrinsically rewarding about novelty.
43
177579
4000
Φαίνεται ότι τα καινούρια πράγματα έχουν κάτι εγγενώς ευχάριστο.
03:02
This behavior has been essential in understanding the infant mind.
44
182121
4125
Αυτή η συμπεριφορά είναι βασική για την κατανόηση του βρεφικού νου.
03:06
It also turned out to be the secret to beating “Montezuma’s Revenge.”
45
186496
4792
Αποδείχθηκε, επίσης, ότι είναι το μυστικό για τη νίκη στο «Montezuma’s Revenge».
03:12
The DeepMind researchers worked out an ingenious way
46
192121
3708
Οι ερευνητές του DeepMind σκέφτηκαν έναν ευφυή τρόπο
03:15
to plug this preference for novelty into reinforcement learning.
47
195829
4500
για να εντάξουν αυτή την προτίμηση για κάτι καινούριο στην ενισχυτική μάθηση.
03:20
They made it so that unusual or new images appearing on the screen
48
200704
4542
Ρύθμισαν το παιχνίδι
ώστε οι ασυνήθιστες ή οι νέες εικόνες που εμφανίζονταν στην οθόνη
03:25
were every bit as rewarding as real in-game points.
49
205246
4208
να ανταμείβουν τους παίκτες τόσο όσο και οι πόντοι μέσα στο παιχνίδι.
03:29
Suddenly, DQN was behaving totally differently from before.
50
209704
4709
Ξαφνικά, το DQN συμπεριφερόταν εντελώς διαφορετικά σε σχέση με πριν.
03:34
It wanted to explore the room it was in,
51
214579
2334
Ήθελε να εξερευνήσει το δωμάτιο στο οποίο βρισκόταν,
03:36
to grab the key and escape through the locked door—
52
216913
2708
να πάρει το κλειδί και να ξεφύγει από την κλειδωμένη πόρτα -
03:39
not because it was worth 100 points,
53
219621
2708
όχι γιατί αυτό άξιζε 100 πόντους,
03:42
but for the same reason we would: to see what was on the other side.
54
222329
4667
αλλά για τον ίδιο λόγο που θα το κάναμε κι εμείς:
για να δει τι υπήρχε στην άλλη πλευρά.
03:48
With this new drive, DQN not only managed to grab that first key—
55
228163
5250
Με αυτή τη νέα ώθηση, το DQN όχι μόνο κατάφερε να πάρει το πρώτο κλειδί
03:53
it explored all the way through 15 of the temple’s 24 chambers.
56
233413
4833
αλλά εξερεύνησε μέχρι και 15 από τις 24 κάμαρες του ναού.
03:58
But emphasizing novelty-based rewards can sometimes create more problems
57
238454
4209
Η έμφαση, όμως, σε τέτοια βραβεία μερικές φορές δημιουργεί περισσότερα προβλήματα
04:02
than it solves.
58
242663
1166
από αυτά που λύνει.
04:03
A novelty-seeking system that’s played a game too long
59
243913
3208
Ένα σύστημα που ψάχνει το καινούριο
και έχει παίξει ένα παιχνίδι για πολύ καιρό
04:07
will eventually lose motivation.
60
247121
2500
θα χάσει τελικά το κίνητρο να συνεχίσει.
04:09
If it’s seen it all before, why go anywhere?
61
249996
3042
Αν τα έχει ξαναδεί όλα, γιατί να πάει οπουδήποτε;
04:13
Alternately, if it encounters, say, a television, it will freeze.
62
253621
5167
Εναλλακτικά, αν συναντήσει, ας πούμε, μια τηλεόραση, θα σταματήσει.
04:18
The constant novel images are essentially paralyzing.
63
258954
3750
Οι συνεχείς καινούριες εικόνες είναι στην ουσία παραλυτικές.
04:23
The ideas and inspiration here go in both directions.
64
263204
3625
Οι ιδέες και η έμπνευση εδώ είναι αμφίδρομες.
04:27
AI researchers stuck on a practical problem,
65
267079
3125
Οι ερευνητές της ΤΝ που έχουν κολλήσει σε ένα πρακτικό πρόβλημα,
04:30
like how to get DQN to beat a difficult game,
66
270204
3334
όπως το πώς να κάνουν το DQN να τερματίσει ένα δύσκολο παιχνίδι,
04:33
are turning increasingly to experts in human intelligence for ideas.
67
273538
5000
απευθύνονται όλο και περισσότερο στους ειδικούς στην ανθρώπινη νοημοσύνη
για ιδέες.
04:38
At the same time,
68
278788
1125
Την ίδια στιγμή,
04:39
AI is giving us new insights into the ways we get stuck and unstuck:
69
279913
5416
η ΤΝ μας παρέχει νέες γνώσεις για το πώς εμείς κολλάμε και ξεκολλάμε:
04:45
into boredom, depression, and addiction,
70
285329
2792
για την πλήξη, την κατάθλιψη και τον εθισμό,
04:48
along with curiosity, creativity, and play.
71
288121
3667
μαζί με την περιέργεια, τη δημιουργικότητα και το παιχνίδι.
Σχετικά με αυτόν τον ιστότοπο

Αυτός ο ιστότοπος θα σας παρουσιάσει βίντεο στο YouTube που είναι χρήσιμα για την εκμάθηση της αγγλικής γλώσσας. Θα δείτε μαθήματα αγγλικών που διδάσκουν κορυφαίοι καθηγητές από όλο τον κόσμο. Κάντε διπλό κλικ στους αγγλικούς υπότιτλους που εμφανίζονται σε κάθε σελίδα βίντεο για να αναπαράγετε το βίντεο από εκεί. Οι υπότιτλοι μετακινούνται συγχρονισμένα με την αναπαραγωγή του βίντεο. Εάν έχετε οποιαδήποτε σχόλια ή αιτήματα, παρακαλούμε επικοινωνήστε μαζί μας χρησιμοποιώντας αυτή τη φόρμα επικοινωνίας.

https://forms.gle/WvT1wiN1qDtmnspy7