What we learned from 5 million books

235,130 views ・ 2011-09-20

TED


Κάντε διπλό κλικ στους αγγλικούς υπότιτλους παρακάτω για να αναπαραγάγετε το βίντεο.

Μετάφραση: Spispi Met Επιμέλεια: Katerina Koinis
00:15
Erez Lieberman Aiden: Everyone knows
0
15260
2000
Έρεζ Λίμπερμαν Έιντεν: Είναι γνωστό
00:17
that a picture is worth a thousand words.
1
17260
3000
ότι μια εικόνα αξίζει χίλιες λέξεις.
00:22
But we at Harvard
2
22260
2000
Αλλά εμείς στο Χάρβαρντ
00:24
were wondering if this was really true.
3
24260
3000
αναρωτιόμασταν αν αυτό αληθεύει.
00:27
(Laughter)
4
27260
2000
(Γέλια)
00:29
So we assembled a team of experts,
5
29260
4000
Έτσι, μαζέψαμε μια ομάδα ειδικών από το Χαρβαρντ, το ΜΙΤ,
00:33
spanning Harvard, MIT,
6
33260
2000
το Λεξικό Αμερικανικής Κληρονομιάς, την εγκυκλοπαίδεια Μπριτάνικα
00:35
The American Heritage Dictionary, The Encyclopedia Britannica
7
35260
3000
00:38
and even our proud sponsors,
8
38260
2000
και τους περήφανους χορηγούς μας, την Google.
00:40
the Google.
9
40260
3000
00:43
And we cogitated about this
10
43260
2000
Και πέσαμε σε βαθιά περισυλλογή
00:45
for about four years.
11
45260
2000
για περίπου τέσσερα χρόνια.
00:47
And we came to a startling conclusion.
12
47260
5000
Καταλήξαμε σε ένα τρομακτικό συμπέρασμα.
00:52
Ladies and gentlemen, a picture is not worth a thousand words.
13
52260
3000
Κυρίες και κύριοι, μια εικόνα δεν αξίζει 1.000 λέξεις.
00:55
In fact, we found some pictures
14
55260
2000
Πράγματι, βρήκαμε εικόνες
00:57
that are worth 500 billion words.
15
57260
5000
που αξίζουν 500 δις λέξεις.
01:02
Jean-Baptiste Michel: So how did we get to this conclusion?
16
62260
2000
Ζαν-Μπατίστ Μισέλ: Πώς καταλήξαμε σε αυτό το συμπέρασμα;
01:04
So Erez and I were thinking about ways
17
64260
2000
Ο Έρεζ και εγώ σκεφτόμασταν τρόπους
01:06
to get a big picture of human culture
18
66260
2000
για να δούμε μία συνολική εικόνα του ανθρώπινου πολιτισμού
01:08
and human history: change over time.
19
68260
3000
και της ανθρώπινης ιστορίας: αλλαγή μέσα στον χρόνο.
01:11
So many books actually have been written over the years.
20
71260
2000
Πάρα πολλά βιβλία γράφτηκαν στη διάρκεια των χρόνων
01:13
So we were thinking, well the best way to learn from them
21
73260
2000
Έτσι σκεφτήκαμε ότι ο καλύτερος τρόπος να μάθουμε κάτι από αυτά
01:15
is to read all of these millions of books.
22
75260
2000
είναι να τα διαβάσουμε όλα.
01:17
Now of course, if there's a scale for how awesome that is,
23
77260
3000
Τώρα βέβαια, αν υπάρχει μια κλίμακα για το πόσο "φανταστικό" είναι αυτό
01:20
that has to rank extremely, extremely high.
24
80260
3000
τότε πρέπει να φιγουράρει πολύ ψηλά.
01:23
Now the problem is there's an X-axis for that,
25
83260
2000
Τώρα το πρόβλημα εδώ είναι ότι υπάρχει ο άξονας του χ,
01:25
which is the practical axis.
26
85260
2000
ο οποίος είναι ο άξονας της πρακτικότητας.
01:27
This is very, very low.
27
87260
2000
Αυτή βρίσκεται πολύ, πολύ χαμηλά.
01:29
(Applause)
28
89260
3000
(Χειροκρότημα)
01:32
Now people tend to use an alternative approach,
29
92260
3000
Τώρα ο κόσμος τείνει να έχει μια διαφορετική προσέγγιση,
01:35
which is to take a few sources and read them very carefully.
30
95260
2000
η οποία είναι να παίρνεις μόνο μερικές πηγές και να τις διαβάζεις πολύ προσεκτικά.
01:37
This is extremely practical, but not so awesome.
31
97260
2000
Αυτό είναι πολύ πρακτικό αλλά όχι "φανταστικό"
01:39
What you really want to do
32
99260
3000
Αυτό που πραγματικά θέλουμε να κάνουμε
01:42
is to get to the awesome yet practical part of this space.
33
102260
3000
είναι να φτάσουμε στο πρακτικό και "φανταστικό" κομμάτι αυτού του μέρους.
01:45
So it turns out there was a company across the river called Google
34
105260
3000
Λοιπόν, υπάρχει μια εταιρεία στην άλλη μεριά του ποταμού που λέγεται Google™
01:48
who had started a digitization project a few years back
35
108260
2000
η οποία πριν από μερικά χρόνια ξεκίνησε ένα έργο ψηφιοποίησης
01:50
that might just enable this approach.
36
110260
2000
το οποιό θα επέτρεπε αυτή την προσέγγιση.
01:52
They have digitized millions of books.
37
112260
2000
Ψηφιοποίησαν εκατομμύρια βιβλία.
01:54
So what that means is, one could use computational methods
38
114260
3000
Αυτό σημαίνει ότι κάποιος θα μπορούσε να χρησιμοποιήσει υπολογιστικές μεθόδους
01:57
to read all of the books in a click of a button.
39
117260
2000
για να διαβάσει όλα τα βιβλία με το πάτημα ενός κουμπιού.
01:59
That's very practical and extremely awesome.
40
119260
3000
Αυτό είναι πολύ πρακτικό και πάρα πολύ "φανταστικό".
02:03
ELA: Let me tell you a little bit about where books come from.
41
123260
2000
ΕΛΕ: Επιτρέψτε μου να σας μιλήσω λίγο για την προέλευση των βιβλίων.
02:05
Since time immemorial, there have been authors.
42
125260
3000
Οι συγγραφείς υπάρχουν από αμνημονεύτων χρόνων.
02:08
These authors have been striving to write books.
43
128260
3000
Αυτοί οι συγγραφείς προσπαθούσαν να γράψουν βιβλία.
02:11
And this became considerably easier
44
131260
2000
Αυτό έγινε πολύ ευκολότερο
02:13
with the development of the printing press some centuries ago.
45
133260
2000
με την ανακάλυψη της τυπογραφίας πριν από μερικους αιώνες.
02:15
Since then, the authors have won
46
135260
3000
Από τότε οι συγγραφείς κατάφεραν,
02:18
on 129 million distinct occasions,
47
138260
2000
σε 129 εκ. ξεχωριστές περιπτώσεις,
02:20
publishing books.
48
140260
2000
να εκδώσουν βιβλία
02:22
Now if those books are not lost to history,
49
142260
2000
Αν τώρα, αυτά τα βιβλία δεν χάθηκαν κάπου μέσα στην ιστορία,
02:24
then they are somewhere in a library,
50
144260
2000
τότε είναι σε κάποια βιβλιοθήκη
02:26
and many of those books have been getting retrieved from the libraries
51
146260
3000
και πολλά από αυτά τα βιβλία η Google τα πήρε από τη βιβλιοθήκη
02:29
and digitized by Google,
52
149260
2000
και τα ψηφιοποίησε,
02:31
which has scanned 15 million books to date.
53
151260
2000
σαρώνοντας μέχρι σήμερα 15 εκατομμύρια βιβλία.
02:33
Now when Google digitizes a book, they put it into a really nice format.
54
153260
3000
Όταν η Google ψηφιοποιεί ένα βιβλίο, το μετατρέπει σε μια πολύ όμορφη μορφή.
02:36
Now we've got the data, plus we have metadata.
55
156260
2000
Έχουμε τα δεδομένα (data) και τα μεταδεδομένα (metadata)
02:38
We have information about things like where was it published,
56
158260
3000
Έχουμε πληροφορίες για πράγματα όπως, τον τόπο έκδοσης,
02:41
who was the author, when was it published.
57
161260
2000
το συγγραφέα, την ημερομηνία έκδοσης.
02:43
And what we do is go through all of those records
58
163260
3000
Και αυτό που κάνουμε είναι να περνάμε από όλα αυτα τα αρχεία
02:46
and exclude everything that's not the highest quality data.
59
166260
4000
και να αποκλείουμε οποιοδήποτε δεδομένο δεν είναι υψηλής ποιότητας.
02:50
What we're left with
60
170260
2000
Στο τέλος μας μένει
02:52
is a collection of five million books,
61
172260
3000
μια συλλογή από 5 εκατομμύρια βιβλία,
02:55
500 billion words,
62
175260
3000
500 δισεκατομμύρια λέξεις,
02:58
a string of characters a thousand times longer
63
178260
2000
μια αλυσίδα χαρακτήρων χίλιες φορές μεγαλύτερη
03:00
than the human genome --
64
180260
3000
από το ανθρώπινο γονιδίωμα.
03:03
a text which, when written out,
65
183260
2000
Ένα κείμενο το οποίο γραμμένο
03:05
would stretch from here to the Moon and back
66
185260
2000
θα έφτανε από εδώ μέχρι το φεγγάρι και πάλι πίσω
03:07
10 times over --
67
187260
2000
πάνω από 10 φορές --
03:09
a veritable shard of our cultural genome.
68
189260
4000
ένα αληθινό κομμάτι του πολιτιστικού μας γονιδιώματος
03:13
Of course what we did
69
193260
2000
Βέβαια αυτό που κάναμε,
03:15
when faced with such outrageous hyperbole ...
70
195260
3000
όταν βρεθήκαμε αντιμέτωποι με μια τέτοια υπερβολή...
03:18
(Laughter)
71
198260
2000
(Γέλια)
03:20
was what any self-respecting researchers
72
200260
3000
ήταν αυτό που θα έκανε
03:23
would have done.
73
203260
3000
οποιοσδήποτε ερευνητής σέβεται τον εαυτό του
03:26
We took a page out of XKCD,
74
206260
2000
Διαλέξαμε μια σελιδα απο το XKCD,
03:28
and we said, "Stand back.
75
208260
2000
και είπαμε, "Σταθείτε.
03:30
We're going to try science."
76
210260
2000
Θα εφαρμόσουμε επιστήμη."
03:32
(Laughter)
77
212260
2000
(Γέλια)
03:34
JM: Now of course, we were thinking,
78
214260
2000
ΖΜ: Βέβαια, σκεφτήκαμε,
03:36
well let's just first put the data out there
79
216260
2000
ας διαθέσουμε πρώτα τα δεδομένα σε όλους
03:38
for people to do science to it.
80
218260
2000
για να μπορέσουν να τα επεξεργαστούν επιστημονικά.
03:40
Now we're thinking, what data can we release?
81
220260
2000
Μετά σκεφτήκαμε, τι δεδομένα μπορούμε να διαθέσουμε;
03:42
Well of course, you want to take the books
82
222260
2000
Αυτό που θέλεις να κάνεις, είναι να πάρεις τα βιβλία½
03:44
and release the full text of these five million books.
83
224260
2000
και να διαθέσεις το πλήρες κείμενο και των 5 εκ. βιβλίων
03:46
Now Google, and Jon Orwant in particular,
84
226260
2000
Τώρα η Google, και συγκεκριμένα ο Τζον Όργουαντ,
03:48
told us a little equation that we should learn.
85
228260
2000
μας είπαν μια εξίσωση που έπρεπε να μάθουμε.
03:50
So you have five million, that is, five million authors
86
230260
3000
Έχεις 5 εκατομμύρια βιβλία, δηλαδή 5 εκατομμύρια συγγραφείς
03:53
and five million plaintiffs is a massive lawsuit.
87
233260
3000
και 5 εκατομμύρια ενάγοντες που σημαίνει μια τεράστια αγωγή.
03:56
So, although that would be really, really awesome,
88
236260
2000
Έτσι, παρ' ότι αυτό θα ήταν πολύ, μα πολύ "φανταστικό"
03:58
again, that's extremely, extremely impractical.
89
238260
3000
δεν θα ήταν καθόλου μα καθόλου πρακτικό.
04:01
(Laughter)
90
241260
2000
(Γέλια)
04:03
Now again, we kind of caved in,
91
243260
2000
Για άλλη μια φορά βεβαια, σχεδόν υποκύψαμε,
04:05
and we did the very practical approach, which was a bit less awesome.
92
245260
3000
και διαλέξαμε την πολύ πρακτική προσέγγιση, που ήταν λίγο λιγότερο "φανταστική".
04:08
We said, well instead of releasing the full text,
93
248260
2000
Είπαμε ότι αντί να διαθέσουμε το πλήρες κείμενο,
04:10
we're going to release statistics about the books.
94
250260
2000
θα διαθέσουμε στατιστικά για τα βιβλία.
04:12
So take for instance "A gleam of happiness."
95
252260
2000
Έτσι για παράδειγμα, η φράση "A gleam of happiness."
04:14
It's four words; we call that a four-gram.
96
254260
2000
Έχει τέσσερεις λέξεις; το ονομάζουμε τετρ-ακολουθία.
04:16
We're going to tell you how many times a particular four-gram
97
256260
2000
Θα σας πούμε πόσες φορές εμφανίστηκε μια συγκεκριμένη
04:18
appeared in books in 1801, 1802, 1803,
98
258260
2000
τετρ-ακολουθία σε βιβλία το 1801, 1802, 1803,
04:20
all the way up to 2008.
99
260260
2000
μέχρι το 2008.
04:22
That gives us a time series
100
262260
2000
Αυτό μας δίνει ένα χρονικό διάγραμμα
04:24
of how frequently this particular sentence was used over time.
101
264260
2000
για το πόσο συχνά χρησιμοποιήθηκε η συγκεκριμένη πρόταση μέσα στο χρόνο.
04:26
We do that for all the words and phrases that appear in those books,
102
266260
3000
Αυτό το κάνουμε για όλες τις λέξεις και προτάσεις που εμφανίζονταν σε αυτά τα βιβλία,
04:29
and that gives us a big table of two billion lines
103
269260
3000
και αυτό μας δίνει έναν μεγάλο πίνακα 2 δισεκατομμυρίων γραμμών
04:32
that tell us about the way culture has been changing.
104
272260
2000
που μας λέει τον τρόπο που μεταβάλλεται ο πολιτισμός μας.
04:34
ELA: So those two billion lines,
105
274260
2000
EΛΕ: Έτσι αυτές τις 2 δισεκατομμύρια γραμμές,
04:36
we call them two billion n-grams.
106
276260
2000
τις ονομάζουμε 2 δις. ν-ακολουθίες.
04:38
What do they tell us?
107
278260
2000
Τι μας λένε;
04:40
Well the individual n-grams measure cultural trends.
108
280260
2000
Οι μεμονωμένες ν-ακολουθίες μετράνε πολιτιστικές τάσεις.
04:42
Let me give you an example.
109
282260
2000
Ας σας δώσω ένα παράδειγμα.
04:44
Let's suppose that I am thriving,
110
284260
2000
Ας υποθέσουμε ότι σήμερα επιτυγχάνω,
04:46
then tomorrow I want to tell you about how well I did.
111
286260
2000
και αύριο θέλω να σας πω πόσο καλά τα πήγα.
04:48
And so I might say, "Yesterday, I throve."
112
288260
3000
Έτσι μπορώ να πω, "Εχθές, πέτυχα"
04:51
Alternatively, I could say, "Yesterday, I thrived."
113
291260
3000
Ή εναλλακτικά μπορώ να πω, "Εχθές, επέτυχα"
04:54
Well which one should I use?
114
294260
3000
Ποιο πρέπει να χρησιμοποιήσω;
04:57
How to know?
115
297260
2000
Πώς να το ξέρω;
04:59
As of about six months ago,
116
299260
2000
Μέχρι πριν από έξι μήνες
05:01
the state of the art in this field
117
301260
2000
το καλύτερο που θα μπορούσες να κάνεις
05:03
is that you would, for instance,
118
303260
2000
θα ήταν, για παράδειγμα,
05:05
go up to the following psychologist with fabulous hair,
119
305260
2000
να πας στο συγκεκριμένο ψυχολόγο με τα καταπληκτικά μαλλιά,
05:07
and you'd say,
120
307260
2000
και να του πεις,
05:09
"Steve, you're an expert on the irregular verbs.
121
309260
3000
"Στιβ, μιας και είσαι ειδήμων στα ανώμαλα ρήματα.
05:12
What should I do?"
122
312260
2000
τι πρέπει να κάνω;"
05:14
And he'd tell you, "Well most people say thrived,
123
314260
2000
Και αυτός θα σου έλεγε, "Οι περισσότεροι λένε πέτυχα,
05:16
but some people say throve."
124
316260
3000
αλλά μερικοί λένε και επέτυχα."
05:19
And you also knew, more or less,
125
319260
2000
Και επίσης ήξερες, λίγο ή πολύ,
05:21
that if you were to go back in time 200 years
126
321260
3000
ότι αν πας 200 χρόνια πίσω στο χρόνο,
05:24
and ask the following statesman with equally fabulous hair,
127
324260
3000
και ρωτήσεις το συγκεκριμένο πολιτικό με εξίσου καταπληκτικά μαλλιά
05:27
(Laughter)
128
327260
3000
(Γέλια)
05:30
"Tom, what should I say?"
129
330260
2000
"Τομ, τι πρέπει να πω;"
05:32
He'd say, "Well, in my day, most people throve,
130
332260
2000
Θα έλεγε, "Στις μέρες μου, οι περισσότεροι επέτυχαν,
05:34
but some thrived."
131
334260
3000
αλλά κάποιοι πέτυχαν."
05:37
So now what I'm just going to show you is raw data.
132
337260
2000
Οπότε τώρα θα σας δείξω τα ακατέργαστα δεδομένα.
05:39
Two rows from this table of two billion entries.
133
339260
4000
Δύο γραμμές από τον πίνακα των 2 δις. γραμμών.
05:43
What you're seeing is year by year frequency
134
343260
2000
Αυτό που βλέπετε είναι η συχνότητα ανά χρόνο που εμφανίζεται
05:45
of "thrived" and "throve" over time.
135
345260
3000
το "πέτυχα" (thrived) και το "επέτυχα" (throve)
05:49
Now this is just two
136
349260
2000
Αυτές είναι μόνο δύο
05:51
out of two billion rows.
137
351260
3000
από τις 2 δις. γραμμές.
05:54
So the entire data set
138
354260
2000
Έτσι το σύνολο των δεδομένων
05:56
is a billion times more awesome than this slide.
139
356260
3000
είναι ένα δις. φορές πιο "φανταστικό" από αυτό το γράφημα.
05:59
(Laughter)
140
359260
2000
(Γέλια)
06:01
(Applause)
141
361260
4000
(Χειροκρότημα)
06:05
JM: Now there are many other pictures that are worth 500 billion words.
142
365260
2000
ΖΜ: Τώρα, υπάρχουν πολλές άλλες φωτογραφίες που αξίζουν 500 δις. λέξεις.
06:07
For instance, this one.
143
367260
2000
Για παράδειγμα, αυτή.
06:09
If you just take influenza,
144
369260
2000
Αν για παράδειγμα δείτε τη λέξη "γρίπη",
06:11
you will see peaks at the time where you knew
145
371260
2000
θα δείτε ότι κορυφώνεται την περίοδο
06:13
big flu epidemics were killing people around the globe.
146
373260
3000
όπου οι μεγάλες επιδημίες της γρίπης, σκότωναν ανθρώπους ανά τον κόσμο
06:16
ELA: If you were not yet convinced,
147
376260
3000
EΛΕ: Αν δεν έχετε πεισθεί ακόμα,
06:19
sea levels are rising,
148
379260
2000
η στάθμη της θάλασσας ανεβαίνει,
06:21
so is atmospheric CO2 and global temperature.
149
381260
3000
όπως και το ατμοσφαιρικό διοξείδιο του άνθρακα και η παγκόσμια θερμοκρασία.
06:24
JM: You might also want to have a look at this particular n-gram,
150
384260
3000
ΖΜ: Ίσως θα θέλατε να κοιτάξετε και αυτή τη συγκεκριμένη ν-ακολουθία,
06:27
and that's to tell Nietzsche that God is not dead,
151
387260
3000
και αυτό για να πείτε στο Νίτσε ότι ο Θεός δεν έχει πεθάνει,
06:30
although you might agree that he might need a better publicist.
152
390260
3000
παρ' ότι μπορεί να συμφωνήσετε ότι θα χρειαζόταν έναν καλύτερο εκδότη.
06:33
(Laughter)
153
393260
2000
(Γέλια)
06:35
ELA: You can get at some pretty abstract concepts with this sort of thing.
154
395260
3000
EΛΕ: Μπορείς να καταλήξεις σε πολύ αφηρημένες έννοιες με αυτή τη μέθοδο.
06:38
For instance, let me tell you the history
155
398260
2000
Για παράδειγμα, να σας διηγηθώ την ιστορία
06:40
of the year 1950.
156
400260
2000
του έτους 1950.
06:42
Pretty much for the vast majority of history,
157
402260
2000
Για το μεγαλύτερο διάστημα της παγκόσμιας ιστορίας,
06:44
no one gave a damn about 1950.
158
404260
2000
κανείς δεν νοιάστηκε για το 1950.
06:46
In 1700, in 1800, in 1900,
159
406260
2000
Το 1700, το 1800, το 1900,
06:48
no one cared.
160
408260
3000
κανείς δεν νοιάστηκε.
06:52
Through the 30s and 40s,
161
412260
2000
Τις δεκαετίες του '30 και του '40
06:54
no one cared.
162
414260
2000
κανείς δεν νοιάστηκε.
06:56
Suddenly, in the mid-40s,
163
416260
2000
Ξαφνικά, στα μέσα της δεκαετίας του '40
06:58
there started to be a buzz.
164
418260
2000
άρχισε να δημιουργείται ένας θόρυβος.
07:00
People realized that 1950 was going to happen,
165
420260
2000
Οι άνθρωποι άρχισαν να πιστεύουν ότι το 1950 θα ερχόταν,
07:02
and it could be big.
166
422260
2000
και θα μπορούσε να είναι σημαντικό.
07:04
(Laughter)
167
424260
3000
(Γέλια)
07:07
But nothing got people interested in 1950
168
427260
3000
Αλλά τίποτα δεν απασχόλησε τους ανθρώπους για το 1950
07:10
like the year 1950.
169
430260
3000
περισσότερο απο το έτος 1950.
07:13
(Laughter)
170
433260
3000
(Γέλια)
07:16
People were walking around obsessed.
171
436260
2000
Είχε γίνει πλέον εμμονή.
07:18
They couldn't stop talking
172
438260
2000
Δεν μπορούσαν να σταματήσουν να μιλάνε
07:20
about all the things they did in 1950,
173
440260
3000
για όλα τα πράγματα που έκαναν το 1950,
07:23
all the things they were planning to do in 1950,
174
443260
3000
όλα τα πράγματα που σκόπευαν να κάνουν το 1950,
07:26
all the dreams of what they wanted to accomplish in 1950.
175
446260
5000
όλα τα όνειρα που ήθελαν να πραγματοποιήσουν το 1950.
07:31
In fact, 1950 was so fascinating
176
451260
2000
Στην πραγματικότητα το έτος 1950 ήταν τόσο συναρπαστικό,
07:33
that for years thereafter,
177
453260
2000
που για χρόνια αργότερα,
07:35
people just kept talking about all the amazing things that happened,
178
455260
3000
οι άνθρωποι συνέχισαν να μιλάνε για τα εκπληκτικά πράγματα που συνέβησαν,
07:38
in '51, '52, '53.
179
458260
2000
το '51, '52, '53.
07:40
Finally in 1954,
180
460260
2000
Ξαφνικά το 1954,
07:42
someone woke up and realized
181
462260
2000
κάποιος ξύπνησε και συνειδητοποίησε
07:44
that 1950 had gotten somewhat passé.
182
464260
4000
ότι το 1950 με κάποιο τρόπο... είχε ξεπεραστεί.
07:48
(Laughter)
183
468260
2000
(Γέλια)
07:50
And just like that, the bubble burst.
184
470260
2000
Και κάπως έτσι, έσκασε η φούσκα.
07:52
(Laughter)
185
472260
2000
(Γέλια)
07:54
And the story of 1950
186
474260
2000
Και η ιστορία του 1950,
07:56
is the story of every year that we have on record,
187
476260
2000
είναι η ιστορία κάθε χρόνου που έχουμε καταγράψει,
07:58
with a little twist, because now we've got these nice charts.
188
478260
3000
με μικρές αλλαγές, αφού πλέον έχουμε αυτά τα όμορφα γραφήματα.
08:01
And because we have these nice charts, we can measure things.
189
481260
3000
Και επειδή έχουμε αυτά τα όμορφα γραφήματα, μπορούμε πλέον να μετρήσουμε.
08:04
We can say, "Well how fast does the bubble burst?"
190
484260
2000
Μπορούμε να αναρωτηθούμε, "Πόσο γρήγορα σκάει η φούσκα?"
08:06
And it turns out that we can measure that very precisely.
191
486260
3000
Και φαίνεται ότι μπορούμε να το μετρήσουμε με μεγάλη ακρίβεια.
08:09
Equations were derived, graphs were produced,
192
489260
3000
Ανακαλύψαμε εξισώσεις, παρήγαμε γραφήματα,
08:12
and the net result
193
492260
2000
και το καθαρό αποτέλεσμα ήταν
08:14
is that we find that the bubble bursts faster and faster
194
494260
3000
ότι η φούσκα σκάει όλο και γρηγορότερα
08:17
with each passing year.
195
497260
2000
χρόνο με τον χρόνο.
08:19
We are losing interest in the past more rapidly.
196
499260
5000
Χάνουμε το ενδιαφέρον μας για το παρελθόν όλο και πιο γρήγορα.
08:24
JM: Now a little piece of career advice.
197
504260
2000
ΖM: Και τώρα μια μικρή επαγγελματική συμβουλή.
08:26
So for those of you who seek to be famous,
198
506260
2000
Για εσάς που θέλετε να γίνεται διάσημοι,
08:28
we can learn from the 25 most famous political figures,
199
508260
2000
μπορείτε να συμβουλευθείτε τους 25 πιο διάσημους πολιτικούς,
08:30
authors, actors and so on.
200
510260
2000
συγγραφείς, ηθοποιούς, κλπ.
08:32
So if you want to become famous early on, you should be an actor,
201
512260
3000
Έτσι αν θέλετε να γίνετε γρήγορα διάσημος, θα πρέπει να γίνετε ηθοποιός
08:35
because then fame starts rising by the end of your 20s --
202
515260
2000
γιατί η φήμη αρχίζει να ανεβαίνει μέχρι το τέλος των 20 --
08:37
you're still young, it's really great.
203
517260
2000
είστε ακόμα νέος και είναι καταπληκτικά.
08:39
Now if you can wait a little bit, you should be an author,
204
519260
2000
Τώρα, αν μπορείτε να περιμένετε λίγο, θα πρέπει να γίνετε συγγραφέας,
08:41
because then you rise to very great heights,
205
521260
2000
γιατί μετά γίνεστε πολύ διάσημος,
08:43
like Mark Twain, for instance: extremely famous.
206
523260
2000
σαν τον Μαρκ Τουέϊν, για παράδειγμα, πολύ διάσημος.
08:45
But if you want to reach the very top,
207
525260
2000
Αλλά αν θέλετε να φτάσετε στην κορυφή
08:47
you should delay gratification
208
527260
2000
θα πρέπει να καθυστερήσετε την ικανοποίηση
08:49
and, of course, become a politician.
209
529260
2000
και φυσικά να γίνετε πολιτικός.
08:51
So here you will become famous by the end of your 50s,
210
531260
2000
Έτσι θα γίνετε διάσημος μέχρι το τέλος των 50,
08:53
and become very, very famous afterward.
211
533260
2000
και θα γίνετε πολύ, πολύ διάσημος αργότερα.
08:55
So scientists also tend to get famous when they're much older.
212
535260
3000
Επίσης οι επιστήμονες τείνουν να γίνονται διάσημοι όταν είναι πολύ μεγαλύτεροι.
08:58
Like for instance, biologists and physics
213
538260
2000
Για παράδειγμα οι βιολόγοι και οι φυσικοί,
09:00
tend to be almost as famous as actors.
214
540260
2000
τείνουν να γίνονται σχεδόν όσο διάσημοι και οι ηθοποιοί.
09:02
One mistake you should not do is become a mathematician.
215
542260
3000
Ένα λάθος που δεν πρέπει να κάνετε είναι να γίνετε μαθηματικός.
09:05
(Laughter)
216
545260
2000
(Γέλια)
09:07
If you do that,
217
547260
2000
Αν το κάνετε αυτό,
09:09
you might think, "Oh great. I'm going to do my best work when I'm in my 20s."
218
549260
3000
θα πρέπει να σκεφθείτε, "Ωραία, θα κάνω την καλύτερή μου δουλειά στα 20 μου."
09:12
But guess what, nobody will really care.
219
552260
2000
Αλλά μαντέψτε! Δεν θα νοιάζει κανέναν.
09:14
(Laughter)
220
554260
3000
(Γέλια)
09:17
ELA: There are more sobering notes
221
557260
2000
EΛΕ: Υπάρχουν, όμως και πιο απογοητευτικά στοιχεία
09:19
among the n-grams.
222
559260
2000
στις n-ακολουθίες (n-grams).
09:21
For instance, here's the trajectory of Marc Chagall,
223
561260
2000
Για παράδειγμα αυτό είναι το γράφημα του Μαρκ Σαγκάλ,
09:23
an artist born in 1887.
224
563260
2000
ενός καλλιτέχνη γεννημένου το 1887.
09:25
And this looks like the normal trajectory of a famous person.
225
565260
3000
Και φαίνεται σαν ένα συνηθισμένο γράφημα διάσημου ανθρώπου.
09:28
He gets more and more and more famous,
226
568260
4000
Γίνετε όλο και όλο πιο διάσημος,
09:32
except if you look in German.
227
572260
2000
εκτός αν κοιτάξεις τα Γερμανικά.
09:34
If you look in German, you see something completely bizarre,
228
574260
2000
Αν κοιτάξεις τα Γερμανικά, βλέπεις κάτι πολύ περίεργο,
09:36
something you pretty much never see,
229
576260
2000
κάτι που δεν βλέπεις σχεδόν ποτέ,
09:38
which is he becomes extremely famous
230
578260
2000
το οποίο είναι ότι γίνεται υπερβολικά διάσημος,
09:40
and then all of a sudden plummets,
231
580260
2000
και μετά ξαφνικά πέφτει,
09:42
going through a nadir between 1933 and 1945,
232
582260
3000
βρισκόμενος στο ναδίρ μεταξύ 1933 και 1945,
09:45
before rebounding afterward.
233
585260
3000
λίγο πριν ανακάμψει αμέσως μετά.
09:48
And of course, what we're seeing
234
588260
2000
Και φυσικά, αυτο που βλεπουμε,
09:50
is the fact Marc Chagall was a Jewish artist
235
590260
3000
είναι ότι ο Μαρκ Σαγκάλ ήταν ένας Εβραίος καλλιτέχνης
09:53
in Nazi Germany.
236
593260
2000
στην ναζιστική Γερμανία.
09:55
Now these signals
237
595260
2000
Αυτά τα τρία σημάδια
09:57
are actually so strong
238
597260
2000
είναι τόσο δυνατά
09:59
that we don't need to know that someone was censored.
239
599260
3000
που δεν χρειάζεται καν να ξέρουμε ότι κάποιος λογοκρίθηκε.
10:02
We can actually figure it out
240
602260
2000
Μπορούμε να το συμπεράνουμε
10:04
using really basic signal processing.
241
604260
2000
επεξεργαζόμενοι πολύ βασικα σήματα.
10:06
Here's a simple way to do it.
242
606260
2000
Να ένας απλός τρόπος.
10:08
Well, a reasonable expectation
243
608260
2000
Μια λογική προσδοκία είναι ότι
10:10
is that somebody's fame in a given period of time
244
610260
2000
η φήμη κάποιου σε μια δεδομένη στιγμή
10:12
should be roughly the average of their fame before
245
612260
2000
πρέπει να είναι ο μέσος όρος της φήμης του πριν
10:14
and their fame after.
246
614260
2000
και της φήμης του μετά.
10:16
So that's sort of what we expect.
247
616260
2000
Οπότε περιμένουμε περίπου αυτό.
10:18
And we compare that to the fame that we observe.
248
618260
3000
Και το συγκρίνουμε με τη φήμη που παρατηρούμε.
10:21
And we just divide one by the other
249
621260
2000
Και απλά διαιρούμε το ένα με το άλλο
10:23
to produce something we call a suppression index.
250
623260
2000
για να πάρουμε κάτι που το αποκαλούμε συντελεστή καταστολής.
10:25
If the suppression index is very, very, very small,
251
625260
3000
Αν ο συντελεστής καταστολής είναι πολύ, πολύ μικρος
10:28
then you very well might be being suppressed.
252
628260
2000
τότε πιθανότατα έχετε δεχθεί καταστολή.
10:30
If it's very large, maybe you're benefiting from propaganda.
253
630260
3000
Αν είναι πολύ μεγάλος, τότε μάλλον έχετε επωφεληθεί από προπαγάνδα.
10:34
JM: Now you can actually look at
254
634260
2000
ΖΜ: Τώρα μπορείτε να δείτε
10:36
the distribution of suppression indexes over whole populations.
255
636260
3000
την κατανομή συντελεστών καταστολής σε ολόκληρους πληθυσμούς.
10:39
So for instance, here --
256
639260
2000
Για παράδειγμα, εδώ --
10:41
this suppression index is for 5,000 people
257
641260
2000
αυτός ο συντελεστής καταστολής είναι για 5.000 ανθρώπους
10:43
picked in English books where there's no known suppression --
258
643260
2000
που διαλέχθηκαν από Αγγλικά βιβλία όπου δεν υπάρχει κάποιου είδους καταστολή --
10:45
it would be like this, basically tightly centered on one.
259
645260
2000
θα ήταν έτσι, βασικά πιο επικεντρωμένο στο ένα.
10:47
What you expect is basically what you observe.
260
647260
2000
Αυτό που περιμένεις βασικά, είναι αυτό που παρατηρείς.
10:49
This is distribution as seen in Germany --
261
649260
2000
Αυτή είναι η κατανομή στη Γερμανία --
10:51
very different, it's shifted to the left.
262
651260
2000
πολύ διαφορετική, έχει μετακινηθεί αριστερά.
10:53
People talked about it twice less as it should have been.
263
653260
3000
Οι άνθρωποι μιλάνε δύο φορές λιγότερο γι' αυτό απ' ότι θα έπρεπε.
10:56
But much more importantly, the distribution is much wider.
264
656260
2000
Αλλά ακόμα πιο σημαντικό είναι ότι η κατανομή είναι πολύ πλατύτερη.
10:58
There are many people who end up on the far left on this distribution
265
658260
3000
Υπάρχουν πολλοί άνθρωποι που καταλήγουν τέρμα αριστερά στην κατανομή
11:01
who are talked about 10 times fewer than they should have been.
266
661260
3000
που αναφέρονται 10 φορές λιγότερο απ' ό,τι θα έπρεπε.
11:04
But then also many people on the far right
267
664260
2000
Αλλά επίσης και πολύ άνθρωποι τέρμα δεξιά
11:06
who seem to benefit from propaganda.
268
666260
2000
που φαίνεται να ευνοούνται από την προπαγάνδα.
11:08
This picture is the hallmark of censorship in the book record.
269
668260
3000
Αυτή η εικόνα είναι το σήμα κατατεθέν της λογοκρισίας στα βιβλία.
11:11
ELA: So culturomics
270
671260
2000
ΕΛΕ: Οπότε, ονομάζουμε αυτή τη μέθοδο
11:13
is what we call this method.
271
673260
2000
"πολιτιστικο-ματική" (culturomics).
11:15
It's kind of like genomics.
272
675260
2000
Είναι σαν τη γονιδιωματική.
11:17
Except genomics is a lens on biology
273
677260
2000
Εκτός του ότι η γονιδιωματική είναι μια ματιά στη βιολογία
11:19
through the window of the sequence of bases in the human genome.
274
679260
3000
μέσα από το φακό της συχνότητας βάσης στο ανθρώπινο γονιδίωμα.
11:22
Culturomics is similar.
275
682260
2000
Η "Πολιτιστικο-ματική" (culturomics) είναι παρόμοια.
11:24
It's the application of massive-scale data collection analysis
276
684260
3000
Είναι η εφαρμογή ανάλυσης σε συλλογές δεδομένων τεραστίων διαστάσεων
11:27
to the study of human culture.
277
687260
2000
για τη μελέτη του ανθρώπινου πολιτισμού.
11:29
Here, instead of through the lens of a genome,
278
689260
2000
Εδώ αντί να κοιτάμε μέσα από τον φακό του γονιδιώματος
11:31
through the lens of digitized pieces of the historical record.
279
691260
3000
κοιτάμε μέσα απο τον φακό ψηφιοποιημένων κομματιών των καταγραφών της ιστορίας.
11:34
The great thing about culturomics
280
694260
2000
Το καλό με την "Πολιτιστικο-ματική" (culturomics)
11:36
is that everyone can do it.
281
696260
2000
είναι οτι όλοι μπορούν να το κάνουν.
11:38
Why can everyone do it?
282
698260
2000
Γιατί μπορούν όλοι να το κάνουν;
11:40
Everyone can do it because three guys,
283
700260
2000
Όλοι μπορούν να το κάνουν, επειδή αυτοί οι τρεις τύποι,
11:42
Jon Orwant, Matt Gray and Will Brockman over at Google,
284
702260
3000
ο Τζον Όρουαντ, ο Ματ Γκρέι και ο Ουίλ Μπρόκμαν στην Google,
11:45
saw the prototype of the Ngram Viewer,
285
705260
2000
είδαν το πρωτότυπο του "προβολέα ν-ακολουθιών" (n-gram Viewer)
11:47
and they said, "This is so fun.
286
707260
2000
και είπαν. "Αυτό είναι πολύ διασκεδαστικό.
11:49
We have to make this available for people."
287
709260
3000
Πρέπει να το κάνουμε διαθέσιμο σε όλους."
11:52
So in two weeks flat -- the two weeks before our paper came out --
288
712260
2000
Έτσι μέσα σε μόλις δύο εβδομάδες -- δυο εβδομάδες πριν δημοσιευθεί η εργασία μας --
11:54
they coded up a version of the Ngram Viewer for the general public.
289
714260
3000
κατάφεραν να κρυπτογραφήσουν μια έκδοση του "προβολέα ν-ακολουθιών" (n-gram Viewer) για το κοινό.
11:57
And so you too can type in any word or phrase that you're interested in
290
717260
3000
Κι έτσι μπορείτε να γράψετε οποιαδήποτε λέξη ή πρόταση θέλετε
12:00
and see its n-gram immediately --
291
720260
2000
και να δείτε την ν-ακολουθία της (n-gram) αμέσως --
12:02
also browse examples of all the various books
292
722260
2000
Επίσης μπορείτε να αναζητήσετε παραδείγματα από τα διάφορα βιβλία
12:04
in which your n-gram appears.
293
724260
2000
οπού η ν-ακολουθιά σας (n-gram) εμφανίζεται.
12:06
JM: Now this was used over a million times on the first day,
294
726260
2000
JM: Αυτό χρησιμοποιήθηκε πάνω απο 1 εκ. φορες την πρώτη μέρα,
12:08
and this is really the best of all the queries.
295
728260
2000
και αυτή είναι η καλύτερη ερώτηση.
12:10
So people want to be their best, put their best foot forward.
296
730260
3000
Οι άνθρωποι θέλουν να προσπαθούν, συνέχεια για το καλύτερο.
12:13
But it turns out in the 18th century, people didn't really care about that at all.
297
733260
3000
Απ' ότι φαίνετε όμως, οι άνθρωποι τον 18ο αιώνα δεν ενδιαφερόντουσαν πολύ γι' αυτό.
12:16
They didn't want to be their best, they wanted to be their beft.
298
736260
3000
Απ' ότι φαίνετε δεν ήθελαν να "προσπαθούν" (best), αλλά να "προσψαθούν" (beft)
12:19
So what happened is, of course, this is just a mistake.
299
739260
3000
Βέβαια, αυτό που έγινε είναι απλά ένα λάθος.
12:22
It's not that strove for mediocrity,
300
742260
2000
Δεν ήταν αγώνας για τη μετριότητα.
12:24
it's just that the S used to be written differently, kind of like an F.
301
744260
3000
απλά τότε το "π" (s) γραφότανε αλλιώς, κάπως σας "ψ" (f).
12:27
Now of course, Google didn't pick this up at the time,
302
747260
3000
Βέβαια η Google, δεν το εντόπισε τότε
12:30
so we reported this in the science article that we wrote.
303
750260
3000
όποτε το αναφέραμε στο επιστημονικό άρθρο που δημοσιεύσαμε.
12:33
But it turns out this is just a reminder
304
753260
2000
Αλλά απ' ότι φαίνεται αυτό είναι μόνο μια υπενθύμιση
12:35
that, although this is a lot of fun,
305
755260
2000
οτι παρ' οτι είναι πολύ διασκεδαστικό,
12:37
when you interpret these graphs, you have to be very careful,
306
757260
2000
όταν ερμηνεύεις τα γραφήματα θα πρέπει να είσαι πολύ προσεκτικός
12:39
and you have to adopt the base standards in the sciences.
307
759260
3000
και να υιοθετείς τις βασικές αρχές των επιστημών.
12:42
ELA: People have been using this for all kinds of fun purposes.
308
762260
3000
ΕΛΕ: Οι άνθρωποι το χρησιμοποιούν για πολύ διασκεδαστικούς σκοπούς.
12:45
(Laughter)
309
765260
7000
(Γέλια)
12:52
Actually, we're not going to have to talk,
310
772260
2000
Βασικά θα σταματήσουμε να μιλάμε,
12:54
we're just going to show you all the slides and remain silent.
311
774260
3000
και θα σας δείξουμε την υπόλοιπη παρουσίαση σιωπηλοί.
12:57
This person was interested in the history of frustration.
312
777260
3000
Αυτός ο άνθρωπος ενδιαφερόταν για την ιστορία του εκνευρισμού.
13:00
There's various types of frustration.
313
780260
3000
Υπάρχουν πολλοί τύποι εκνευρισμού.
13:03
If you stub your toe, that's a one A "argh."
314
783260
3000
Άμα στραμπουλήξεις το δάχτυλό σου, υπάρχει ένα "argh" με μόνο ένα "α".
13:06
If the planet Earth is annihilated by the Vogons
315
786260
2000
Αν ο πλανήτης Γη εξολοθρευτεί από εξωγήινους
13:08
to make room for an interstellar bypass,
316
788260
2000
για να κάνουν χώρο, για κάποιο διαστρικό ταξίδι,
13:10
that's an eight A "aaaaaaaargh."
317
790260
2000
αυτό είναι "aaaaaaaargh" με οχτώ "α."
13:12
This person studies all the "arghs,"
318
792260
2000
Αυτός ο άνθρωπος μελετάει τα διάφορα "arghs"
13:14
from one through eight A's.
319
794260
2000
από ένα μέχρι οχτώ "α".
13:16
And it turns out
320
796260
2000
Και απ' ότι φαίνεται
13:18
that the less-frequent "arghs"
321
798260
2000
τα λιγότερο συχνά "arghs"
13:20
are, of course, the ones that correspond to things that are more frustrating --
322
800260
3000
είναι αυτά που αντιστοιχούν σε περισσότερο εκνευρισμό --
13:23
except, oddly, in the early 80s.
323
803260
3000
εκτός, παραδόξως, από τις αρχές της δεκαετίας του '80.
13:26
We think that might have something to do with Reagan.
324
806260
2000
Πιστεύουμε πως αυτό έχει κάποια σχέση με τον Ρόναλντ Ρήγκαν
13:28
(Laughter)
325
808260
2000
(Γέλια)
13:30
JM: There are many usages of this data,
326
810260
3000
ΖΜ: Υπάρχουν πολλές χρήσεις για αυτά τα δεδομένα,
13:33
but the bottom line is that the historical record is being digitized.
327
813260
3000
αλλά η ουσία είναι ότι ψηφιοποιείται το ιστορικό μητρώο.
13:36
Google has started to digitize 15 million books.
328
816260
2000
Η Google έχει ψηφιοποιήσει 15 εκ. βιβλία.
13:38
That's 12 percent of all the books that have ever been published.
329
818260
2000
Αυτό είναι το 12% όλων των βιβλίων που έχουν ποτέ εκδοθεί.
13:40
It's a sizable chunk of human culture.
330
820260
3000
Είναι ένα μεγάλο κομμάτι του ανθρώπινου πολιτισμού.
13:43
There's much more in culture: there's manuscripts, there newspapers,
331
823260
3000
Υπάρχουν πολλά περισσότερα στον πολιτισμό: υπάρχουν χειρόγραφα, εφημερίδες,
13:46
there's things that are not text, like art and paintings.
332
826260
2000
υπάρχουν πράγματα που δεν είναι κείμενο, όπως τέχνη και πίνακες.
13:48
These all happen to be on our computers,
333
828260
2000
Όλα αυτά τυχαίνει να είναι στους υπολογιστές μας,
13:50
on computers across the world.
334
830260
2000
σε υπολογιστές σε όλο το κόσμο.
13:52
And when that happens, that will transform the way we have
335
832260
3000
Και όταν αυτό συμβεί, θα αλλάξει τον τρόπο που αντιλαμβανόμαστε
13:55
to understand our past, our present and human culture.
336
835260
2000
το παρελθόν μας, το παρόν μας και τον ανθρώπινο πολιτισμό.
13:57
Thank you very much.
337
837260
2000
Ευχαριστούμε πολύ.
13:59
(Applause)
338
839260
3000
(Χειροκρότημα)
Σχετικά με αυτόν τον ιστότοπο

Αυτός ο ιστότοπος θα σας παρουσιάσει βίντεο στο YouTube που είναι χρήσιμα για την εκμάθηση της αγγλικής γλώσσας. Θα δείτε μαθήματα αγγλικών που διδάσκουν κορυφαίοι καθηγητές από όλο τον κόσμο. Κάντε διπλό κλικ στους αγγλικούς υπότιτλους που εμφανίζονται σε κάθε σελίδα βίντεο για να αναπαράγετε το βίντεο από εκεί. Οι υπότιτλοι μετακινούνται συγχρονισμένα με την αναπαραγωγή του βίντεο. Εάν έχετε οποιαδήποτε σχόλια ή αιτήματα, παρακαλούμε επικοινωνήστε μαζί μας χρησιμοποιώντας αυτή τη φόρμα επικοινωνίας.

https://forms.gle/WvT1wiN1qDtmnspy7