What we learned from 5 million books

236,154 views ・ 2011-09-20

TED


Dubbelklik op de Engelse ondertitels hieronder om de video af te spelen.

Vertaald door: Axel Saffran Nagekeken door: Els De Keyser
00:15
Erez Lieberman Aiden: Everyone knows
0
15260
2000
Erez Lieberman Aiden: Iedereen weet
00:17
that a picture is worth a thousand words.
1
17260
3000
dat één beeld meer zegt dan 1000 woorden.
00:22
But we at Harvard
2
22260
2000
Maar wij in Harvard
00:24
were wondering if this was really true.
3
24260
3000
vroegen ons af of dit wel echt klopte.
00:27
(Laughter)
4
27260
2000
(Gelach)
00:29
So we assembled a team of experts,
5
29260
4000
Dus verzamelden we een team van experts,
00:33
spanning Harvard, MIT,
6
33260
2000
van Harvard, MIT,
00:35
The American Heritage Dictionary, The Encyclopedia Britannica
7
35260
3000
The American Heritage Dictionary, The Encyclopedia Britannica
00:38
and even our proud sponsors,
8
38260
2000
en zelfs onze trotse sponsors,
00:40
the Google.
9
40260
3000
The Google.
00:43
And we cogitated about this
10
43260
2000
We overpeinsden dit
00:45
for about four years.
11
45260
2000
gedurende vier jaar.
00:47
And we came to a startling conclusion.
12
47260
5000
We kwamen tot een verrassende conclusie.
00:52
Ladies and gentlemen, a picture is not worth a thousand words.
13
52260
3000
Dames en heren, een beeld is niet alleen meer waard dan 1000 woorden.
00:55
In fact, we found some pictures
14
55260
2000
Wij hebben beelden gevonden
00:57
that are worth 500 billion words.
15
57260
5000
die 500 miljard woorden waard zijn.
01:02
Jean-Baptiste Michel: So how did we get to this conclusion?
16
62260
2000
Jean-Baptiste Michel: Hoe kwamen we tot deze conclusie?
01:04
So Erez and I were thinking about ways
17
64260
2000
Erez en ik dachten na hoe we een overzicht
01:06
to get a big picture of human culture
18
66260
2000
konden krijgen van onze cultuur
01:08
and human history: change over time.
19
68260
3000
en geschiedenis: de verandering door de tijd.
01:11
So many books actually have been written over the years.
20
71260
2000
Er zijn vele boeken geschreven over de jaren.
01:13
So we were thinking, well the best way to learn from them
21
73260
2000
Dus dachten we: de beste manier om ervan te leren
01:15
is to read all of these millions of books.
22
75260
2000
is die miljoenen boeken allemaal te lezen.
01:17
Now of course, if there's a scale for how awesome that is,
23
77260
3000
Op de schaal van hoe vet dat is,
01:20
that has to rank extremely, extremely high.
24
80260
3000
zou dit extreem hoog scoren.
01:23
Now the problem is there's an X-axis for that,
25
83260
2000
Het probleem is de X-as hiervan,
01:25
which is the practical axis.
26
85260
2000
hetgeen de praktische as is.
01:27
This is very, very low.
27
87260
2000
Die is bijzonder laag.
01:29
(Applause)
28
89260
3000
(Applaus)
01:32
Now people tend to use an alternative approach,
29
92260
3000
Mensen kiezen meestal voor een alternatieve aanpak,
01:35
which is to take a few sources and read them very carefully.
30
95260
2000
namelijk: enkele bronnen zeer grondig lezen.
01:37
This is extremely practical, but not so awesome.
31
97260
2000
Dat is zeer praktisch, maar niet zo vet.
01:39
What you really want to do
32
99260
3000
Wat je zou willen, is in het
01:42
is to get to the awesome yet practical part of this space.
33
102260
3000
vette en toch praktische deel van dit vlak belanden.
01:45
So it turns out there was a company across the river called Google
34
105260
3000
Nu zat er vlakbij een bedrijf genaamd Google
01:48
who had started a digitization project a few years back
35
108260
2000
dat een digitalisatieproject was begonnen
01:50
that might just enable this approach.
36
110260
2000
dat dit wellicht mogelijk kon maken.
01:52
They have digitized millions of books.
37
112260
2000
Ze hebben miljoenen boeken gedigitaliseerd.
01:54
So what that means is, one could use computational methods
38
114260
3000
Dit betekent dat je rekenkundige methoden kunt gebruiken
01:57
to read all of the books in a click of a button.
39
117260
2000
om al deze boeken te lezen met één muisklik.
01:59
That's very practical and extremely awesome.
40
119260
3000
Dat is zeer praktisch en extreem vet.
02:03
ELA: Let me tell you a little bit about where books come from.
41
123260
2000
ELA: Ik zal even vertellen waar boeken vandaan komen.
02:05
Since time immemorial, there have been authors.
42
125260
3000
Sinds mensenheugenis zijn er schrijvers geweest.
02:08
These authors have been striving to write books.
43
128260
3000
Deze schrijvers streefden ernaar boeken te schrijven.
02:11
And this became considerably easier
44
131260
2000
Dit werd aanzienlijk vergemakkelijkt
02:13
with the development of the printing press some centuries ago.
45
133260
2000
door de komst van drukpers, enkele eeuwen geleden.
02:15
Since then, the authors have won
46
135260
3000
Sindsdien is het deze schrijvers
02:18
on 129 million distinct occasions,
47
138260
2000
129 miljoen maal gelukt
02:20
publishing books.
48
140260
2000
een boek te publiceren.
02:22
Now if those books are not lost to history,
49
142260
2000
Als deze boeken niet verloren zijn gegaan,
02:24
then they are somewhere in a library,
50
144260
2000
staan ze ergens in een bibliotheek,
02:26
and many of those books have been getting retrieved from the libraries
51
146260
3000
en veel van die boeken zijn uit bibliotheken gehaald
02:29
and digitized by Google,
52
149260
2000
en gedigitaliseerd door Google,
02:31
which has scanned 15 million books to date.
53
151260
2000
dat tot op heden 15 miljoen boeken heeft gescand.
02:33
Now when Google digitizes a book, they put it into a really nice format.
54
153260
3000
Google digitaliseert boeken tot een heel mooi formaat.
02:36
Now we've got the data, plus we have metadata.
55
156260
2000
We hebben de data, plus meta-data.
02:38
We have information about things like where was it published,
56
158260
3000
We hebben informatie over waar het gepubliceerd was,
02:41
who was the author, when was it published.
57
161260
2000
wie de auteur was, wanneer het uitkwam.
02:43
And what we do is go through all of those records
58
163260
3000
Wij gaan door al die documenten heen
02:46
and exclude everything that's not the highest quality data.
59
166260
4000
en sluiten alles uit wat niet van de hoogste kwaliteit is.
02:50
What we're left with
60
170260
2000
Wat we dan overhouden,
02:52
is a collection of five million books,
61
172260
3000
is een collectie van 5 miljoen boeken,
02:55
500 billion words,
62
175260
3000
500 miljard woorden,
02:58
a string of characters a thousand times longer
63
178260
2000
een rij letters duizend maal langer
03:00
than the human genome --
64
180260
3000
dan het menselijk genoom --
03:03
a text which, when written out,
65
183260
2000
een tekst die, uitgeschreven,
03:05
would stretch from here to the Moon and back
66
185260
2000
10 maal tot de maan
03:07
10 times over --
67
187260
2000
en terug zou reiken --
03:09
a veritable shard of our cultural genome.
68
189260
4000
een waarachtige scherf van ons culturele genoom.
03:13
Of course what we did
69
193260
2000
Wat we uiteraard deden
03:15
when faced with such outrageous hyperbole ...
70
195260
3000
ten overstaan van zulk buitensporig hyperbool ...
03:18
(Laughter)
71
198260
2000
(Gelach)
03:20
was what any self-respecting researchers
72
200260
3000
was wat ieder zichzelf respecterend onderzoeker
03:23
would have done.
73
203260
3000
gedaan zou hebben.
03:26
We took a page out of XKCD,
74
206260
2000
We namen een pagina uit XKDC,
03:28
and we said, "Stand back.
75
208260
2000
en zeiden: "Pas op!
03:30
We're going to try science."
76
210260
2000
We gaan een poging tot wetenschap doen."
03:32
(Laughter)
77
212260
2000
(Gelach)
03:34
JM: Now of course, we were thinking,
78
214260
2000
JM: Natuurlijk dachten we:
03:36
well let's just first put the data out there
79
216260
2000
laten we eerst de data produceren
03:38
for people to do science to it.
80
218260
2000
waarop mensen wetenschap kunnen loslaten.
03:40
Now we're thinking, what data can we release?
81
220260
2000
We dachten: welke data kunnen we produceren?
03:42
Well of course, you want to take the books
82
222260
2000
Natuurlijk wil je de volledige tekst
03:44
and release the full text of these five million books.
83
224260
2000
van deze 5 miljoen boeken publiceren.
03:46
Now Google, and Jon Orwant in particular,
84
226260
2000
Google, en Jon Orwant in het bijzonder,
03:48
told us a little equation that we should learn.
85
228260
2000
hielden ons het volgende sommetje voor.
03:50
So you have five million, that is, five million authors
86
230260
3000
Je hebt 5 miljoen boeken; dat is 5 miljoen auteurs...
03:53
and five million plaintiffs is a massive lawsuit.
87
233260
3000
...en 5 miljoen eisers is een gigantische rechtszaak.
03:56
So, although that would be really, really awesome,
88
236260
2000
Ook al zou dat uitermate vet zijn,
03:58
again, that's extremely, extremely impractical.
89
238260
3000
het is, nogmaals, extreem onpraktisch.
04:01
(Laughter)
90
241260
2000
(Gelach)
04:03
Now again, we kind of caved in,
91
243260
2000
Dus we gingen overstag,
04:05
and we did the very practical approach, which was a bit less awesome.
92
245260
3000
en we kozen de praktische aanpak, die iets minder vet was.
04:08
We said, well instead of releasing the full text,
93
248260
2000
We zeiden, in plaats van de hele tekst uitgeven,
04:10
we're going to release statistics about the books.
94
250260
2000
gaan we statistieken uitgeven over de boeken.
04:12
So take for instance "A gleam of happiness."
95
252260
2000
Neem bijvoorbeeld "A gleam of happiness".
04:14
It's four words; we call that a four-gram.
96
254260
2000
Vier woorden; we noemen dat een four-gram.
04:16
We're going to tell you how many times a particular four-gram
97
256260
2000
We gaan laten zien hoe vaak een specifiek four-gram
04:18
appeared in books in 1801, 1802, 1803,
98
258260
2000
verscheen in boeken in 1801, 1802, 1803,
04:20
all the way up to 2008.
99
260260
2000
tot en met 2008.
04:22
That gives us a time series
100
262260
2000
Dat levert een tijdverloop op
04:24
of how frequently this particular sentence was used over time.
101
264260
2000
van hoe frequent deze specifieke zin gebruikt werd.
04:26
We do that for all the words and phrases that appear in those books,
102
266260
3000
We doen dat met alle woorden en zinnen die in die boeken voorkomen,
04:29
and that gives us a big table of two billion lines
103
269260
3000
wat een lijst van twee miljard zinnen oplevert
04:32
that tell us about the way culture has been changing.
104
272260
2000
die laat zien hoe onze cultuur veranderd is.
04:34
ELA: So those two billion lines,
105
274260
2000
ELA: Die 2 miljard zinnen
04:36
we call them two billion n-grams.
106
276260
2000
noemen we 2 miljard n-grams.
04:38
What do they tell us?
107
278260
2000
Wat vertellen ze ons?
04:40
Well the individual n-grams measure cultural trends.
108
280260
2000
De individuele n-grams meten culturele trends.
04:42
Let me give you an example.
109
282260
2000
Ik zal een voorbeeld geven.
04:44
Let's suppose that I am thriving,
110
284260
2000
Stel dat ik geluk ervaar,
04:46
then tomorrow I want to tell you about how well I did.
111
286260
2000
en morgen vertel ik je daarover.
04:48
And so I might say, "Yesterday, I throve."
112
288260
3000
Dan kan ik zeggen: "Gisteren ervoer ik geluk."
04:51
Alternatively, I could say, "Yesterday, I thrived."
113
291260
3000
Of: "Gisteren ervaarde ik geluk."
04:54
Well which one should I use?
114
294260
3000
Wat moet ik gebruiken?
04:57
How to know?
115
297260
2000
Hoe kom je daar achter?
04:59
As of about six months ago,
116
299260
2000
Sinds een maand of zes,
05:01
the state of the art in this field
117
301260
2000
is de meest vooruitstrevende manier
05:03
is that you would, for instance,
118
303260
2000
om hier achter te komen, bijvoorbeeld,
05:05
go up to the following psychologist with fabulous hair,
119
305260
2000
het benaderen van de volgende psycholoog met geweldig haar,
05:07
and you'd say,
120
307260
2000
en je zegt:
05:09
"Steve, you're an expert on the irregular verbs.
121
309260
3000
"Steve, jij weet alles van onregelmatige werkwoorden.
05:12
What should I do?"
122
312260
2000
Wat moet ik doen?"
05:14
And he'd tell you, "Well most people say thrived,
123
314260
2000
Dan zegt hij: "Nou, de meeste mensen zeggen 'ervaarde',
05:16
but some people say throve."
124
316260
3000
maar sommige mensen zeggen 'ervaarde'."
05:19
And you also knew, more or less,
125
319260
2000
Je weet ook, min of meer,
05:21
that if you were to go back in time 200 years
126
321260
3000
dat als je 200 jaar teruggaat in de tijd
05:24
and ask the following statesman with equally fabulous hair,
127
324260
3000
en deze staatsman met even geweldig haar, vraagt:
05:27
(Laughter)
128
327260
3000
(Gelach)
05:30
"Tom, what should I say?"
129
330260
2000
"Tom, wat moet ik zeggen?'"
05:32
He'd say, "Well, in my day, most people throve,
130
332260
2000
Dan zou hij zeggen: "Nou, in mijn tijd ervoeren
05:34
but some thrived."
131
334260
3000
de meeste mensen, maar sommigen ervaarden."
05:37
So now what I'm just going to show you is raw data.
132
337260
2000
Nu ga ik wat rauwe data laten zien.
05:39
Two rows from this table of two billion entries.
133
339260
4000
Twee kolommen uit de lijst met 2 miljard gegevens.
05:43
What you're seeing is year by year frequency
134
343260
2000
Wat je ziet, is de jaarlijkse frequentie
05:45
of "thrived" and "throve" over time.
135
345260
3000
van 'ervoeren' en 'ervaarden' doorheen de tijd.
05:49
Now this is just two
136
349260
2000
Dit zijn slechts twee
05:51
out of two billion rows.
137
351260
3000
van de twee miljard kolommen.
05:54
So the entire data set
138
354260
2000
Dus de hele dataset
05:56
is a billion times more awesome than this slide.
139
356260
3000
is een miljard maal vetter dan deze dia.
05:59
(Laughter)
140
359260
2000
(Gelach)
06:01
(Applause)
141
361260
4000
(Applaus)
06:05
JM: Now there are many other pictures that are worth 500 billion words.
142
365260
2000
JM: Er zijn veel andere beelden die 500 miljard woorden waard zijn.
06:07
For instance, this one.
143
367260
2000
Bijvoorbeeld dit beeld.
06:09
If you just take influenza,
144
369260
2000
Als je enkel griep neemt,
06:11
you will see peaks at the time where you knew
145
371260
2000
zie je pieken op tijdstippen waarvan je weet dat
06:13
big flu epidemics were killing people around the globe.
146
373260
3000
grote griepepidemieën wereldwijd levens kostten.
06:16
ELA: If you were not yet convinced,
147
376260
3000
ELA: Mocht je nog niet overtuigd zijn:
06:19
sea levels are rising,
148
379260
2000
zeewaterniveaus stijgen,
06:21
so is atmospheric CO2 and global temperature.
149
381260
3000
evenals CO2 in de lucht, en de globale temperatuur.
06:24
JM: You might also want to have a look at this particular n-gram,
150
384260
3000
JM: Kijk ook even naar dit n-gram,
06:27
and that's to tell Nietzsche that God is not dead,
151
387260
3000
dat Nietzsche vertelt dat God niet dood is,
06:30
although you might agree that he might need a better publicist.
152
390260
3000
hoewel je kunt zeggen dat hij betere pr nodig heeft.
06:33
(Laughter)
153
393260
2000
(Gelach)
06:35
ELA: You can get at some pretty abstract concepts with this sort of thing.
154
395260
3000
ELA: Je komt bij behoorlijk abstracte concepten met dit soort dingen.
06:38
For instance, let me tell you the history
155
398260
2000
Ik zal je bijvoorbeeld de geschiedenis laten zien
06:40
of the year 1950.
156
400260
2000
van het jaar 1950.
06:42
Pretty much for the vast majority of history,
157
402260
2000
Tijdens het grootste deel van de geschiedenis,
06:44
no one gave a damn about 1950.
158
404260
2000
kon 1950 niemand iets schelen.
06:46
In 1700, in 1800, in 1900,
159
406260
2000
In 1700, 1800, en 1900
06:48
no one cared.
160
408260
3000
interesseerde het niemand.
06:52
Through the 30s and 40s,
161
412260
2000
In de jaren '30 en '40,
06:54
no one cared.
162
414260
2000
interesseerde het niemand.
06:56
Suddenly, in the mid-40s,
163
416260
2000
Opeens, midden jaren '40,
06:58
there started to be a buzz.
164
418260
2000
ontstond er rumoer.
07:00
People realized that 1950 was going to happen,
165
420260
2000
Mensen beseften dat 1950 er aan ging komen,
07:02
and it could be big.
166
422260
2000
en het zou belangrijk kunnen zijn.
07:04
(Laughter)
167
424260
3000
(Gelach)
07:07
But nothing got people interested in 1950
168
427260
3000
Maar niets liet mensen zo warmlopen voor 1950
07:10
like the year 1950.
169
430260
3000
als het jaar 1950.
07:13
(Laughter)
170
433260
3000
(Gelach)
07:16
People were walking around obsessed.
171
436260
2000
Mensen liepen geobsedeerd rond.
07:18
They couldn't stop talking
172
438260
2000
Ze bleven maar praten
07:20
about all the things they did in 1950,
173
440260
3000
over alle dingen die ze deden in 1950,
07:23
all the things they were planning to do in 1950,
174
443260
3000
alle dingen die ze van plan waren in 1950,
07:26
all the dreams of what they wanted to accomplish in 1950.
175
446260
5000
alle dromen die ze wilden verwezenlijken in 1950.
07:31
In fact, 1950 was so fascinating
176
451260
2000
In feite was 1950 zo fascinerend
07:33
that for years thereafter,
177
453260
2000
dat mensen jaren later
07:35
people just kept talking about all the amazing things that happened,
178
455260
3000
nog steeds praatten over alle verbazingwekkends dat gebeurd was,
07:38
in '51, '52, '53.
179
458260
2000
in '51, '52, '53.
07:40
Finally in 1954,
180
460260
2000
Uiteindelijk in 1954,
07:42
someone woke up and realized
181
462260
2000
werd er iemand wakker die zich realiseerde
07:44
that 1950 had gotten somewhat passé.
182
464260
4000
dat 1950 nu wat achterhaald was.
07:48
(Laughter)
183
468260
2000
(Gelach)
07:50
And just like that, the bubble burst.
184
470260
2000
Opeens was de zeepbel gebarsten.
07:52
(Laughter)
185
472260
2000
(Gelach)
07:54
And the story of 1950
186
474260
2000
Het verhaal van 1950
07:56
is the story of every year that we have on record,
187
476260
2000
is het verhaal van elk jaar dat gemeten is,
07:58
with a little twist, because now we've got these nice charts.
188
478260
3000
met een kleine draai, want nu hebben we deze mooie grafieken.
08:01
And because we have these nice charts, we can measure things.
189
481260
3000
Omdat we die hebben, kunnen we dingen meten.
08:04
We can say, "Well how fast does the bubble burst?"
190
484260
2000
We kunnen vragen: "Hoe snel is de zeepbel gebarsten?"
08:06
And it turns out that we can measure that very precisely.
191
486260
3000
Dat blijken we zeer precies te kunnen meten.
08:09
Equations were derived, graphs were produced,
192
489260
3000
Vergelijkingen en grafieken werden gemaakt,
08:12
and the net result
193
492260
2000
en het netto resultaat
08:14
is that we find that the bubble bursts faster and faster
194
494260
3000
is dat we zien dat de bel steeds sneller barst
08:17
with each passing year.
195
497260
2000
naarmate de tijd vordert.
08:19
We are losing interest in the past more rapidly.
196
499260
5000
We raken sneller uitgekeken op het verleden.
08:24
JM: Now a little piece of career advice.
197
504260
2000
JM: Nu wat carrière-advies.
08:26
So for those of you who seek to be famous,
198
506260
2000
Diegenen van jullie die beroemd willen worden,
08:28
we can learn from the 25 most famous political figures,
199
508260
2000
kunnen leren van de 25 beroemdste politieke figuren,
08:30
authors, actors and so on.
200
510260
2000
schrijvers, acteurs enzovoort.
08:32
So if you want to become famous early on, you should be an actor,
201
512260
3000
Om snel beroemd te worden, zou je acteur moeten zijn,
08:35
because then fame starts rising by the end of your 20s --
202
515260
2000
want dan stijgt je bekendheid nog vóór je dertigste --
08:37
you're still young, it's really great.
203
517260
2000
je bent nog jong, helemaal geweldig.
08:39
Now if you can wait a little bit, you should be an author,
204
519260
2000
Als je wat langer kunt wachten, zou je schrijver moeten zijn,
08:41
because then you rise to very great heights,
205
521260
2000
want dan stijg je tot grote hoogten,
08:43
like Mark Twain, for instance: extremely famous.
206
523260
2000
zoals Mark Twain, bijvoorbeeld: extreem beroemd.
08:45
But if you want to reach the very top,
207
525260
2000
Maar als je de absolute top wilt bereiken,
08:47
you should delay gratification
208
527260
2000
moet je kunnen wachten,
08:49
and, of course, become a politician.
209
529260
2000
en, uiteraard, politicus worden.
08:51
So here you will become famous by the end of your 50s,
210
531260
2000
Hier word je beroemd vlak voor je zestigste,
08:53
and become very, very famous afterward.
211
533260
2000
en daarna word je nog veel beroemder.
08:55
So scientists also tend to get famous when they're much older.
212
535260
3000
Wetenschappers worden doorgaans ook beroemd op hogere leeftijd.
08:58
Like for instance, biologists and physics
213
538260
2000
Bijvoorbeeld, biologen en natuurkundigen
09:00
tend to be almost as famous as actors.
214
540260
2000
zijn vaak bijna zo beroemd als acteurs.
09:02
One mistake you should not do is become a mathematician.
215
542260
3000
Een fout die je niet moet maken, is wiskundige worden.
09:05
(Laughter)
216
545260
2000
(Gelach)
09:07
If you do that,
217
547260
2000
Als je dat doet,
09:09
you might think, "Oh great. I'm going to do my best work when I'm in my 20s."
218
549260
3000
denk je wellicht: "Mooi, ik ga mijn beste werk doen als begin twintiger."
09:12
But guess what, nobody will really care.
219
552260
2000
Maar dat kan niemand wat schelen.
09:14
(Laughter)
220
554260
3000
(Gelach)
09:17
ELA: There are more sobering notes
221
557260
2000
ELA: Er zijn meer ontnuchterende aspecten
09:19
among the n-grams.
222
559260
2000
aan de n-grams.
09:21
For instance, here's the trajectory of Marc Chagall,
223
561260
2000
Hier is bijvoorbeeld het traject van Marc Chagall,
09:23
an artist born in 1887.
224
563260
2000
een kunstenaar geboren in 1887.
09:25
And this looks like the normal trajectory of a famous person.
225
565260
3000
Het lijkt het normale traject van een beroemd persoon.
09:28
He gets more and more and more famous,
226
568260
4000
Hij wordt steeds beroemder,
09:32
except if you look in German.
227
572260
2000
behalve als je in het Duits kijkt.
09:34
If you look in German, you see something completely bizarre,
228
574260
2000
Daar zie je iets volledig bizars,
09:36
something you pretty much never see,
229
576260
2000
wat je bijna nooit ziet, namelijk
09:38
which is he becomes extremely famous
230
578260
2000
dat hij eerst heel beroemd wordt,
09:40
and then all of a sudden plummets,
231
580260
2000
en dan opeens sterk daalt,
09:42
going through a nadir between 1933 and 1945,
232
582260
3000
met een dieptepunt tussen 1933 en 1945,
09:45
before rebounding afterward.
233
585260
3000
voordat hij weer stijgt.
09:48
And of course, what we're seeing
234
588260
2000
Wat we hier uiteraard zien,
09:50
is the fact Marc Chagall was a Jewish artist
235
590260
3000
is het feit dat Marc Chagall een Joodse kunstenaar was
09:53
in Nazi Germany.
236
593260
2000
in Nazi-Duitsland.
09:55
Now these signals
237
595260
2000
Deze signalen
09:57
are actually so strong
238
597260
2000
zijn zo sterk
09:59
that we don't need to know that someone was censored.
239
599260
3000
dat we niet hoeven te weten dat iemand werd gecensureerd.
10:02
We can actually figure it out
240
602260
2000
We kunnen het uitvissen
10:04
using really basic signal processing.
241
604260
2000
met wat simpele signaalverwerking.
10:06
Here's a simple way to do it.
242
606260
2000
Hier is een eenvoudige methode.
10:08
Well, a reasonable expectation
243
608260
2000
Een redelijke aanname is
10:10
is that somebody's fame in a given period of time
244
610260
2000
dat iemands roem in een bepaalde periode
10:12
should be roughly the average of their fame before
245
612260
2000
ruwweg het gemiddelde moet zijn van zijn roem
10:14
and their fame after.
246
614260
2000
ervoor en erna.
10:16
So that's sort of what we expect.
247
616260
2000
Dat is wat we zouden verwachten.
10:18
And we compare that to the fame that we observe.
248
618260
3000
Dat vergelijken we met de roem die we observeren.
10:21
And we just divide one by the other
249
621260
2000
Dan delen we het één door het ander,
10:23
to produce something we call a suppression index.
250
623260
2000
om iets te produceren dat we een suppressie-index noemen.
10:25
If the suppression index is very, very, very small,
251
625260
3000
Als de suppressie-index heel, heel, heel klein is,
10:28
then you very well might be being suppressed.
252
628260
2000
dan kon het zijn dat je tegengewerkt wordt.
10:30
If it's very large, maybe you're benefiting from propaganda.
253
630260
3000
Als hij erg groot is, zou er propaganda in het spel kunnen zijn.
10:34
JM: Now you can actually look at
254
634260
2000
JM: Je kunt ook kijken naar
10:36
the distribution of suppression indexes over whole populations.
255
636260
3000
de distributie van suppressie-indexen over hele populaties.
10:39
So for instance, here --
256
639260
2000
Dus bijvoorbeeld, hier:
10:41
this suppression index is for 5,000 people
257
641260
2000
deze suppressie-index is voor 5000 mensen
10:43
picked in English books where there's no known suppression --
258
643260
2000
genomen uit Engelse boeken zonder suppressie --
10:45
it would be like this, basically tightly centered on one.
259
645260
2000
dat is mooi gecentreerd rond 1.
10:47
What you expect is basically what you observe.
260
647260
2000
Wat je verwacht, observeer je ook.
10:49
This is distribution as seen in Germany --
261
649260
2000
Dit is de distributie in Duitsland --
10:51
very different, it's shifted to the left.
262
651260
2000
heel anders, het is verschoven naar links.
10:53
People talked about it twice less as it should have been.
263
653260
3000
Mensen praatten er tweemaal minder over dan normaal.
10:56
But much more importantly, the distribution is much wider.
264
656260
2000
Maar veel belangrijker: de distributie is veel breder.
10:58
There are many people who end up on the far left on this distribution
265
658260
3000
Er zijn veel mensen in de linkerkant van de distributie,
11:01
who are talked about 10 times fewer than they should have been.
266
661260
3000
waarover tienmaal minder gepraat wordt dan normaal.
11:04
But then also many people on the far right
267
664260
2000
Maar ook mensen helemaal rechts,
11:06
who seem to benefit from propaganda.
268
666260
2000
die schijnen te profiteren van propaganda.
11:08
This picture is the hallmark of censorship in the book record.
269
668260
3000
Dit beeld is het kenmerk van censuur in boeken.
11:11
ELA: So culturomics
270
671260
2000
ELA: Culturomica
11:13
is what we call this method.
271
673260
2000
noemen we deze methode.
11:15
It's kind of like genomics.
272
675260
2000
Het lijkt op genomica.
11:17
Except genomics is a lens on biology
273
677260
2000
Maar genomica is een lens op biologie
11:19
through the window of the sequence of bases in the human genome.
274
679260
3000
door het raam van de opeenvolging van basen in het menselijk genoom.
11:22
Culturomics is similar.
275
682260
2000
Culturomica lijkt hierop.
11:24
It's the application of massive-scale data collection analysis
276
684260
3000
Het is de toepassing van massale datacollectie-analyse
11:27
to the study of human culture.
277
687260
2000
op de studie van de menselijke cultuur.
11:29
Here, instead of through the lens of a genome,
278
689260
2000
In plaats van door de lens van een genoom,
11:31
through the lens of digitized pieces of the historical record.
279
691260
3000
hier door de lens van gedigitaliseerde stukjes historische data.
11:34
The great thing about culturomics
280
694260
2000
Het mooie aan culturomica
11:36
is that everyone can do it.
281
696260
2000
is dat iedereen het kan doen.
11:38
Why can everyone do it?
282
698260
2000
Waarom kan iedereen het?
11:40
Everyone can do it because three guys,
283
700260
2000
Iedereen kan het omdat drie kerels,
11:42
Jon Orwant, Matt Gray and Will Brockman over at Google,
284
702260
3000
Jon Orwant, Matt Gray en Will Brockman bij Google,
11:45
saw the prototype of the Ngram Viewer,
285
705260
2000
het prototype zagen van de Ngram Viewer,
11:47
and they said, "This is so fun.
286
707260
2000
en zeiden: "Dit is zo leuk.
11:49
We have to make this available for people."
287
709260
3000
We moeten dit beschikbaar maken voor de mensen."
11:52
So in two weeks flat -- the two weeks before our paper came out --
288
712260
2000
In de twee weken voordat onze publicatie uitkwam,
11:54
they coded up a version of the Ngram Viewer for the general public.
289
714260
3000
codeerden ze een versie van de Ngram Viewer voor het grote publiek.
11:57
And so you too can type in any word or phrase that you're interested in
290
717260
3000
Dus ook jij kunt ieder woord of iedere zin intoetsen
12:00
and see its n-gram immediately --
291
720260
2000
en diens Ngram meteen zien --
12:02
also browse examples of all the various books
292
722260
2000
en tevens voorbeelden inkijken van de boeken
12:04
in which your n-gram appears.
293
724260
2000
waarin je Ngram voorkomt.
12:06
JM: Now this was used over a million times on the first day,
294
726260
2000
JM: De eerste dag is het meer dan een miljoen maal gebruikt.
12:08
and this is really the best of all the queries.
295
728260
2000
en het is echt de beste van alle zoekopdrachten.
12:10
So people want to be their best, put their best foot forward.
296
730260
3000
Mensen willen op hun best zijn, hun beste voetje voor zetten.
12:13
But it turns out in the 18th century, people didn't really care about that at all.
297
733260
3000
Maar in de 18e eeuw gaven mensen daar niet om.
12:16
They didn't want to be their best, they wanted to be their beft.
298
736260
3000
Ze wilden niet op hun best zijn, maar op hun beft.
12:19
So what happened is, of course, this is just a mistake.
299
739260
3000
Dit is uiteraard een vergissing.
12:22
It's not that strove for mediocrity,
300
742260
2000
Ze streefden niet naar middelmatigheid,
12:24
it's just that the S used to be written differently, kind of like an F.
301
744260
3000
maar de S werd toen anders geschreven, als een F.
12:27
Now of course, Google didn't pick this up at the time,
302
747260
3000
Dit heeft Google destijds niet opgepikt,
12:30
so we reported this in the science article that we wrote.
303
750260
3000
dus we gaven dit aan in het wetenschapsartikel.
12:33
But it turns out this is just a reminder
304
753260
2000
Maar het is dus een herinnering
12:35
that, although this is a lot of fun,
305
755260
2000
dat, ook al is dit allemaal erg leuk,
12:37
when you interpret these graphs, you have to be very careful,
306
757260
2000
wanneer je deze grafieken interpreteert, je erg moet oppassen,
12:39
and you have to adopt the base standards in the sciences.
307
759260
3000
en de wetenschappelijke basisprincipes moet toepassen.
12:42
ELA: People have been using this for all kinds of fun purposes.
308
762260
3000
ELA: Mensen hebben dit voor allerlei leuke dingen gebruikt.
12:45
(Laughter)
309
765260
7000
(Gelach)
12:52
Actually, we're not going to have to talk,
310
772260
2000
We hoeven eigenlijk niet te praten,
12:54
we're just going to show you all the slides and remain silent.
311
774260
3000
we laten gewoon alle dia's zien en houden onze mond.
12:57
This person was interested in the history of frustration.
312
777260
3000
Deze persoon was geïnteresseerd in de geschiedenis van frustratie.
13:00
There's various types of frustration.
313
780260
3000
Er zijn verschillende soorten frustratie.
13:03
If you stub your toe, that's a one A "argh."
314
783260
3000
Als je je teen stoot, is dat "argh" met één A.
13:06
If the planet Earth is annihilated by the Vogons
315
786260
2000
Als de Aarde wordt verwoest door Vogons
13:08
to make room for an interstellar bypass,
316
788260
2000
om plaats te maken voor een galactische omleiding,
13:10
that's an eight A "aaaaaaaargh."
317
790260
2000
is dat een "aaaaaaaargh" met acht A's.
13:12
This person studies all the "arghs,"
318
792260
2000
Deze persoon bestudeerde alle "arghs",
13:14
from one through eight A's.
319
794260
2000
van één tot en met acht A's.
13:16
And it turns out
320
796260
2000
Nu blijkt
13:18
that the less-frequent "arghs"
321
798260
2000
dat de minder frequente "arghs"
13:20
are, of course, the ones that correspond to things that are more frustrating --
322
800260
3000
corresponderen met meer frustrerende dingen --
13:23
except, oddly, in the early 80s.
323
803260
3000
behalve, vreemd genoeg, begin jaren '80.
13:26
We think that might have something to do with Reagan.
324
806260
2000
We denken dat dit iets te maken heeft met Reagan.
13:28
(Laughter)
325
808260
2000
(Gelach)
13:30
JM: There are many usages of this data,
326
810260
3000
JM: Er zijn vele toepassingen voor deze data,
13:33
but the bottom line is that the historical record is being digitized.
327
813260
3000
maar het belangrijkste is dat historische data worden gedigitaliseerd.
13:36
Google has started to digitize 15 million books.
328
816260
2000
Google heeft nu 15 miljoen boeken gedigitaliseerd.
13:38
That's 12 percent of all the books that have ever been published.
329
818260
2000
Dat is 12% van alle boeken die ooit uitgegeven zijn.
13:40
It's a sizable chunk of human culture.
330
820260
3000
Dat is een behoorlijk deel van onze cultuur.
13:43
There's much more in culture: there's manuscripts, there newspapers,
331
823260
3000
Er is nog veel meer in de cultuur: er zijn manuscripten, kranten,
13:46
there's things that are not text, like art and paintings.
332
826260
2000
er zijn dingen zonder tekst, zoals kunst en schilderijen.
13:48
These all happen to be on our computers,
333
828260
2000
Deze staan allemaal op onze computers,
13:50
on computers across the world.
334
830260
2000
op computers over de wereld.
13:52
And when that happens, that will transform the way we have
335
832260
3000
Wanneer dat gebeurt, zal het ons begrip van ons verleden,
13:55
to understand our past, our present and human culture.
336
835260
2000
ons heden, en onze cultuur transformeren.
13:57
Thank you very much.
337
837260
2000
Dank je wel.
13:59
(Applause)
338
839260
3000
(Applaus)
Over deze website

Deze site laat u kennismaken met YouTube-video's die nuttig zijn om Engels te leren. U ziet Engelse lessen gegeven door topdocenten uit de hele wereld. Dubbelklik op de Engelse ondertitels op elke videopagina om de video af te spelen. De ondertitels scrollen synchroon met het afspelen van de video. Heeft u opmerkingen of verzoeken, neem dan contact met ons op via dit contactformulier.

https://forms.gle/WvT1wiN1qDtmnspy7