What we learned from 5 million books

Was wir von 5 Millionen Büchern gelernt haben

236,154 views ・ 2011-09-20

TED


Bitte doppelklicken Sie auf die englischen Untertitel unten, um das Video abzuspielen.

Übersetzung: Liam Burmester Lektorat: Linda Geschwandtner
00:15
Erez Lieberman Aiden: Everyone knows
0
15260
2000
Erez Lieberman Aiden: Jeder weiß,
00:17
that a picture is worth a thousand words.
1
17260
3000
dass ein Bild mehr als tausend Worte sagt.
00:22
But we at Harvard
2
22260
2000
Aber wir in Harvard
00:24
were wondering if this was really true.
3
24260
3000
haben uns gefragt, ob das wirklich stimmt.
00:27
(Laughter)
4
27260
2000
(Gelächter)
00:29
So we assembled a team of experts,
5
29260
4000
Also haben wir ein Team von Experten versammelt
00:33
spanning Harvard, MIT,
6
33260
2000
aus Harvard, dem MIT,
00:35
The American Heritage Dictionary, The Encyclopedia Britannica
7
35260
3000
vom American Heritage Dictionary, der Encyclopedia Britannica
00:38
and even our proud sponsors,
8
38260
2000
und sogar unserem stolzen Sponsor,
00:40
the Google.
9
40260
3000
dem Google.
00:43
And we cogitated about this
10
43260
2000
Darüber haben wir
00:45
for about four years.
11
45260
2000
ungefähr vier Jahre lang gegrübelt.
00:47
And we came to a startling conclusion.
12
47260
5000
Und wir sind zu einem überraschenden Ergebnis gekommen.
00:52
Ladies and gentlemen, a picture is not worth a thousand words.
13
52260
3000
Meine Damen und Herren, ein Bild sagt nicht mehr als tausend Worte.
00:55
In fact, we found some pictures
14
55260
2000
In Wahrheit haben wir Bilder gefunden,
00:57
that are worth 500 billion words.
15
57260
5000
die mehr als 500 Milliarden Worte sagen.
01:02
Jean-Baptiste Michel: So how did we get to this conclusion?
16
62260
2000
Jean-Baptiste Michel: Wie sind wir zu diesem Ergebnis gekommen?
01:04
So Erez and I were thinking about ways
17
64260
2000
Erez und ich haben uns Wege überlegt
01:06
to get a big picture of human culture
18
66260
2000
wie wir ein Gesamtbild der menschlichen Kultur
01:08
and human history: change over time.
19
68260
3000
und Geschichte erzeugen können: Veränderung im Lauf der Zeit.
01:11
So many books actually have been written over the years.
20
71260
2000
Über die Jahre wurden so viele Bücher geschrieben.
01:13
So we were thinking, well the best way to learn from them
21
73260
2000
Also haben wir uns gedacht, der beste Weg von ihnen zu lernen,
01:15
is to read all of these millions of books.
22
75260
2000
sei all diese Millionen Bücher zu lesen.
01:17
Now of course, if there's a scale for how awesome that is,
23
77260
3000
Wenn es ein Maß dafür gäbe wie toll das ist,
01:20
that has to rank extremely, extremely high.
24
80260
3000
wäre dieses sehr, sehr hoch.
01:23
Now the problem is there's an X-axis for that,
25
83260
2000
Das Problem dabei ist, es gibt auch eine X-Achse,
01:25
which is the practical axis.
26
85260
2000
die praktische Achse.
01:27
This is very, very low.
27
87260
2000
Die wäre sehr, sehr niedrig.
01:29
(Applause)
28
89260
3000
(Applaus)
01:32
Now people tend to use an alternative approach,
29
92260
3000
Eine Alternative wäre stattdessen
01:35
which is to take a few sources and read them very carefully.
30
95260
2000
nur ein paar Quellen zu nehmen und diese sehr genau zu lesen.
01:37
This is extremely practical, but not so awesome.
31
97260
2000
Das ist extrem praktisch, aber weniger toll.
01:39
What you really want to do
32
99260
3000
Was man wirklich machen will,
01:42
is to get to the awesome yet practical part of this space.
33
102260
3000
ist das Tolle und das Praktische zu verbinden.
01:45
So it turns out there was a company across the river called Google
34
105260
3000
Es stellte sich heraus, dass es auf der anderen Seite des Flusses eine Firma gab, Google,
01:48
who had started a digitization project a few years back
35
108260
2000
die vor ein paar Jahren ein Digitalisierungsprojekt startete,
01:50
that might just enable this approach.
36
110260
2000
das genau diese Herangehensweise ermöglichen könnte.
01:52
They have digitized millions of books.
37
112260
2000
Sie haben Millionen Bücher digitalisiert.
01:54
So what that means is, one could use computational methods
38
114260
3000
Das bedeutet, dass man am Computer
01:57
to read all of the books in a click of a button.
39
117260
2000
diese ganzen Bücher auf Knopfdruck lesen kann.
01:59
That's very practical and extremely awesome.
40
119260
3000
Das ist sehr praktisch und extrem toll.
02:03
ELA: Let me tell you a little bit about where books come from.
41
123260
2000
ELA: Lasst mich also ein bisschen über den Ursprung von Büchern erzählen.
02:05
Since time immemorial, there have been authors.
42
125260
3000
Seit Urzeiten gibt es Autoren.
02:08
These authors have been striving to write books.
43
128260
3000
Sie strebten danach Bücher zu schreiben.
02:11
And this became considerably easier
44
131260
2000
Dies wurde mit der Erfindung
02:13
with the development of the printing press some centuries ago.
45
133260
2000
der Druckerpresse vor einigen Jahrhunderten deutlich einfacher.
02:15
Since then, the authors have won
46
135260
3000
Seither haben Autoren es
02:18
on 129 million distinct occasions,
47
138260
2000
129 Millionen Mal geschafft Bücher
02:20
publishing books.
48
140260
2000
zu veröffentlichen.
02:22
Now if those books are not lost to history,
49
142260
2000
Wenn diese Bücher nicht im Laufe der Geschichte
02:24
then they are somewhere in a library,
50
144260
2000
verloren gegangen sind, stehen sie
02:26
and many of those books have been getting retrieved from the libraries
51
146260
3000
in irgendeiner Bibliothek, und viele dieser Bücher wurden von Google
02:29
and digitized by Google,
52
149260
2000
erfasst und digitalisiert,
02:31
which has scanned 15 million books to date.
53
151260
2000
die bis heute 15 Millionen Bücher gescannt haben.
02:33
Now when Google digitizes a book, they put it into a really nice format.
54
153260
3000
Wenn Google ein Buch digitalisiert, bringen sie es in ein sehr schönes Format.
02:36
Now we've got the data, plus we have metadata.
55
156260
2000
Nun haben wir die Daten, und außerdem Metadaten.
02:38
We have information about things like where was it published,
56
158260
3000
Wir haben Informationen wie wo es verlegt wurde,
02:41
who was the author, when was it published.
57
161260
2000
wer der Autor war und wann es veröffentlicht wurde.
02:43
And what we do is go through all of those records
58
163260
3000
Wir gehen dann durch all diese Daten
02:46
and exclude everything that's not the highest quality data.
59
166260
4000
und schließen alles aus was nicht von höchster Qualität ist.
02:50
What we're left with
60
170260
2000
Was übrig bleibt
02:52
is a collection of five million books,
61
172260
3000
sind 5 Millionen Bücher,
02:55
500 billion words,
62
175260
3000
500 Milliarden Wörter,
02:58
a string of characters a thousand times longer
63
178260
2000
eine Reihe von Buchstaben eintausendmal so lang
03:00
than the human genome --
64
180260
3000
wie das menschliche Genom --
03:03
a text which, when written out,
65
183260
2000
wenn man ihn ausschreiben würde,
03:05
would stretch from here to the Moon and back
66
185260
2000
reichte dieser Text zehn Mal bis zum Mond
03:07
10 times over --
67
187260
2000
und zurück --
03:09
a veritable shard of our cultural genome.
68
189260
4000
ein beachtlicher Teil unseres kulturellen Genoms.
03:13
Of course what we did
69
193260
2000
Natürlich haben wir,
03:15
when faced with such outrageous hyperbole ...
70
195260
3000
konfrontiert mit einer solch unverschämten Übertreibung ...
03:18
(Laughter)
71
198260
2000
(Gelächter)
03:20
was what any self-respecting researchers
72
200260
3000
das getan, was jeder anständige Forscher
03:23
would have done.
73
203260
3000
getan hätte.
03:26
We took a page out of XKCD,
74
206260
2000
Wir haben uns etwas bei dem Online-Comic XKDC abgeschaut
03:28
and we said, "Stand back.
75
208260
2000
und gesagt: „Vorsicht!
03:30
We're going to try science."
76
210260
2000
Wir versuchen es mit Wissenschaft.“
03:32
(Laughter)
77
212260
2000
(Gelächter)
03:34
JM: Now of course, we were thinking,
78
214260
2000
JM: Zuerst haben wir uns selbstverständlich gedacht,
03:36
well let's just first put the data out there
79
216260
2000
veröffentlichen wir einfach die Daten,
03:38
for people to do science to it.
80
218260
2000
so dass Wissenschaft damit betrieben werden kann.
03:40
Now we're thinking, what data can we release?
81
220260
2000
Jetzt fragen wir uns aber, welche Daten können wir veröffentlichen?
03:42
Well of course, you want to take the books
82
222260
2000
Natürlich will man alle 5 Millionen Bücher
03:44
and release the full text of these five million books.
83
224260
2000
im Volltext veröffentlichen.
03:46
Now Google, and Jon Orwant in particular,
84
226260
2000
Google allerdings, und vor allem Jon Orwant,
03:48
told us a little equation that we should learn.
85
228260
2000
haben uns eine kleine Gleichung vermittelt.
03:50
So you have five million, that is, five million authors
86
230260
3000
Man hat also 5 Millionen Bücher, das heißt 5 Millionen Autoren,
03:53
and five million plaintiffs is a massive lawsuit.
87
233260
3000
5 Millionen Kläger und einen gewaltigen Prozess.
03:56
So, although that would be really, really awesome,
88
236260
2000
Daher wäre dies, obwohl sehr, sehr toll,
03:58
again, that's extremely, extremely impractical.
89
238260
3000
wieder sehr, sehr unpraktisch.
04:01
(Laughter)
90
241260
2000
(Gelächter)
04:03
Now again, we kind of caved in,
91
243260
2000
Nochmal haben wir ein bisschen nachgegeben
04:05
and we did the very practical approach, which was a bit less awesome.
92
245260
3000
und haben das Praktische gemacht, das jedoch weniger toll war.
04:08
We said, well instead of releasing the full text,
93
248260
2000
Wir haben uns entschieden, dass wir statt der Volltexte
04:10
we're going to release statistics about the books.
94
250260
2000
Statistiken über die Bücher veröffentlichen.
04:12
So take for instance "A gleam of happiness."
95
252260
2000
Nehmen wir zum Beispiel „A gleam of happiness“.
04:14
It's four words; we call that a four-gram.
96
254260
2000
Das sind vier Wörter; das nennen wir ein Viergramm.
04:16
We're going to tell you how many times a particular four-gram
97
256260
2000
Wir sagen euch wie oft ein bestimmtes Viergramm
04:18
appeared in books in 1801, 1802, 1803,
98
258260
2000
in Büchern in den Jahren 1801, 1802, 1803,
04:20
all the way up to 2008.
99
260260
2000
bis 2008 auftaucht.
04:22
That gives us a time series
100
262260
2000
Wir bekommen eine Zeitfolge,
04:24
of how frequently this particular sentence was used over time.
101
264260
2000
die zeigt, wie oft dieser bestimmte Satz im Laufe der Zeit benutzt wurde.
04:26
We do that for all the words and phrases that appear in those books,
102
266260
3000
Das machen wir für alle Wörter und Sätze, die in diesen Büchern auftauchen,
04:29
and that gives us a big table of two billion lines
103
269260
3000
und daher haben wir eine große Tabelle mit zwei Milliarden Sätzen,
04:32
that tell us about the way culture has been changing.
104
272260
2000
die uns etwas über die Veränderung der Kultur erzählen.
04:34
ELA: So those two billion lines,
105
274260
2000
ELA: Also diese zwei Milliarden Sätze,
04:36
we call them two billion n-grams.
106
276260
2000
die nennen wir zwei Milliarden Ngramme.
04:38
What do they tell us?
107
278260
2000
Was sagen sie aus?
04:40
Well the individual n-grams measure cultural trends.
108
280260
2000
Die individuellen Ngramme messen kulturelle Trends.
04:42
Let me give you an example.
109
282260
2000
Ich gebe euch ein Beispiel.
04:44
Let's suppose that I am thriving,
110
284260
2000
Sagen wir, dass ich Erfolg habe („thriving“),
04:46
then tomorrow I want to tell you about how well I did.
111
286260
2000
und morgen will ich dir sagen wie viel Erfolg ich gehabt habe.
04:48
And so I might say, "Yesterday, I throve."
112
288260
3000
Also sage ich vielleicht: „Gestern ‚throve’ ich“.
04:51
Alternatively, I could say, "Yesterday, I thrived."
113
291260
3000
Auf andere Weise könnte ich auch sagen: „Gestern ‚thrived’ ich“.
04:54
Well which one should I use?
114
294260
3000
Welches soll ich denn jetzt benutzen?
04:57
How to know?
115
297260
2000
Wie kann ich das wissen?
04:59
As of about six months ago,
116
299260
2000
Bis vor ungefähr sechs Monaten
05:01
the state of the art in this field
117
301260
2000
war der Stand der Technik in diesem Bereich,
05:03
is that you would, for instance,
118
303260
2000
dass man zum folgenden Psychologen
05:05
go up to the following psychologist with fabulous hair,
119
305260
2000
mit fantastischen Haaren geht
05:07
and you'd say,
120
307260
2000
und ihn fragt:
05:09
"Steve, you're an expert on the irregular verbs.
121
309260
3000
„Steve, Sie sind ein Experte der unregelmäßigen Verben.
05:12
What should I do?"
122
312260
2000
Was soll ich sagen?“
05:14
And he'd tell you, "Well most people say thrived,
123
314260
2000
Und er würde sagen: „Naja, die meisten Leute sagen ‚thrived’,
05:16
but some people say throve."
124
316260
3000
aber manche Leute sagen ‚throve’“.
05:19
And you also knew, more or less,
125
319260
2000
Und man wusste auch, mehr oder weniger,
05:21
that if you were to go back in time 200 years
126
321260
3000
dass wenn man 200 Jahre in die Vergangenheit reist
05:24
and ask the following statesman with equally fabulous hair,
127
324260
3000
und den folgenden Staatsmann mit genauso fantastischen Haaren fragt:
05:27
(Laughter)
128
327260
3000
(Gelächter)
05:30
"Tom, what should I say?"
129
330260
2000
„Tom, was soll ich sagen?“
05:32
He'd say, "Well, in my day, most people throve,
130
332260
2000
Er würde sagen: „Naja, zu meiner Zeit sagten die meisten ‚throve’,
05:34
but some thrived."
131
334260
3000
aber manche ‚thrived’“.
05:37
So now what I'm just going to show you is raw data.
132
337260
2000
Was ich euch hier zeige sind die Rohdaten.
05:39
Two rows from this table of two billion entries.
133
339260
4000
Zwei Reihen aus dieser Tabelle mit zwei Milliarden Einträgen.
05:43
What you're seeing is year by year frequency
134
343260
2000
Was ihr seht ist die jährliche Häufigkeit
05:45
of "thrived" and "throve" over time.
135
345260
3000
von „thrived“ und „throve“ im Laufe der Zeit.
05:49
Now this is just two
136
349260
2000
Doch dies sind nur zwei
05:51
out of two billion rows.
137
351260
3000
von zwei Milliarden Reihen.
05:54
So the entire data set
138
354260
2000
Die ganze Datenmenge
05:56
is a billion times more awesome than this slide.
139
356260
3000
ist also eine Milliarde Mal so toll wie diese Folie.
05:59
(Laughter)
140
359260
2000
(Gelächter)
06:01
(Applause)
141
361260
4000
(Applaus)
06:05
JM: Now there are many other pictures that are worth 500 billion words.
142
365260
2000
JM: Es gibt noch viele andere Bilder, die mehr als 500 Milliarden Wörter sagen.
06:07
For instance, this one.
143
367260
2000
Zum Beispiel dieses.
06:09
If you just take influenza,
144
369260
2000
Wenn man „influenza“ eingibt,
06:11
you will see peaks at the time where you knew
145
371260
2000
sieht man Hochpunkte an Stellen von denen man weiß,
06:13
big flu epidemics were killing people around the globe.
146
373260
3000
dass große Grippeepidemien Menschen in der ganzen Welt töteten.
06:16
ELA: If you were not yet convinced,
147
376260
3000
ELA: Wenn du noch nicht überzeugt bist,
06:19
sea levels are rising,
148
379260
2000
der Meeresspiegel steigt an,
06:21
so is atmospheric CO2 and global temperature.
149
381260
3000
genauso wie atmosphärisches CO2 und die globale Temperatur.
06:24
JM: You might also want to have a look at this particular n-gram,
150
384260
3000
JM: Schauen wir uns auch dieses Ngramm an,
06:27
and that's to tell Nietzsche that God is not dead,
151
387260
3000
um Nietzsche sagen zu können, dass Gott doch nicht tot ist,
06:30
although you might agree that he might need a better publicist.
152
390260
3000
obwohl ihr vielleicht auch der Meinung seid, dass er einen besseren Publizist braucht.
06:33
(Laughter)
153
393260
2000
(Gelächter)
06:35
ELA: You can get at some pretty abstract concepts with this sort of thing.
154
395260
3000
ELA: Hiermit kann man ziemlich abstrakte Konzepte ableiten.
06:38
For instance, let me tell you the history
155
398260
2000
Lasst mich zum Beispiel die Geschichte
06:40
of the year 1950.
156
400260
2000
des Jahres 1950 erzählen.
06:42
Pretty much for the vast majority of history,
157
402260
2000
Für den größten Teil der Geschichte
06:44
no one gave a damn about 1950.
158
404260
2000
war 1950 allen scheißegal.
06:46
In 1700, in 1800, in 1900,
159
406260
2000
In den Jahren 1700, 1800, 1900,
06:48
no one cared.
160
408260
3000
war es allen egal.
06:52
Through the 30s and 40s,
161
412260
2000
In den 30ern und 40ern,
06:54
no one cared.
162
414260
2000
war es allen egal.
06:56
Suddenly, in the mid-40s,
163
416260
2000
Plötzlich, mitten in den 40ern,
06:58
there started to be a buzz.
164
418260
2000
wurde jeder aufgeregt.
07:00
People realized that 1950 was going to happen,
165
420260
2000
Es wurde erkannt, dass 1950 kommen würde und,
07:02
and it could be big.
166
422260
2000
dass es etwas Großes sein könnte.
07:04
(Laughter)
167
424260
3000
(Gelächter)
07:07
But nothing got people interested in 1950
168
427260
3000
Aber nichts hat solches Interesse an 1950 erzeugt,
07:10
like the year 1950.
169
430260
3000
wie das Jahr 1950.
07:13
(Laughter)
170
433260
3000
(Gelächter)
07:16
People were walking around obsessed.
171
436260
2000
Die Leute waren besessen.
07:18
They couldn't stop talking
172
438260
2000
Sie konnten nicht aufhören
07:20
about all the things they did in 1950,
173
440260
3000
über all die Sachen zu reden, die sie in 1950 gemacht hatten,
07:23
all the things they were planning to do in 1950,
174
443260
3000
in 1950 machen wollten,
07:26
all the dreams of what they wanted to accomplish in 1950.
175
446260
5000
die ganzen Träume, die sie in 1950 verwirklichen wollten.
07:31
In fact, 1950 was so fascinating
176
451260
2000
1950 war sogar so faszinierend,
07:33
that for years thereafter,
177
453260
2000
dass noch Jahre danach
07:35
people just kept talking about all the amazing things that happened,
178
455260
3000
über die fantastischen Sachen geredet wurde, die sich ereigneten,
07:38
in '51, '52, '53.
179
458260
2000
in den Jahren ’51, ’52, ’53.
07:40
Finally in 1954,
180
460260
2000
Endlich in 1954
07:42
someone woke up and realized
181
462260
2000
wachte jemand auf und merkte,
07:44
that 1950 had gotten somewhat passé.
182
464260
4000
dass 1950 nun passé sei.
07:48
(Laughter)
183
468260
2000
(Gelächter)
07:50
And just like that, the bubble burst.
184
470260
2000
Und so einfach zerplatzte die Blase.
07:52
(Laughter)
185
472260
2000
(Gelächter)
07:54
And the story of 1950
186
474260
2000
Und die Geschichte von 1950
07:56
is the story of every year that we have on record,
187
476260
2000
ist die Geschichte von jedem aufgezeichneten Jahr,
07:58
with a little twist, because now we've got these nice charts.
188
478260
3000
mit einer kleinen Wende, denn jetzt wir haben diese schönen Grafiken.
08:01
And because we have these nice charts, we can measure things.
189
481260
3000
Und weil wir diese schönen Grafiken haben, können wir Dinge messen.
08:04
We can say, "Well how fast does the bubble burst?"
190
484260
2000
Wir können sagen: „Na, wie schnell zerplatzt denn die Blase?“
08:06
And it turns out that we can measure that very precisely.
191
486260
3000
Und wir haben herausgefunden, dass wir das sehr genau messen können.
08:09
Equations were derived, graphs were produced,
192
489260
3000
Gleichungen wurden hergeleitet, Graphen wurden erzeugt,
08:12
and the net result
193
492260
2000
und das Endergebnis
08:14
is that we find that the bubble bursts faster and faster
194
494260
3000
zeigt uns, dass die Blasen mit jedem Jahr
08:17
with each passing year.
195
497260
2000
schneller und schneller zerplatzen.
08:19
We are losing interest in the past more rapidly.
196
499260
5000
Wir verlieren schneller unser Interesse an der Vergangenheit.
08:24
JM: Now a little piece of career advice.
197
504260
2000
JM: Ein kleiner Karrieretip.
08:26
So for those of you who seek to be famous,
198
506260
2000
Für diejenigen von euch die berühmt werden wollen,
08:28
we can learn from the 25 most famous political figures,
199
508260
2000
können wir von den 25 berühmtesten Politikern,
08:30
authors, actors and so on.
200
510260
2000
Autoren, Schauspielern usw. lernen.
08:32
So if you want to become famous early on, you should be an actor,
201
512260
3000
Also wenn du früh berühmt werden willst, solltest du Schauspieler werden,
08:35
because then fame starts rising by the end of your 20s --
202
515260
2000
weil die Berühmtheit dann gegen Ende deiner 20er kommt -
08:37
you're still young, it's really great.
203
517260
2000
du bist noch jung, es ist wirklich großartig.
08:39
Now if you can wait a little bit, you should be an author,
204
519260
2000
Wenn du aber ein bisschen warten kannst, solltest du Autor werden,
08:41
because then you rise to very great heights,
205
521260
2000
weil du dann sehr große Höhen erreichst,
08:43
like Mark Twain, for instance: extremely famous.
206
523260
2000
wie zum Beispiel Mark Twain: extrem berühmt.
08:45
But if you want to reach the very top,
207
525260
2000
Aber wenn du den Gipfel erreichen willst,
08:47
you should delay gratification
208
527260
2000
solltest du deinen Erfolg verschieben
08:49
and, of course, become a politician.
209
529260
2000
und natürlich Politiker werden.
08:51
So here you will become famous by the end of your 50s,
210
531260
2000
Damit wird man gegen Ende seiner 50er berühmt,
08:53
and become very, very famous afterward.
211
533260
2000
und nachher sehr, sehr berühmt.
08:55
So scientists also tend to get famous when they're much older.
212
535260
3000
Wissenschaftler werden häufig auch erst berühmt wenn sie älter sind.
08:58
Like for instance, biologists and physics
213
538260
2000
Zum Beispiel, Biologen und Physiker
09:00
tend to be almost as famous as actors.
214
540260
2000
werden oft fast so berühmt wie Schauspieler.
09:02
One mistake you should not do is become a mathematician.
215
542260
3000
Einen Fehler den du aber vermeiden solltest, ist Mathematiker zu werden.
09:05
(Laughter)
216
545260
2000
(Gelächter)
09:07
If you do that,
217
547260
2000
Wenn du das machst,
09:09
you might think, "Oh great. I'm going to do my best work when I'm in my 20s."
218
549260
3000
denkst du dir: „Genial! Ich mache meine beste Arbeit in meinen 20ern“.
09:12
But guess what, nobody will really care.
219
552260
2000
Aber stelle dir vor, es wird sich keiner interessieren.
09:14
(Laughter)
220
554260
3000
(Gelächter)
09:17
ELA: There are more sobering notes
221
557260
2000
ELA: Es gibt auch ernüchterndere Seiten
09:19
among the n-grams.
222
559260
2000
der Ngramme.
09:21
For instance, here's the trajectory of Marc Chagall,
223
561260
2000
Zum Beispiel, hier ist die Kurve von Marc Chagall,
09:23
an artist born in 1887.
224
563260
2000
ein 1887 geborener Künstler.
09:25
And this looks like the normal trajectory of a famous person.
225
565260
3000
Die Kurve verläuft normal für eine berühmte Person.
09:28
He gets more and more and more famous,
226
568260
4000
Er wird berühmter und berühmter,
09:32
except if you look in German.
227
572260
2000
außer wenn man auf Deutsch sucht.
09:34
If you look in German, you see something completely bizarre,
228
574260
2000
Wenn man im Deutschen sucht, sieht man etwas sehr Bizarres,
09:36
something you pretty much never see,
229
576260
2000
etwas was man fast nie sieht.
09:38
which is he becomes extremely famous
230
578260
2000
Er wird extrem berühmt
09:40
and then all of a sudden plummets,
231
580260
2000
und stürzt dann auf einmal
09:42
going through a nadir between 1933 and 1945,
232
582260
3000
zwischen 1933 und 1945 bis zum Tiefpunkt
09:45
before rebounding afterward.
233
585260
3000
und erholt sich nachher wieder.
09:48
And of course, what we're seeing
234
588260
2000
Was wir hier natürlich sehen ist,
09:50
is the fact Marc Chagall was a Jewish artist
235
590260
3000
dass Marc Chagall ein jüdischer Künstler
09:53
in Nazi Germany.
236
593260
2000
in Nazi-Deutschland war.
09:55
Now these signals
237
595260
2000
Diese Zeichen
09:57
are actually so strong
238
597260
2000
sind tatsächlich so stark,
09:59
that we don't need to know that someone was censored.
239
599260
3000
dass wir gar nicht wissen müssen, dass jemand zensiert wurde.
10:02
We can actually figure it out
240
602260
2000
Wir können es durch ganz elementare
10:04
using really basic signal processing.
241
604260
2000
Datenverarbeitung herausfinden.
10:06
Here's a simple way to do it.
242
606260
2000
Hier ist eine einfache Methode dafür.
10:08
Well, a reasonable expectation
243
608260
2000
Eine sinnvolle Erwartung wäre,
10:10
is that somebody's fame in a given period of time
244
610260
2000
dass Berühmtheit in einer bestimmten Zeitspanne
10:12
should be roughly the average of their fame before
245
612260
2000
ungefähr gleich dem Durchschnitt der Berühmtheit vorher
10:14
and their fame after.
246
614260
2000
und dem nachher ist.
10:16
So that's sort of what we expect.
247
616260
2000
Das ist also mehr oder weniger was wir erwarten.
10:18
And we compare that to the fame that we observe.
248
618260
3000
Und dies vergleichen wir mit der beobachtbaren Berühmtheit.
10:21
And we just divide one by the other
249
621260
2000
Und wir dividieren halt das Eine durch das Andere,
10:23
to produce something we call a suppression index.
250
623260
2000
um einen sogenannten Unterdrückungsindex zu erzeugen.
10:25
If the suppression index is very, very, very small,
251
625260
3000
Wenn dieser Unterdrückungsindex sehr, sehr, sehr klein ist,
10:28
then you very well might be being suppressed.
252
628260
2000
dann kann es gut sein, dass du unterdrückt wirst.
10:30
If it's very large, maybe you're benefiting from propaganda.
253
630260
3000
Wenn es sehr groß ist, dann profitierst du vielleicht von Propaganda.
10:34
JM: Now you can actually look at
254
634260
2000
JM: Man kann sich tatsächlich
10:36
the distribution of suppression indexes over whole populations.
255
636260
3000
die Verteilung von Unterdrückungsindizes ganzer Populationen ansehen.
10:39
So for instance, here --
256
639260
2000
Wie hier zum Beispiel -
10:41
this suppression index is for 5,000 people
257
641260
2000
dieser Unterdrückungsindex ist für 5.000 Menschen
10:43
picked in English books where there's no known suppression --
258
643260
2000
aus englischen Büchern, für die es keine bekannte Unterdrückung gibt.
10:45
it would be like this, basically tightly centered on one.
259
645260
2000
Es sähe dann so aus, ziemlich genau eins.
10:47
What you expect is basically what you observe.
260
647260
2000
Was man erwartet ist im Grunde das, was man beobachtet.
10:49
This is distribution as seen in Germany --
261
649260
2000
Dies ist die Verteilung in Deutschland -
10:51
very different, it's shifted to the left.
262
651260
2000
sehr anders, nach links verschoben.
10:53
People talked about it twice less as it should have been.
263
653260
3000
Darüber wurde zweimal weniger gesprochen als zu erwarten wäre.
10:56
But much more importantly, the distribution is much wider.
264
656260
2000
Aber viel wichtiger ist, dass die Verteilung viel breiter ist.
10:58
There are many people who end up on the far left on this distribution
265
658260
3000
Es gibt viele Leute, die am ganz linken Rand dieser Verteilung sind,
11:01
who are talked about 10 times fewer than they should have been.
266
661260
3000
von denen zehnmal weniger gesprochen wurde als erwartet.
11:04
But then also many people on the far right
267
664260
2000
Aber außerdem viele ganz rechts,
11:06
who seem to benefit from propaganda.
268
666260
2000
die anscheinend von Propaganda profitiert haben.
11:08
This picture is the hallmark of censorship in the book record.
269
668260
3000
Dies ist das typische Bild der Zensur in literarischen Aufzeichnungen.
11:11
ELA: So culturomics
270
671260
2000
ELA: Kulturomik
11:13
is what we call this method.
271
673260
2000
nennen wir diese Methode.
11:15
It's kind of like genomics.
272
675260
2000
Es ist ungefähr wie Genomik.
11:17
Except genomics is a lens on biology
273
677260
2000
Doch Genomik ist mehr oder weniger ein Blick auf Biologie
11:19
through the window of the sequence of bases in the human genome.
274
679260
3000
durch das Fenster der Sequenzen der Basen im menschlichen Genom.
11:22
Culturomics is similar.
275
682260
2000
Kulturomik ist so ähnlich.
11:24
It's the application of massive-scale data collection analysis
276
684260
3000
Sie ist die Anwendungsanalyse einer Massendatensammlung
11:27
to the study of human culture.
277
687260
2000
auf die Erforschung der menschlichen Kultur.
11:29
Here, instead of through the lens of a genome,
278
689260
2000
Hier blickt man, statt durch das Genom,
11:31
through the lens of digitized pieces of the historical record.
279
691260
3000
durch digitalisierte Stücke der historischen Aufzeichnungen.
11:34
The great thing about culturomics
280
694260
2000
Das Großartige an Kulturomik ist,
11:36
is that everyone can do it.
281
696260
2000
dass es jeder machen kann.
11:38
Why can everyone do it?
282
698260
2000
Warum kann es jeder machen?
11:40
Everyone can do it because three guys,
283
700260
2000
Jeder kann es machen, weil drei Typen von Google,
11:42
Jon Orwant, Matt Gray and Will Brockman over at Google,
284
702260
3000
Jon Orwant, Matt Gray und Will Brockman
11:45
saw the prototype of the Ngram Viewer,
285
705260
2000
den Prototyp des Ngram Viewers sahen
11:47
and they said, "This is so fun.
286
707260
2000
und sagten: „Das ist so ein Spaß.
11:49
We have to make this available for people."
287
709260
3000
Dies müssen wir allen zugänglich machen.“
11:52
So in two weeks flat -- the two weeks before our paper came out --
288
712260
2000
Und innerhalb von zwei Wochen - genau bevor unser Artikel erschienen ist -
11:54
they coded up a version of the Ngram Viewer for the general public.
289
714260
3000
haben sie eine öffentliche Version des Ngram Viewers programmiert.
11:57
And so you too can type in any word or phrase that you're interested in
290
717260
3000
Und jetzt kannst du auch irgendein interessantes Wort oder Redewendung eingeben
12:00
and see its n-gram immediately --
291
720260
2000
und sofort das Ngram davon sehen -
12:02
also browse examples of all the various books
292
722260
2000
und auch Beispiele der ganzen verschiedenen Bücher,
12:04
in which your n-gram appears.
293
724260
2000
in denen dein Ngram auftaucht, durchsuchen.
12:06
JM: Now this was used over a million times on the first day,
294
726260
2000
JM: Dies wurde am ersten Tag über eine Million Mal genutzt,
12:08
and this is really the best of all the queries.
295
728260
2000
und das ist wirklich die beste aller Suchanfragen.
12:10
So people want to be their best, put their best foot forward.
296
730260
3000
Leute wollen ihr Bestes geben, sich hervortun.
12:13
But it turns out in the 18th century, people didn't really care about that at all.
297
733260
3000
Aber es scheint, dass im 18. Jahrhundert das ziemlich egal war.
12:16
They didn't want to be their best, they wanted to be their beft.
298
736260
3000
Damals wollten sie nicht ihr Bestes geben, sondern ihr Beftes.
12:19
So what happened is, of course, this is just a mistake.
299
739260
3000
Was hier natürlich passiert ist, ist nur ein Fehler.
12:22
It's not that strove for mediocrity,
300
742260
2000
Es ist nicht, dass sie nach Mittelmäßigkeit strebten,
12:24
it's just that the S used to be written differently, kind of like an F.
301
744260
3000
sondern nur, dass das S früher anders geschrieben wurde, eher so wie ein F.
12:27
Now of course, Google didn't pick this up at the time,
302
747260
3000
Das hat Google anfangs natürlich nicht gemerkt,
12:30
so we reported this in the science article that we wrote.
303
750260
3000
also haben wir das in unserem wissenschaftlichen Artikel berichtet.
12:33
But it turns out this is just a reminder
304
753260
2000
Das soll nur als Erinnerung dienen,
12:35
that, although this is a lot of fun,
305
755260
2000
dass man, obwohl es Spaß macht,
12:37
when you interpret these graphs, you have to be very careful,
306
757260
2000
diese Graphen mit Vorsicht interpretieren muss,
12:39
and you have to adopt the base standards in the sciences.
307
759260
3000
und die Grundnormen der Wissenschaft anwendet.
12:42
ELA: People have been using this for all kinds of fun purposes.
308
762260
3000
ELA: Bisher ist es für viele lustige Zwecke genutzt worden.
12:45
(Laughter)
309
765260
7000
(Gelächter)
12:52
Actually, we're not going to have to talk,
310
772260
2000
Eigentlich müssen wir gar nicht reden,
12:54
we're just going to show you all the slides and remain silent.
311
774260
3000
wir zeigen euch einfach diese Folien und schweigen.
12:57
This person was interested in the history of frustration.
312
777260
3000
Diese Person hat sich für die Geschichte der Frustration interessiert.
13:00
There's various types of frustration.
313
780260
3000
Es gibt verschiedene Arten von Frustration.
13:03
If you stub your toe, that's a one A "argh."
314
783260
3000
Wenn man sich den Zeh stößt, bedeutet das ein „argh“ mit einem A.
13:06
If the planet Earth is annihilated by the Vogons
315
786260
2000
Wenn die Erde von den Vogonen vernichtet wird,
13:08
to make room for an interstellar bypass,
316
788260
2000
um Platz für eine interstellare Umgehungsstraße zu machen,
13:10
that's an eight A "aaaaaaaargh."
317
790260
2000
bedeutet das ein „aaaaaaaargh“ mit acht A.
13:12
This person studies all the "arghs,"
318
792260
2000
Diese Person beobachtet die ganzen „arghs“
13:14
from one through eight A's.
319
794260
2000
von einem A bis acht A.
13:16
And it turns out
320
796260
2000
Und es stellte sich heraus,
13:18
that the less-frequent "arghs"
321
798260
2000
dass die weniger häufigen „arghs“
13:20
are, of course, the ones that correspond to things that are more frustrating --
322
800260
3000
selbstverständlich die sind, die sich auf frustrierendere Sachen beziehen -
13:23
except, oddly, in the early 80s.
323
803260
3000
außer, seltsamerweise, in den früheren 80ern.
13:26
We think that might have something to do with Reagan.
324
806260
2000
Wir glauben, das hat vielleicht etwas mit Reagan zu tun.
13:28
(Laughter)
325
808260
2000
(Gelächter)
13:30
JM: There are many usages of this data,
326
810260
3000
JM: Es gibt viele Verwendungen dieser Daten,
13:33
but the bottom line is that the historical record is being digitized.
327
813260
3000
aber im Endeffekt werden die historischen Aufzeichnungen digitalisiert.
13:36
Google has started to digitize 15 million books.
328
816260
2000
Google hat angefangen 15 Millionen Bücher zu digitalisieren.
13:38
That's 12 percent of all the books that have ever been published.
329
818260
2000
Das sind 12 Prozent aller Bücher, die je verlegt wurden.
13:40
It's a sizable chunk of human culture.
330
820260
3000
Ein beträchtlicher Teil der menschlichen Kultur.
13:43
There's much more in culture: there's manuscripts, there newspapers,
331
823260
3000
Es gibt viel mehr in der Kultur: es gibt Manuskripte, Zeitungen,
13:46
there's things that are not text, like art and paintings.
332
826260
2000
es gibt Sachen die nicht Text sind, wie Kunst und Gemälde.
13:48
These all happen to be on our computers,
333
828260
2000
All dies ist zufälligerweise auf unseren Computern,
13:50
on computers across the world.
334
830260
2000
auf Computern auf der ganzen Welt.
13:52
And when that happens, that will transform the way we have
335
832260
3000
Und wenn das passiert, muss das unser Verständnis für unsere Vergangenheit,
13:55
to understand our past, our present and human culture.
336
835260
2000
unsere Gegenwart und die menschliche Kultur verändern.
13:57
Thank you very much.
337
837260
2000
Vielen Dank.
13:59
(Applause)
338
839260
3000
(Applaus)
Über diese Website

Auf dieser Seite finden Sie YouTube-Videos, die zum Englischlernen nützlich sind. Sie sehen Englischlektionen, die von hochkarätigen Lehrern aus der ganzen Welt unterrichtet werden. Doppelklicken Sie auf die englischen Untertitel, die auf jeder Videoseite angezeigt werden, um das Video von dort aus abzuspielen. Die Untertitel laufen synchron mit der Videowiedergabe. Wenn Sie irgendwelche Kommentare oder Wünsche haben, kontaktieren Sie uns bitte über dieses Kontaktformular.

https://forms.gle/WvT1wiN1qDtmnspy7