What we learned from 5 million books

236,151 views ・ 2011-09-20

TED


Dubbelklicka på de engelska undertexterna nedan för att spela upp videon.

Översättare: Lisbeth Pekkari Granskare: Johan Cegrell
00:15
Erez Lieberman Aiden: Everyone knows
0
15260
2000
Erez Lieberman Aiden: Alla vet
00:17
that a picture is worth a thousand words.
1
17260
3000
att en bild säger mer än tusen ord.
00:22
But we at Harvard
2
22260
2000
Men vi på Harvard
00:24
were wondering if this was really true.
3
24260
3000
funderade på om detta verkligen var sant.
00:27
(Laughter)
4
27260
2000
(Skratt)
00:29
So we assembled a team of experts,
5
29260
4000
Så vi satte ihop ett expertteam,
00:33
spanning Harvard, MIT,
6
33260
2000
från Harvard, MIT,
00:35
The American Heritage Dictionary, The Encyclopedia Britannica
7
35260
3000
The American Heritage Dictionary, Encyclopedia Britannica,
00:38
and even our proud sponsors,
8
38260
2000
och även vår stolta sponsor
00:40
the Google.
9
40260
3000
Google.
00:43
And we cogitated about this
10
43260
2000
Så vi grubblade på detta
00:45
for about four years.
11
45260
2000
i ungefär fyra år.
00:47
And we came to a startling conclusion.
12
47260
5000
Och kom fram till en uppseendeväckande slutsats.
00:52
Ladies and gentlemen, a picture is not worth a thousand words.
13
52260
3000
Mina damer och herrar, en bild säger inte mer än tusen ord.
00:55
In fact, we found some pictures
14
55260
2000
Vi hittade faktiskt en del bilder
00:57
that are worth 500 billion words.
15
57260
5000
som säger mer än 500 miljarder ord.
01:02
Jean-Baptiste Michel: So how did we get to this conclusion?
16
62260
2000
Jean-Baptiste Michel: Så hur kom vi fram till den slutsatsen?
01:04
So Erez and I were thinking about ways
17
64260
2000
Erez och jag funderade på hur
01:06
to get a big picture of human culture
18
66260
2000
vi skulle få en överblick över människans kultur
01:08
and human history: change over time.
19
68260
3000
och historia; förändringar över tiden.
01:11
So many books actually have been written over the years.
20
71260
2000
Så många böcker har ju faktiskt skrivits under åren.
01:13
So we were thinking, well the best way to learn from them
21
73260
2000
Så vi tänkte att det bästa sättet att lära sig från dem
01:15
is to read all of these millions of books.
22
75260
2000
är att läsa alla dessa miljontals böcker.
01:17
Now of course, if there's a scale for how awesome that is,
23
77260
3000
Och såklart, finns det en skala för hur häftigt det är,
01:20
that has to rank extremely, extremely high.
24
80260
3000
så måste det rankas extremt, extremt högt.
01:23
Now the problem is there's an X-axis for that,
25
83260
2000
Problemet är att det finns en X-axel för det,
01:25
which is the practical axis.
26
85260
2000
vilket är den praktiska axeln.
01:27
This is very, very low.
27
87260
2000
Den är väldigt, väldigt låg.
01:29
(Applause)
28
89260
3000
(Applåder)
01:32
Now people tend to use an alternative approach,
29
92260
3000
Folk tenderar att använda en alternativ approach,
01:35
which is to take a few sources and read them very carefully.
30
95260
2000
att ta ett fåtal källor och läsa dem väldigt noga.
01:37
This is extremely practical, but not so awesome.
31
97260
2000
Det är extremt praktiskt, men inte särskilt häftigt.
01:39
What you really want to do
32
99260
3000
Det man verkligen vill göra
01:42
is to get to the awesome yet practical part of this space.
33
102260
3000
är att nå den häftiga men ändå praktiska delen av det här utrymmet.
01:45
So it turns out there was a company across the river called Google
34
105260
3000
Och så visade det sig att det fanns ett företag på andra sidan floden; Google,
01:48
who had started a digitization project a few years back
35
108260
2000
som hade börjat ett digitaliseringsprojekt några år tidigare
01:50
that might just enable this approach.
36
110260
2000
som kanske skulle fixa den approachen.
01:52
They have digitized millions of books.
37
112260
2000
De har digitaliserat miljontals böcker.
01:54
So what that means is, one could use computational methods
38
114260
3000
Vilket innebär att man med hjälp av datorberäkningar
01:57
to read all of the books in a click of a button.
39
117260
2000
skulle kunna läsa alla böcker med ett knapptryck.
01:59
That's very practical and extremely awesome.
40
119260
3000
Det är väldigt praktiskt och extremt häftigt.
02:03
ELA: Let me tell you a little bit about where books come from.
41
123260
2000
ELA: Låt mig berätta lite om var böckerna kommer från.
02:05
Since time immemorial, there have been authors.
42
125260
3000
Sedan urminnes tider har det funnits författare.
02:08
These authors have been striving to write books.
43
128260
3000
Dessa författare har strävat efter att skriva böcker.
02:11
And this became considerably easier
44
131260
2000
Och detta blev betydligt enklare
02:13
with the development of the printing press some centuries ago.
45
133260
2000
när tryckpressen uppfanns för några hundra år sedan.
02:15
Since then, the authors have won
46
135260
3000
Sedan dess har författarna fått,
02:18
on 129 million distinct occasions,
47
138260
2000
vid 129 miljoner tillfällen,
02:20
publishing books.
48
140260
2000
böcker publicerade.
02:22
Now if those books are not lost to history,
49
142260
2000
Om de böckerna inte är förlorade i historien,
02:24
then they are somewhere in a library,
50
144260
2000
så finns de någonstans i ett bibliotek,
02:26
and many of those books have been getting retrieved from the libraries
51
146260
3000
och många av de böckerna har tagits upp från biblioteken
02:29
and digitized by Google,
52
149260
2000
och digitaliserats av Google,
02:31
which has scanned 15 million books to date.
53
151260
2000
som till dags dato har scannat 15 miljoner böcker.
02:33
Now when Google digitizes a book, they put it into a really nice format.
54
153260
3000
När Google digitaliserar en bok, gör de den i ett mycket trevligt format.
02:36
Now we've got the data, plus we have metadata.
55
156260
2000
Så vi har data, och vi har dessutom metadata.
02:38
We have information about things like where was it published,
56
158260
3000
Vi har information om saker som var den gavs ut,
02:41
who was the author, when was it published.
57
161260
2000
vem författaren var, när den gavs ut
02:43
And what we do is go through all of those records
58
163260
3000
Det vi gör är att gå genom alla inmatningar
02:46
and exclude everything that's not the highest quality data.
59
166260
4000
och tar bort allt som inte är data av högsta kvalitet.
02:50
What we're left with
60
170260
2000
Det vi har kvar
02:52
is a collection of five million books,
61
172260
3000
är en samling av fem miljoner böcker,
02:55
500 billion words,
62
175260
3000
500 miljarder ord,
02:58
a string of characters a thousand times longer
63
178260
2000
en teckensträng tusen gånger längre
03:00
than the human genome --
64
180260
3000
än det mänskliga genomet --
03:03
a text which, when written out,
65
183260
2000
en text som, om den skrevs ut,
03:05
would stretch from here to the Moon and back
66
185260
2000
skulle sträcka sig härifrån till månen och tillbaka
03:07
10 times over --
67
187260
2000
10 gånger om --
03:09
a veritable shard of our cultural genome.
68
189260
4000
en skärva av vårt kulturella genom.
03:13
Of course what we did
69
193260
2000
Det vi förstås gjorde
03:15
when faced with such outrageous hyperbole ...
70
195260
3000
när vi stod inför sådana enorma överdrifter...
03:18
(Laughter)
71
198260
2000
(Skratt)
03:20
was what any self-respecting researchers
72
200260
3000
var vad alla forskare med självrespekt
03:23
would have done.
73
203260
3000
skulle ha gjort.
03:26
We took a page out of XKCD,
74
206260
2000
Vi tog en sida från XKCD
03:28
and we said, "Stand back.
75
208260
2000
och sa "Backa,
03:30
We're going to try science."
76
210260
2000
vi ska testa vetenskap".
03:32
(Laughter)
77
212260
2000
(Skratt)
03:34
JM: Now of course, we were thinking,
78
214260
2000
JM: Vi tänkte förstås
03:36
well let's just first put the data out there
79
216260
2000
att vi först skulle lägga ut data
03:38
for people to do science to it.
80
218260
2000
så att folk skulle kunna göra vetenskap av det.
03:40
Now we're thinking, what data can we release?
81
220260
2000
Och så tänker vi, vilket data kan vi släppa?
03:42
Well of course, you want to take the books
82
222260
2000
Man vill ju förstås ta böckerna
03:44
and release the full text of these five million books.
83
224260
2000
och släppa den fulla texten från dessa fem miljoner böcker.
03:46
Now Google, and Jon Orwant in particular,
84
226260
2000
Google, och Jon Orwant i synnerhet,
03:48
told us a little equation that we should learn.
85
228260
2000
visade oss en liten ekvation som vi skulle lära oss.
03:50
So you have five million, that is, five million authors
86
230260
3000
Man har alltså fem miljoner, fem miljoner författare
03:53
and five million plaintiffs is a massive lawsuit.
87
233260
3000
och fem miljoner målsägande i en enorm rättsprocess.
03:56
So, although that would be really, really awesome,
88
236260
2000
Så även om det vore riktigt, riktigt häftigt,
03:58
again, that's extremely, extremely impractical.
89
238260
3000
så vore det extremt opraktiskt.
04:01
(Laughter)
90
241260
2000
(Skratt)
04:03
Now again, we kind of caved in,
91
243260
2000
Så vi gav oss,
04:05
and we did the very practical approach, which was a bit less awesome.
92
245260
3000
och tog den väldigt praktiska vägen, som var lite mindre häftig.
04:08
We said, well instead of releasing the full text,
93
248260
2000
Vi sa att okej, istället för att släppa den fulla texten
04:10
we're going to release statistics about the books.
94
250260
2000
så skulle vi släppa statistik om böckerna.
04:12
So take for instance "A gleam of happiness."
95
252260
2000
Ta till exempel "En glimt av lycka"
04:14
It's four words; we call that a four-gram.
96
254260
2000
Det är fyra ord; vi kallar det ett fyrgram.
04:16
We're going to tell you how many times a particular four-gram
97
256260
2000
Vi ska tala om hur många gånger ett visst fyrgram
04:18
appeared in books in 1801, 1802, 1803,
98
258260
2000
dök upp i böcker under 1801, 1802, 1803,
04:20
all the way up to 2008.
99
260260
2000
och hela vägen till 2008.
04:22
That gives us a time series
100
262260
2000
Det ger oss en tidsserie
04:24
of how frequently this particular sentence was used over time.
101
264260
2000
på hur frekvent den specifika meningen användes över tiden.
04:26
We do that for all the words and phrases that appear in those books,
102
266260
3000
Vi gör detta för alla ord och fraser som finns i dessa böcker,
04:29
and that gives us a big table of two billion lines
103
269260
3000
vilket ger oss en tabell med två miljarder rader
04:32
that tell us about the way culture has been changing.
104
272260
2000
som berättar för oss om hur kulturen har förändrats.
04:34
ELA: So those two billion lines,
105
274260
2000
ELA: De två miljarder raderna,
04:36
we call them two billion n-grams.
106
276260
2000
vi kallar dem två miljarder n-gram.
04:38
What do they tell us?
107
278260
2000
Vad säger de oss?
04:40
Well the individual n-grams measure cultural trends.
108
280260
2000
De individuella n-grammen mäter kulturella trender.
04:42
Let me give you an example.
109
282260
2000
Låt mig ge ett exempel.
04:44
Let's suppose that I am thriving,
110
284260
2000
Låt oss säga att jag lyckas väl (I am thriving),
04:46
then tomorrow I want to tell you about how well I did.
111
286260
2000
och i morgon vill jag säga hur bra det gått för mig.
04:48
And so I might say, "Yesterday, I throve."
112
288260
3000
Då kanske jag säger "Yesterday, I throve"
04:51
Alternatively, I could say, "Yesterday, I thrived."
113
291260
3000
Eller så skulle jag kunna säga "Yesterday, I thrived"
04:54
Well which one should I use?
114
294260
3000
Så vilken form ska jag använda?
04:57
How to know?
115
297260
2000
Hur ska jag veta?
04:59
As of about six months ago,
116
299260
2000
För ungefär sex månader sedan,
05:01
the state of the art in this field
117
301260
2000
var läget på det här området så
05:03
is that you would, for instance,
118
303260
2000
att du, som exempel,
05:05
go up to the following psychologist with fabulous hair,
119
305260
2000
skulle gå fram till den där psykologen med det fantastiska håret,
05:07
and you'd say,
120
307260
2000
och säga
05:09
"Steve, you're an expert on the irregular verbs.
121
309260
3000
"Steve, du är ju expert på oregelbundna verb.
05:12
What should I do?"
122
312260
2000
Vad ska jag göra?"
05:14
And he'd tell you, "Well most people say thrived,
123
314260
2000
Och han skulle säga "Ja, de flesta säger thrived,
05:16
but some people say throve."
124
316260
3000
men en del säger throve".
05:19
And you also knew, more or less,
125
319260
2000
Du vet också, mer eller mindre,
05:21
that if you were to go back in time 200 years
126
321260
3000
att om du skulle gå 200 år bakåt i tiden
05:24
and ask the following statesman with equally fabulous hair,
127
324260
3000
och fråga den här statsmannen med lika fantastiskt hår,
05:27
(Laughter)
128
327260
3000
(Skratt)
05:30
"Tom, what should I say?"
129
330260
2000
"Tom, vad ska jag säga?"
05:32
He'd say, "Well, in my day, most people throve,
130
332260
2000
Så skulle han svara "På min tid sa de flesta throve,
05:34
but some thrived."
131
334260
3000
men en del sa thrived"
05:37
So now what I'm just going to show you is raw data.
132
337260
2000
Så det jag nu ska visa är rådata.
05:39
Two rows from this table of two billion entries.
133
339260
4000
Två rader från den här tabellen med två miljarder poster.
05:43
What you're seeing is year by year frequency
134
343260
2000
Det ni ser är frekvensen år för år
05:45
of "thrived" and "throve" over time.
135
345260
3000
för "thrived" och "throve" över tiden.
05:49
Now this is just two
136
349260
2000
Detta är bara två
05:51
out of two billion rows.
137
351260
3000
av två miljarder rader.
05:54
So the entire data set
138
354260
2000
Så hela datasetet
05:56
is a billion times more awesome than this slide.
139
356260
3000
är en miljard gånger häftigare än den här bilden.
05:59
(Laughter)
140
359260
2000
(Skratt)
06:01
(Applause)
141
361260
4000
(Applåder)
06:05
JM: Now there are many other pictures that are worth 500 billion words.
142
365260
2000
JM: Det finns många andra bilder som säger mer än 500 miljarder ord.
06:07
For instance, this one.
143
367260
2000
Till exempel den här.
06:09
If you just take influenza,
144
369260
2000
Om man tar influensa
06:11
you will see peaks at the time where you knew
145
371260
2000
så ser man toppar vid de tider då man vet
06:13
big flu epidemics were killing people around the globe.
146
373260
3000
att influensaepidemier dödade folk runtom i världen.
06:16
ELA: If you were not yet convinced,
147
376260
3000
ELA: Om du inte är övertygad än,
06:19
sea levels are rising,
148
379260
2000
havsnivåerna stiger,
06:21
so is atmospheric CO2 and global temperature.
149
381260
3000
likaså koldioxidhalten i atmosfären och den globala temperaturen.
06:24
JM: You might also want to have a look at this particular n-gram,
150
384260
3000
JM: Du vill kanske också ta en titt på det här specifika n-grammet,
06:27
and that's to tell Nietzsche that God is not dead,
151
387260
3000
för att tala om för Nietzsche att Gud inte är död,
06:30
although you might agree that he might need a better publicist.
152
390260
3000
även om du håller med om att han behöver en bättre publicist.
06:33
(Laughter)
153
393260
2000
(Skratt)
06:35
ELA: You can get at some pretty abstract concepts with this sort of thing.
154
395260
3000
ELA: Man kan komma åt ganska abstrakta koncept på det här viset.
06:38
For instance, let me tell you the history
155
398260
2000
Låt mig berätta en historia
06:40
of the year 1950.
156
400260
2000
om året 1950.
06:42
Pretty much for the vast majority of history,
157
402260
2000
Under större delen av historien
06:44
no one gave a damn about 1950.
158
404260
2000
brydde sig ingen om 1950.
06:46
In 1700, in 1800, in 1900,
159
406260
2000
År 1700, 1800, 1900,
06:48
no one cared.
160
408260
3000
brydde sig ingen.
06:52
Through the 30s and 40s,
161
412260
2000
Under 30- och 40-talen
06:54
no one cared.
162
414260
2000
brydde sig ingen.
06:56
Suddenly, in the mid-40s,
163
416260
2000
Men plötsligt, i mitten av 40-talet,
06:58
there started to be a buzz.
164
418260
2000
började det snackas.
07:00
People realized that 1950 was going to happen,
165
420260
2000
Folk insåg att 1950 skulle hända,
07:02
and it could be big.
166
422260
2000
och att det kunde bli stort.
07:04
(Laughter)
167
424260
3000
(Skratt)
07:07
But nothing got people interested in 1950
168
427260
3000
Men inget fick folk så intresserade av 1950
07:10
like the year 1950.
169
430260
3000
som 1950 själv.
07:13
(Laughter)
170
433260
3000
(Skratt)
07:16
People were walking around obsessed.
171
436260
2000
Folk gick omkring som besatta.
07:18
They couldn't stop talking
172
438260
2000
De kunde inte sluta prata
07:20
about all the things they did in 1950,
173
440260
3000
om allt de gjorde 1950,
07:23
all the things they were planning to do in 1950,
174
443260
3000
allt de planerade att göra 1950
07:26
all the dreams of what they wanted to accomplish in 1950.
175
446260
5000
alla drömmar de ville förverkliga under 1950.
07:31
In fact, 1950 was so fascinating
176
451260
2000
Faktum är att 1950 var så fascinerande
07:33
that for years thereafter,
177
453260
2000
att under flera år efteråt
07:35
people just kept talking about all the amazing things that happened,
178
455260
3000
fortsatte folk prata om alla fantastiska saker som hände,
07:38
in '51, '52, '53.
179
458260
2000
-51, -52, -53.
07:40
Finally in 1954,
180
460260
2000
Till slut, 1954,
07:42
someone woke up and realized
181
462260
2000
vaknade någon upp och insåg
07:44
that 1950 had gotten somewhat passé.
182
464260
4000
att 1950 nu var ganska passé.
07:48
(Laughter)
183
468260
2000
(Skratt)
07:50
And just like that, the bubble burst.
184
470260
2000
Och vips så sprack bubblan.
07:52
(Laughter)
185
472260
2000
(Skratt)
07:54
And the story of 1950
186
474260
2000
Och historien om 1950
07:56
is the story of every year that we have on record,
187
476260
2000
är historien om vartenda år som vi har dokumentation om,
07:58
with a little twist, because now we've got these nice charts.
188
478260
3000
med en twist, för nu har vi ju de här fina diagrammen.
08:01
And because we have these nice charts, we can measure things.
189
481260
3000
Och eftersom vi har de fina diagrammen, kan vi mäta saker.
08:04
We can say, "Well how fast does the bubble burst?"
190
484260
2000
Vi kan säga "Hur fort spricker bubblan?"
08:06
And it turns out that we can measure that very precisely.
191
486260
3000
Och det visar sig att vi kan mäta det väldigt exakt.
08:09
Equations were derived, graphs were produced,
192
489260
3000
Så ekvationer skapades, diagram producerades,
08:12
and the net result
193
492260
2000
och nettoresultatet
08:14
is that we find that the bubble bursts faster and faster
194
494260
3000
är att vi ser att bubblan spricker fortare och fortare
08:17
with each passing year.
195
497260
2000
för varje år som går.
08:19
We are losing interest in the past more rapidly.
196
499260
5000
Vi tappar intresset för det förgångna allt snabbare.
08:24
JM: Now a little piece of career advice.
197
504260
2000
JM: Nu lite karriärrådgivning.
08:26
So for those of you who seek to be famous,
198
506260
2000
För er som vill bli berömda,
08:28
we can learn from the 25 most famous political figures,
199
508260
2000
vi kan lära från de 25 mest berömda politiska figurerna,
08:30
authors, actors and so on.
200
510260
2000
författare, skådespelare och så vidare.
08:32
So if you want to become famous early on, you should be an actor,
201
512260
3000
Vill du bli berömd tidigt så ska du bli skådespelare,
08:35
because then fame starts rising by the end of your 20s --
202
515260
2000
för då börjar berömmelsen stiga i slutet av 20-årsåldern --
08:37
you're still young, it's really great.
203
517260
2000
du är fortfarande ung, det är riktigt bra.
08:39
Now if you can wait a little bit, you should be an author,
204
519260
2000
Om du kan vänta lite så ska du hellre bli författare,
08:41
because then you rise to very great heights,
205
521260
2000
för då kan du stiga till enorma höjder,
08:43
like Mark Twain, for instance: extremely famous.
206
523260
2000
som t.ex. Mark Twain, och bli extremt berömd.
08:45
But if you want to reach the very top,
207
525260
2000
Men om du vill nå den yttersta toppen
08:47
you should delay gratification
208
527260
2000
bör du senarelägga njutningen av berömmelse
08:49
and, of course, become a politician.
209
529260
2000
och förstås bli politiker.
08:51
So here you will become famous by the end of your 50s,
210
531260
2000
För då blir du berömd i slutet av 50-årsåldern,
08:53
and become very, very famous afterward.
211
533260
2000
och väldigt väldigt berömd efteråt.
08:55
So scientists also tend to get famous when they're much older.
212
535260
3000
Vetenskapsmän tenderar att bli berömda när de är mycket äldre.
08:58
Like for instance, biologists and physics
213
538260
2000
Biologer och fysiker
09:00
tend to be almost as famous as actors.
214
540260
2000
tenderar att bli nästan lika berömda som skådespelare.
09:02
One mistake you should not do is become a mathematician.
215
542260
3000
Ett misstag du inte bör göra är att bli matematiker.
09:05
(Laughter)
216
545260
2000
(Skratt)
09:07
If you do that,
217
547260
2000
Blir du det
09:09
you might think, "Oh great. I'm going to do my best work when I'm in my 20s."
218
549260
3000
kan du tänka "Bra, jag kommer göra mitt bästa jobb i 20-årsåldern".
09:12
But guess what, nobody will really care.
219
552260
2000
Men vet du vad? Ingen kommer att bry sig.
09:14
(Laughter)
220
554260
3000
(Skratt)
09:17
ELA: There are more sobering notes
221
557260
2000
ELA: Det finns lugnande noter
09:19
among the n-grams.
222
559260
2000
bland n-grammen.
09:21
For instance, here's the trajectory of Marc Chagall,
223
561260
2000
Här är till exempel Marc Chagalls bana,
09:23
an artist born in 1887.
224
563260
2000
en konstnär, född 1887.
09:25
And this looks like the normal trajectory of a famous person.
225
565260
3000
Det ser ut som en normal bana för en berömd person.
09:28
He gets more and more and more famous,
226
568260
4000
Han blir mer och mer berömd,
09:32
except if you look in German.
227
572260
2000
förutom om man tittar på tyska.
09:34
If you look in German, you see something completely bizarre,
228
574260
2000
Om man tittar på tyska så ser man något helt bisarrt,
09:36
something you pretty much never see,
229
576260
2000
något man nästan aldrig ser,
09:38
which is he becomes extremely famous
230
578260
2000
och det är att han blir extremt berömd
09:40
and then all of a sudden plummets,
231
580260
2000
och plötsligt dyker
09:42
going through a nadir between 1933 and 1945,
232
582260
3000
till en lägsta punkt mellan 1933 och 1945,
09:45
before rebounding afterward.
233
585260
3000
innan han återhämtar sig.
09:48
And of course, what we're seeing
234
588260
2000
Det vi förstås ser här
09:50
is the fact Marc Chagall was a Jewish artist
235
590260
3000
är det faktum att Marc Chagall var en judisk konstnär
09:53
in Nazi Germany.
236
593260
2000
i nazi-Tyskland.
09:55
Now these signals
237
595260
2000
Dessa signaler
09:57
are actually so strong
238
597260
2000
är så starka
09:59
that we don't need to know that someone was censored.
239
599260
3000
att vi inte behöver veta att någon blev censurerad.
10:02
We can actually figure it out
240
602260
2000
Vi kan lista ut det
10:04
using really basic signal processing.
241
604260
2000
genom att använda grundläggande signalbehandling.
10:06
Here's a simple way to do it.
242
606260
2000
Här är ett enkelt sätt att göra det på.
10:08
Well, a reasonable expectation
243
608260
2000
Ett rimligt antagande
10:10
is that somebody's fame in a given period of time
244
610260
2000
är att någons berömmelse under en given tidsperiod
10:12
should be roughly the average of their fame before
245
612260
2000
borde vara ungefär genomsnittet av deras berömmelse innan
10:14
and their fame after.
246
614260
2000
och deras berömmelse efter.
10:16
So that's sort of what we expect.
247
616260
2000
Det är ungefär det vi väntar oss.
10:18
And we compare that to the fame that we observe.
248
618260
3000
Så vi jämför det med den berömmelse vi observerar.
10:21
And we just divide one by the other
249
621260
2000
Och delar den ena med den andra
10:23
to produce something we call a suppression index.
250
623260
2000
för att skapa något vi kallar förtryck-index.
10:25
If the suppression index is very, very, very small,
251
625260
3000
Om förtryck-indexet är väldigt, väldigt, väldigt litet
10:28
then you very well might be being suppressed.
252
628260
2000
kan det mycket väl vara så att du blir förtryckt.
10:30
If it's very large, maybe you're benefiting from propaganda.
253
630260
3000
Om det är väldigt stort kanske du drar nytta av propaganda.
10:34
JM: Now you can actually look at
254
634260
2000
JM: Man kan faktiskt titta på
10:36
the distribution of suppression indexes over whole populations.
255
636260
3000
fördelningen av förtryck-index över hela befolkningar.
10:39
So for instance, here --
256
639260
2000
Till exempel, här --
10:41
this suppression index is for 5,000 people
257
641260
2000
det här indexet är för 5.000 personer
10:43
picked in English books where there's no known suppression --
258
643260
2000
utvalda ur engelska böcker utan känt förtryck --
10:45
it would be like this, basically tightly centered on one.
259
645260
2000
det skulle vara så här, hårt centrerat kring en.
10:47
What you expect is basically what you observe.
260
647260
2000
Det man förväntar sig är i princip det man observerar.
10:49
This is distribution as seen in Germany --
261
649260
2000
Det här är fördelningen sedd i Tyskland --
10:51
very different, it's shifted to the left.
262
651260
2000
väldigt annorlunda, förflyttad åt vänster.
10:53
People talked about it twice less as it should have been.
263
653260
3000
Folk talade om det hälften så lite som de borde ha gjort.
10:56
But much more importantly, the distribution is much wider.
264
656260
2000
Men mycket viktigare, fördelningen är mycket bredare.
10:58
There are many people who end up on the far left on this distribution
265
658260
3000
Det är många som hamnar långt till vänster i fördelningen
11:01
who are talked about 10 times fewer than they should have been.
266
661260
3000
som omtalas 10 gånger mindre än de borde ha omtalats.
11:04
But then also many people on the far right
267
664260
2000
Men också många långt till höger
11:06
who seem to benefit from propaganda.
268
666260
2000
som verkar dra nytta av propaganda.
11:08
This picture is the hallmark of censorship in the book record.
269
668260
3000
Den här bilden är stämpeln för censur i bokregistret.
11:11
ELA: So culturomics
270
671260
2000
ELA: Så kulturomik
11:13
is what we call this method.
271
673260
2000
är det vi kallar den här metoden.
11:15
It's kind of like genomics.
272
675260
2000
Det är ungefär som genomik.
11:17
Except genomics is a lens on biology
273
677260
2000
Förutom att genomik är en lins mot biologin
11:19
through the window of the sequence of bases in the human genome.
274
679260
3000
genom fönstret av basernas ordningsföljd i det mänskliga genomet.
11:22
Culturomics is similar.
275
682260
2000
Kulturomik är något liknande.
11:24
It's the application of massive-scale data collection analysis
276
684260
3000
Användandet av storskalig datainsamling och analys
11:27
to the study of human culture.
277
687260
2000
på studier av människans kultur.
11:29
Here, instead of through the lens of a genome,
278
689260
2000
Och här, istället för att se det genom ett fönster mot genomet,
11:31
through the lens of digitized pieces of the historical record.
279
691260
3000
genom ett fönster mot digitaliserade bitar av historien.
11:34
The great thing about culturomics
280
694260
2000
Det bra med kulturomik
11:36
is that everyone can do it.
281
696260
2000
är att alla kan göra det.
11:38
Why can everyone do it?
282
698260
2000
Varför kan alla göra det?
11:40
Everyone can do it because three guys,
283
700260
2000
Alla kan göra det för att tre killar,
11:42
Jon Orwant, Matt Gray and Will Brockman over at Google,
284
702260
3000
Jon Orwant, Matt Gray och Will Brockman på Google
11:45
saw the prototype of the Ngram Viewer,
285
705260
2000
såg prototypen av Ngram Viewer
11:47
and they said, "This is so fun.
286
707260
2000
och sa "Det här är så kul.
11:49
We have to make this available for people."
287
709260
3000
Vi måste göra detta tillgängligt för folk".
11:52
So in two weeks flat -- the two weeks before our paper came out --
288
712260
2000
Så på två veckor blankt -- de två veckorna innan vår rapport kom ut --
11:54
they coded up a version of the Ngram Viewer for the general public.
289
714260
3000
kodade de en version av Ngram Viewer för allmänheten.
11:57
And so you too can type in any word or phrase that you're interested in
290
717260
3000
Så du kan också mata ett ord eller en fras du är intresserad av
12:00
and see its n-gram immediately --
291
720260
2000
och se dess n-gram omedelbart --
12:02
also browse examples of all the various books
292
722260
2000
och se exempel på alla möjliga böcker
12:04
in which your n-gram appears.
293
724260
2000
där ditt n-gram förekommer.
12:06
JM: Now this was used over a million times on the first day,
294
726260
2000
JM: Det användes mer än en miljon gånger den första dagen,
12:08
and this is really the best of all the queries.
295
728260
2000
och detta är den bästa av alla sökningar.
12:10
So people want to be their best, put their best foot forward.
296
730260
3000
Folk ville vara sitt bästa, visa framfötterna.
12:13
But it turns out in the 18th century, people didn't really care about that at all.
297
733260
3000
Men det visar sig att på 1700-talet brydde man sig inte om det alls.
12:16
They didn't want to be their best, they wanted to be their beft.
298
736260
3000
De ville inte vara sitt bästa, de ville vara sitt bäfta.
12:19
So what happened is, of course, this is just a mistake.
299
739260
3000
Det som hände är förstås att det bara är ett misstag.
12:22
It's not that strove for mediocrity,
300
742260
2000
De strävade inte efter att vara mediokra,
12:24
it's just that the S used to be written differently, kind of like an F.
301
744260
3000
det är bara det att S skrevs annorlunda, ungefär som F.
12:27
Now of course, Google didn't pick this up at the time,
302
747260
3000
Google såg inte detta direkt
12:30
so we reported this in the science article that we wrote.
303
750260
3000
så vi rapporterade om det i en artikel vi skrev.
12:33
But it turns out this is just a reminder
304
753260
2000
Men det är bara en påminnelse
12:35
that, although this is a lot of fun,
305
755260
2000
om att, hur kul detta än är,
12:37
when you interpret these graphs, you have to be very careful,
306
757260
2000
så måste man vara försiktig när man tolkar diagrammen,
12:39
and you have to adopt the base standards in the sciences.
307
759260
3000
och man måste anamma vetenskapliga standarder.
12:42
ELA: People have been using this for all kinds of fun purposes.
308
762260
3000
ELA: Folk har använt det här för alla möjliga roliga syften.
12:45
(Laughter)
309
765260
7000
(Skratt)
12:52
Actually, we're not going to have to talk,
310
772260
2000
Vi behöver faktiskt inte ens prata,
12:54
we're just going to show you all the slides and remain silent.
311
774260
3000
vi visar bara bilderna och håller tyst.
12:57
This person was interested in the history of frustration.
312
777260
3000
Den här personen var intresserad av frustrationens historia.
13:00
There's various types of frustration.
313
780260
3000
Det finns olika typer av frustration.
13:03
If you stub your toe, that's a one A "argh."
314
783260
3000
Om du slår tån så är det ett en-A "argh"
13:06
If the planet Earth is annihilated by the Vogons
315
786260
2000
Om Jorden förintas av Vogoner
13:08
to make room for an interstellar bypass,
316
788260
2000
för att göra plats för en interstellär motorväg
13:10
that's an eight A "aaaaaaaargh."
317
790260
2000
så är det ett åtta-A "aaaaaaaargh"
13:12
This person studies all the "arghs,"
318
792260
2000
Den här personen studerade alla "arghs",
13:14
from one through eight A's.
319
794260
2000
från ett till åtta A.
13:16
And it turns out
320
796260
2000
Och det visade sig
13:18
that the less-frequent "arghs"
321
798260
2000
att de mindre förekommande "arghs"
13:20
are, of course, the ones that correspond to things that are more frustrating --
322
800260
3000
är de som hör ihop med saker som är mer frustrerande --
13:23
except, oddly, in the early 80s.
323
803260
3000
förutom, märkligt nog, i början av 80-talet.
13:26
We think that might have something to do with Reagan.
324
806260
2000
Vi tror att det kan ha att göra med Reagan.
13:28
(Laughter)
325
808260
2000
(Skratt)
13:30
JM: There are many usages of this data,
326
810260
3000
JM: Det finns många användningsområden för dessa data,
13:33
but the bottom line is that the historical record is being digitized.
327
813260
3000
men grunden är att historien digitaliseras.
13:36
Google has started to digitize 15 million books.
328
816260
2000
Google har börjat digitalisera 15 miljoner böcker.
13:38
That's 12 percent of all the books that have ever been published.
329
818260
2000
Det är 12 procent av alla böcker som någonsin givits ut.
13:40
It's a sizable chunk of human culture.
330
820260
3000
Det är en rätt stor bit mänsklig kultur.
13:43
There's much more in culture: there's manuscripts, there newspapers,
331
823260
3000
Det finns mycket mer i kultur: manuskript, tidningar,
13:46
there's things that are not text, like art and paintings.
332
826260
2000
saker som inte är text, som konst och målningar.
13:48
These all happen to be on our computers,
333
828260
2000
De kommer att finnas i våra datorer,
13:50
on computers across the world.
334
830260
2000
i datorer runtom i världen.
13:52
And when that happens, that will transform the way we have
335
832260
3000
Och när det händer kommer det att förändra vårt sätt
13:55
to understand our past, our present and human culture.
336
835260
2000
att förstå vårt förflutna, vår nutid och människans kultur.
13:57
Thank you very much.
337
837260
2000
Tack så mycket.
13:59
(Applause)
338
839260
3000
(Applåder)
Om denna webbplats

På den här webbplatsen hittar du YouTube-videor som är användbara för att lära sig engelska. Du kommer att få se engelska lektioner som ges av förstklassiga lärare från hela världen. Dubbelklicka på de engelska undertexterna som visas på varje videosida för att spela upp videon därifrån. Undertexterna rullar i takt med videouppspelningen. Om du har några kommentarer eller önskemål kan du kontakta oss via detta kontaktformulär.

https://forms.gle/WvT1wiN1qDtmnspy7