What we learned from 5 million books

236,154 views ・ 2011-09-20

TED


Proszę kliknąć dwukrotnie na poniższe angielskie napisy, aby odtworzyć film.

Tłumaczenie: Agata Leśnicka Korekta: Filip Jaromczyk
00:15
Erez Lieberman Aiden: Everyone knows
0
15260
2000
Erez Lieberman Aiden: Każdy wie,
00:17
that a picture is worth a thousand words.
1
17260
3000
że jeden obraz jest wart tysiąca słów.
00:22
But we at Harvard
2
22260
2000
Ale my na Harvardzie
00:24
were wondering if this was really true.
3
24260
3000
zastanawialiśmy się, czy to rzeczywiście prawda.
00:27
(Laughter)
4
27260
2000
(Śmiech)
00:29
So we assembled a team of experts,
5
29260
4000
Więc zebraliśmy zespół ekspertów,
00:33
spanning Harvard, MIT,
6
33260
2000
obejmujący Harvard, MIT,
00:35
The American Heritage Dictionary, The Encyclopedia Britannica
7
35260
3000
słownik American Heritage Dictionary, encyklopedię Britannica,
00:38
and even our proud sponsors,
8
38260
2000
a nawet naszych dumnych sponsorów -
00:40
the Google.
9
40260
3000
Google.
00:43
And we cogitated about this
10
43260
2000
I rozmyślaliśmy nad tym
00:45
for about four years.
11
45260
2000
przez około czterech lat.
00:47
And we came to a startling conclusion.
12
47260
5000
I doszliśmy do zaskakującego wniosku.
00:52
Ladies and gentlemen, a picture is not worth a thousand words.
13
52260
3000
Panie i panowie, obraz nie jest wart tysiąca słów.
00:55
In fact, we found some pictures
14
55260
2000
W rzeczywistości dowiedzieliśmy się, że niektóre obrazy
00:57
that are worth 500 billion words.
15
57260
5000
są warte 500 miliardów słów.
01:02
Jean-Baptiste Michel: So how did we get to this conclusion?
16
62260
2000
Jean-Baptiste Michel: Więc jak doszliśmy do tego wniosku?
01:04
So Erez and I were thinking about ways
17
64260
2000
Erez i ja myśleliśmy o sposobach
01:06
to get a big picture of human culture
18
66260
2000
uzyskania pełnego obrazu ludzkiej kultury
01:08
and human history: change over time.
19
68260
3000
i historii: zmiany na przestrzeni lat.
01:11
So many books actually have been written over the years.
20
71260
2000
Tak wiele książek zostało napisanych przez lata.
01:13
So we were thinking, well the best way to learn from them
21
73260
2000
Więc myśleliśmy, najlepszą drogą do nauczenia się z nich
01:15
is to read all of these millions of books.
22
75260
2000
jest przeczytanie tych wszystkich milionów książek.
01:17
Now of course, if there's a scale for how awesome that is,
23
77260
3000
Oczywiście jeśli jest skala tego, jak bardzo jest to wspaniałe,
01:20
that has to rank extremely, extremely high.
24
80260
3000
musi się to plasować bardzo, bardzo wysoko.
01:23
Now the problem is there's an X-axis for that,
25
83260
2000
Problem polega na tym, że jest także oś X,
01:25
which is the practical axis.
26
85260
2000
która jest osią praktyczności.
01:27
This is very, very low.
27
87260
2000
Ta jest bardzo, bardzo niska.
01:29
(Applause)
28
89260
3000
(Oklaski)
01:32
Now people tend to use an alternative approach,
29
92260
3000
Ludzie używają innego podejścia,
01:35
which is to take a few sources and read them very carefully.
30
95260
2000
które polega na wzięci kilku źródeł i przeczytania ich bardzo uważnie.
01:37
This is extremely practical, but not so awesome.
31
97260
2000
To jest bardzo praktyczne, ale nie tak wspaniałe.
01:39
What you really want to do
32
99260
3000
Tak naprawdę chcielibyśmy
01:42
is to get to the awesome yet practical part of this space.
33
102260
3000
mieścić się w jednocześnie wspaniałej i praktycznej części tej przestrzeni.
01:45
So it turns out there was a company across the river called Google
34
105260
3000
Więc okazuje się, że była za morzem firma o nazwie Google,
01:48
who had started a digitization project a few years back
35
108260
2000
która zaczęła kilka lat temu projekt cyfryzacji,
01:50
that might just enable this approach.
36
110260
2000
który może pozwolić na takie podejście.
01:52
They have digitized millions of books.
37
112260
2000
Zcyfryzowali miliony książek.
01:54
So what that means is, one could use computational methods
38
114260
3000
Oznacza to, że można by użyć metod obliczeniowych,
01:57
to read all of the books in a click of a button.
39
117260
2000
by przeczytać wszystkie te książki za jednym kliknięciem.
01:59
That's very practical and extremely awesome.
40
119260
3000
To bardzo praktyczne i niezwykle wspaniałe.
02:03
ELA: Let me tell you a little bit about where books come from.
41
123260
2000
ELA: Opowiem wam trochę o tym, skąd wzięły się książki.
02:05
Since time immemorial, there have been authors.
42
125260
3000
Od niepamiętnych czasów byli autorzy.
02:08
These authors have been striving to write books.
43
128260
3000
Ci autorzy pisali książki.
02:11
And this became considerably easier
44
131260
2000
A to stało się znacznie łatwiejsze
02:13
with the development of the printing press some centuries ago.
45
133260
2000
z rozwojem prasy drukarskiej kilka wieków temu.
02:15
Since then, the authors have won
46
135260
3000
Od tego czasu, autorom udało sie
02:18
on 129 million distinct occasions,
47
138260
2000
129 milionów razy
02:20
publishing books.
48
140260
2000
wydać książkę.
02:22
Now if those books are not lost to history,
49
142260
2000
Jeśli te książki nie są stracone dla historii,
02:24
then they are somewhere in a library,
50
144260
2000
wówczas są gdzieś w bibliotece,
02:26
and many of those books have been getting retrieved from the libraries
51
146260
3000
a wiele z tych książek zostało wyciągniętych z bibliotek
02:29
and digitized by Google,
52
149260
2000
i zcyfryzowanych przez Google,
02:31
which has scanned 15 million books to date.
53
151260
2000
które do dzisiejszego dnia zeskanowało 15 milionów książek.
02:33
Now when Google digitizes a book, they put it into a really nice format.
54
153260
3000
Kiedy Google zmienia postać książki na cyfrową, umieszcza ją w bardzo ładnym formacie.
02:36
Now we've got the data, plus we have metadata.
55
156260
2000
Mamy teraz dane, plus mamy metadane.
02:38
We have information about things like where was it published,
56
158260
3000
Mamy informacje o rzeczach takich jak gdzie została ona wydana,
02:41
who was the author, when was it published.
57
161260
2000
kim był autor, kiedy była ona wydana.
02:43
And what we do is go through all of those records
58
163260
3000
I przechodzimy przez te wszystkie zapisy
02:46
and exclude everything that's not the highest quality data.
59
166260
4000
i wykluczamy wszystko, co nie jest danymi najwyższej jakości.
02:50
What we're left with
60
170260
2000
Zostajemy ze
02:52
is a collection of five million books,
61
172260
3000
zbiorem pięciu milionów książek,
02:55
500 billion words,
62
175260
3000
500 miliardów słów,
02:58
a string of characters a thousand times longer
63
178260
2000
ciąg znaków tysiąc razy dłuższy
03:00
than the human genome --
64
180260
3000
niż ludzki genom -
03:03
a text which, when written out,
65
183260
2000
tekst który, po jego zapisaniu,
03:05
would stretch from here to the Moon and back
66
185260
2000
rozciągałby się stąd do księżyca i z powrotem
03:07
10 times over --
67
187260
2000
10 razy -
03:09
a veritable shard of our cultural genome.
68
189260
4000
prawdziwy kryształ naszego genomu kulturowego.
03:13
Of course what we did
69
193260
2000
Oczywiście to, co zrobiliśmy
03:15
when faced with such outrageous hyperbole ...
70
195260
3000
w obliczu takiej wygórowanej hiperboli...
03:18
(Laughter)
71
198260
2000
(Śmiech)
03:20
was what any self-respecting researchers
72
200260
3000
było tym, co każdy szanujący się naukowiec
03:23
would have done.
73
203260
3000
by zrobił.
03:26
We took a page out of XKCD,
74
206260
2000
Wzięliśmy pasek komiksu o nauce XKDC
03:28
and we said, "Stand back.
75
208260
2000
i powiedzieliśmy, "Cofnijcie się.
03:30
We're going to try science."
76
210260
2000
Spróbujemy nauki."
03:32
(Laughter)
77
212260
2000
(Śmiech)
03:34
JM: Now of course, we were thinking,
78
214260
2000
JM: Oczywiście myśleliśmy
03:36
well let's just first put the data out there
79
216260
2000
o tym, by wydobyć dane
03:38
for people to do science to it.
80
218260
2000
dla ludzi, by zrobili z nimi naukę.
03:40
Now we're thinking, what data can we release?
81
220260
2000
Teraz pomyśleliśmy jakie dane możemy uwolnić?
03:42
Well of course, you want to take the books
82
222260
2000
Oczywiście chcemy wziąć książki
03:44
and release the full text of these five million books.
83
224260
2000
i uwolnić pełny tekst tych pięciu milionów książek.
03:46
Now Google, and Jon Orwant in particular,
84
226260
2000
Google i Jon Orwant w szczególności
03:48
told us a little equation that we should learn.
85
228260
2000
powiedział nam o małym równaniu, które powinniśmy zapamiętać.
03:50
So you have five million, that is, five million authors
86
230260
3000
Więc mamy pięć milionów, to znaczy, pięć milionów autorów
03:53
and five million plaintiffs is a massive lawsuit.
87
233260
3000
a pięć milionów powodów to wielki pozew.
03:56
So, although that would be really, really awesome,
88
236260
2000
Więc choć byłoby to naprawdę, naprawdę wspaniałe
03:58
again, that's extremely, extremely impractical.
89
238260
3000
znów, jest to bardzo, bardzo niepraktyczne.
04:01
(Laughter)
90
241260
2000
(Śmiech)
04:03
Now again, we kind of caved in,
91
243260
2000
Jakoś się poddaliśmy
04:05
and we did the very practical approach, which was a bit less awesome.
92
245260
3000
i zastosowaliśmy to bardzo praktyczne podejście, które było troszkę mniej wspaniałe.
04:08
We said, well instead of releasing the full text,
93
248260
2000
Powiedzieliśmy, cóż zamiast uwalniania pełnego tekstu,
04:10
we're going to release statistics about the books.
94
250260
2000
uwolnimy statystyki dotyczące książek.
04:12
So take for instance "A gleam of happiness."
95
252260
2000
Weźmy na przykład "błysk szczęścia"
04:14
It's four words; we call that a four-gram.
96
254260
2000
To dwa słowa. Nazywamy to dwugramem.
04:16
We're going to tell you how many times a particular four-gram
97
256260
2000
Powiemy wam jak wiele razy poszczególny czterogram
04:18
appeared in books in 1801, 1802, 1803,
98
258260
2000
pojawił się w książkach w 1801, 1802, 1803,
04:20
all the way up to 2008.
99
260260
2000
aż do 2008.
04:22
That gives us a time series
100
262260
2000
Daje nam to szereg czasowy
04:24
of how frequently this particular sentence was used over time.
101
264260
2000
częstotliwości pojawiania się tego konkretnego zdania w ciągu tych lat.
04:26
We do that for all the words and phrases that appear in those books,
102
266260
3000
Robimy to dla wszystkich słów i zwrotów, które występują w tych książkach,
04:29
and that gives us a big table of two billion lines
103
269260
3000
a to daje nam wielką tabelę z dwóch miliardów linijek,
04:32
that tell us about the way culture has been changing.
104
272260
2000
która mówi nam o sposobie, w jaki zmieniała się kultura.
04:34
ELA: So those two billion lines,
105
274260
2000
ELA: Więc te dwa miliardy wierszy,
04:36
we call them two billion n-grams.
106
276260
2000
nazywamy jest dwoma miliardami n-gramów.
04:38
What do they tell us?
107
278260
2000
Co nam mówią?
04:40
Well the individual n-grams measure cultural trends.
108
280260
2000
Poszczególne n-gramy mierzą trendy kulturowe.
04:42
Let me give you an example.
109
282260
2000
Pozwólcie, że podam wam przykład.
04:44
Let's suppose that I am thriving,
110
284260
2000
Załóżmy, że kwitnę,
04:46
then tomorrow I want to tell you about how well I did.
111
286260
2000
a jutro będę chciał wam powiedzieć jak dobrze mi poszło.
04:48
And so I might say, "Yesterday, I throve."
112
288260
3000
Więc mogę powiedzieć "Wczoraj kwitłem."
04:51
Alternatively, I could say, "Yesterday, I thrived."
113
291260
3000
Względnie, mogę powiedzieć "Wczoraj kwitnąłem."
04:54
Well which one should I use?
114
294260
3000
Którego z tych zwrotów powinienem użyć?
04:57
How to know?
115
297260
2000
Skąd to wiedzieć?
04:59
As of about six months ago,
116
299260
2000
Około sześć miesięcy temu,
05:01
the state of the art in this field
117
301260
2000
praktyką w tej dziedzinie
05:03
is that you would, for instance,
118
303260
2000
było, na przykład,
05:05
go up to the following psychologist with fabulous hair,
119
305260
2000
pójście do tego psychologa z fantstycznymi włosami
05:07
and you'd say,
120
307260
2000
i powiedzenie:
05:09
"Steve, you're an expert on the irregular verbs.
121
309260
3000
"Steve, jesteś ekspertem od czasowników nieregularnych.
05:12
What should I do?"
122
312260
2000
Co powinienem zrobić?"
05:14
And he'd tell you, "Well most people say thrived,
123
314260
2000
A on by powiedział "Cóż, większość ludzi mówi "kwitnąć",
05:16
but some people say throve."
124
316260
3000
ale niektórzy mówią "kwiść".
05:19
And you also knew, more or less,
125
319260
2000
I wiadomo także było,
05:21
that if you were to go back in time 200 years
126
321260
3000
że jeśli cofnąłbyś się w czasie o 200 lat
05:24
and ask the following statesman with equally fabulous hair,
127
324260
3000
i spytał tego męża stanu z równie fantastycznymi włosami,
05:27
(Laughter)
128
327260
3000
(Śmiech)
05:30
"Tom, what should I say?"
129
330260
2000
"Tom, co powinienem zrobić?"
05:32
He'd say, "Well, in my day, most people throve,
130
332260
2000
Powiedziałby, "Cóż, w moich czasach, większość ludzi kwitła,
05:34
but some thrived."
131
334260
3000
ale niektórzy kwitnęli."
05:37
So now what I'm just going to show you is raw data.
132
337260
2000
Teraz pokażę wam surowe dane.
05:39
Two rows from this table of two billion entries.
133
339260
4000
Dwa wiersze z tej tabeli dwóch miliardów danych.
05:43
What you're seeing is year by year frequency
134
343260
2000
Widzicie częstotliwość z roku na rok
05:45
of "thrived" and "throve" over time.
135
345260
3000
"kwitnęłem" i "kwitnąłem" na przestrzeni czasu.
05:49
Now this is just two
136
349260
2000
To tylko dwa
05:51
out of two billion rows.
137
351260
3000
z dwóch miliardów wierszy.
05:54
So the entire data set
138
354260
2000
Więc cały zestaw danych
05:56
is a billion times more awesome than this slide.
139
356260
3000
jest miliard razy wspanialszy niż tej slajd.
05:59
(Laughter)
140
359260
2000
(Śmiech)
06:01
(Applause)
141
361260
4000
(Oklaski)
06:05
JM: Now there are many other pictures that are worth 500 billion words.
142
365260
2000
JM:Jest wiele innych obrazków, które są warte 500 miliardów słów.
06:07
For instance, this one.
143
367260
2000
Na przykład ten.
06:09
If you just take influenza,
144
369260
2000
Jeśli weźmiecie grypę,
06:11
you will see peaks at the time where you knew
145
371260
2000
zobaczycie wzrosty w czasie, kiedy wiadomo,
06:13
big flu epidemics were killing people around the globe.
146
373260
3000
że wielkie epidemie grypy zabijały ludzi na świecie.
06:16
ELA: If you were not yet convinced,
147
376260
3000
ELA: Jeśli jeszcze nie jesteście przekonani,
06:19
sea levels are rising,
148
379260
2000
poziomy morza się podnoszą,
06:21
so is atmospheric CO2 and global temperature.
149
381260
3000
tak samo jak poziom CO2 w atmosferze i temperatura na Ziemi.
06:24
JM: You might also want to have a look at this particular n-gram,
150
384260
3000
JM: Moglibyście także chcieć się przyjrzeć temu n-gramowi,
06:27
and that's to tell Nietzsche that God is not dead,
151
387260
3000
żeby powiedzieć Nietzschemu, że Bóg nie umarł,
06:30
although you might agree that he might need a better publicist.
152
390260
3000
choć moglibyście się zgodzić, że potrzebuje lepszego publicysty.
06:33
(Laughter)
153
393260
2000
(Śmiech)
06:35
ELA: You can get at some pretty abstract concepts with this sort of thing.
154
395260
3000
ELA: Można dojść do całkiem abstrakcyjnych koncepcji z takimi rzeczami.
06:38
For instance, let me tell you the history
155
398260
2000
Na przykład, opowiem wam historię
06:40
of the year 1950.
156
400260
2000
roku 1950.
06:42
Pretty much for the vast majority of history,
157
402260
2000
Przez większość historii,
06:44
no one gave a damn about 1950.
158
404260
2000
nikogo nie obchodził 1950.
06:46
In 1700, in 1800, in 1900,
159
406260
2000
W 1700, 1800, w 1900,
06:48
no one cared.
160
408260
3000
nikt się nie przejmował.
06:52
Through the 30s and 40s,
161
412260
2000
W latach 30-tych i 40-tych,
06:54
no one cared.
162
414260
2000
nikt się nie przejmował.
06:56
Suddenly, in the mid-40s,
163
416260
2000
Nagle, w połowie lat 40-tych
06:58
there started to be a buzz.
164
418260
2000
zrobił się wokół tego szum.
07:00
People realized that 1950 was going to happen,
165
420260
2000
Ludzie zdali sobie sprawę, że 1950 nadejdzie
07:02
and it could be big.
166
422260
2000
i może być czymś wielkim.
07:04
(Laughter)
167
424260
3000
(Śmiech)
07:07
But nothing got people interested in 1950
168
427260
3000
Ale nic nie interesowało ludzi w 1950 tak,
07:10
like the year 1950.
169
430260
3000
jak rok 1950.
07:13
(Laughter)
170
433260
3000
(Śmiech)
07:16
People were walking around obsessed.
171
436260
2000
Ludzie chodzili jak opętami.
07:18
They couldn't stop talking
172
438260
2000
Nie mogli przestać opowiadać
07:20
about all the things they did in 1950,
173
440260
3000
o wszystkich rzeczach, które robili w 1950,
07:23
all the things they were planning to do in 1950,
174
443260
3000
wszystkich rzeczach, które planowali zrobić w 1950,
07:26
all the dreams of what they wanted to accomplish in 1950.
175
446260
5000
wszystkich marzeniach o tym, co chcieli osiągnąć w 1950.
07:31
In fact, 1950 was so fascinating
176
451260
2000
W rzeczywistości 1950 był tak fascynujący,
07:33
that for years thereafter,
177
453260
2000
że przez dwa lata po nim,
07:35
people just kept talking about all the amazing things that happened,
178
455260
3000
ludzie po prostu wciąż opowiadali o niezwykłych rzeczach, które się wydarzyły,
07:38
in '51, '52, '53.
179
458260
2000
w '51, '52, '53.
07:40
Finally in 1954,
180
460260
2000
Wreszcie w 1954
07:42
someone woke up and realized
181
462260
2000
ktoś się ocknął i zdał sobie sprawę,
07:44
that 1950 had gotten somewhat passé.
182
464260
4000
że 1950 jest cokolwiek passe.
07:48
(Laughter)
183
468260
2000
(Śmiech)
07:50
And just like that, the bubble burst.
184
470260
2000
I tak pękła bańka.
07:52
(Laughter)
185
472260
2000
(Śmiech)
07:54
And the story of 1950
186
474260
2000
I historia 1950
07:56
is the story of every year that we have on record,
187
476260
2000
jest historią każdego roku, który mamy w zapisach,
07:58
with a little twist, because now we've got these nice charts.
188
478260
3000
z pewnym urozmaiceniem, ponieważ mamy te ładne wykresy.
08:01
And because we have these nice charts, we can measure things.
189
481260
3000
A ponieważ mamy te ładne wykresy, możemy mierzyć różne rzeczy.
08:04
We can say, "Well how fast does the bubble burst?"
190
484260
2000
Możemy powiedzieć "Jak szybko pęka bańka?"
08:06
And it turns out that we can measure that very precisely.
191
486260
3000
I okazuje się, że możemy to zmierzyć bardzo dokładnie.
08:09
Equations were derived, graphs were produced,
192
489260
3000
Stworzony równania, narysowano wykresy
08:12
and the net result
193
492260
2000
i wynik sieciowy jest taki,
08:14
is that we find that the bubble bursts faster and faster
194
494260
3000
że bańka pęka szybko i szybciej
08:17
with each passing year.
195
497260
2000
z każdym mijającym rokiem.
08:19
We are losing interest in the past more rapidly.
196
499260
5000
Tracimy zainteresowanie przeszłością coraz szybciej.
08:24
JM: Now a little piece of career advice.
197
504260
2000
JM: Teraz drobna rada dotycząca kariery.
08:26
So for those of you who seek to be famous,
198
506260
2000
Dla tych z was, którzy chcą zostać sławni,
08:28
we can learn from the 25 most famous political figures,
199
508260
2000
możemy się uczyć od 25 najsławniejszych polityków,
08:30
authors, actors and so on.
200
510260
2000
autorów, aktorów itd.
08:32
So if you want to become famous early on, you should be an actor,
201
512260
3000
Więc jeśli chcesz zostać sławny wcześnie, powinieneś być aktorem,
08:35
because then fame starts rising by the end of your 20s --
202
515260
2000
ponieważ wówczas sława zaczyna rosnąć do końca trzeciej dekady życia -
08:37
you're still young, it's really great.
203
517260
2000
wciąż jesteś młody, to naprawdę wspaniałe.
08:39
Now if you can wait a little bit, you should be an author,
204
519260
2000
Teraz jeśli możesz trochę poczekać, powinieneś być autorem,
08:41
because then you rise to very great heights,
205
521260
2000
ponieważ wówczas wzrasta się do prawdziwej wielkości,
08:43
like Mark Twain, for instance: extremely famous.
206
523260
2000
jak na przykład Mark Twain: bardzo sławny.
08:45
But if you want to reach the very top,
207
525260
2000
Ale jeśli chcesz osiągnąć sam szczyt,
08:47
you should delay gratification
208
527260
2000
powinieneś opóźnić gratyfikację
08:49
and, of course, become a politician.
209
529260
2000
i, oczywiście, zostać politykiem.
08:51
So here you will become famous by the end of your 50s,
210
531260
2000
Tak zostaniecie sławni do końca szóstej dekady życia,
08:53
and become very, very famous afterward.
211
533260
2000
i zostaniecie bardzo, bardzo sławni potem.
08:55
So scientists also tend to get famous when they're much older.
212
535260
3000
Naukowcy także stają się sławni, jeśli są znacznie starsi.
08:58
Like for instance, biologists and physics
213
538260
2000
Jak na przykład, biolodzy i fizycy
09:00
tend to be almost as famous as actors.
214
540260
2000
są tak sławni jak aktorzy.
09:02
One mistake you should not do is become a mathematician.
215
542260
3000
Jedynym błędem, którego nie należy robić jest zostanie matematykiem.
09:05
(Laughter)
216
545260
2000
(Śmiech
09:07
If you do that,
217
547260
2000
Jeśli to zrobisz,
09:09
you might think, "Oh great. I'm going to do my best work when I'm in my 20s."
218
549260
3000
możesz myśleć: "Wspaniale, wykonam swoje najwspanialsze dzieła w wieku lat dwudziestu kilku".
09:12
But guess what, nobody will really care.
219
552260
2000
Ale wiecie co, nikogo to nie będzie obchodzić.
09:14
(Laughter)
220
554260
3000
(Śmiech)
09:17
ELA: There are more sobering notes
221
557260
2000
ELA: Są bardziej otrzeźwiające informacje
09:19
among the n-grams.
222
559260
2000
w n-gramach.
09:21
For instance, here's the trajectory of Marc Chagall,
223
561260
2000
Na przykład, to trajektoria Marca Chagalla,
09:23
an artist born in 1887.
224
563260
2000
artysty urodzonego w 1887.
09:25
And this looks like the normal trajectory of a famous person.
225
565260
3000
Wygląda to jak normalna trajektoria dla sławnej osoby.
09:28
He gets more and more and more famous,
226
568260
4000
Staje się bardziej i bardziej i bardziej sławny,
09:32
except if you look in German.
227
572260
2000
z
09:34
If you look in German, you see something completely bizarre,
228
574260
2000
Jeśli sprawdzicie w Niemczech, zobaczycie coś dziwacznego,
09:36
something you pretty much never see,
229
576260
2000
coś, czego nigdy się nie obserwuje,
09:38
which is he becomes extremely famous
230
578260
2000
staje się ona bardzo sławny,
09:40
and then all of a sudden plummets,
231
580260
2000
a potem to zainteresowanie nagle spada,
09:42
going through a nadir between 1933 and 1945,
232
582260
3000
przeżywając kryzys między 1933 i 1945,
09:45
before rebounding afterward.
233
585260
3000
by się potem znów odbić.
09:48
And of course, what we're seeing
234
588260
2000
I oczywiście, to, co widzimy,
09:50
is the fact Marc Chagall was a Jewish artist
235
590260
3000
to fakt, że Marc Chagall był Żydowskim artystą
09:53
in Nazi Germany.
236
593260
2000
w nazistowskich Niemczech.
09:55
Now these signals
237
595260
2000
Te sygnały
09:57
are actually so strong
238
597260
2000
są tak silne,
09:59
that we don't need to know that someone was censored.
239
599260
3000
że nie musimy wiedzieć, że ktoś był ocenzurowany.
10:02
We can actually figure it out
240
602260
2000
Możemy to wywnioskować
10:04
using really basic signal processing.
241
604260
2000
używając naprawdę podstawowego przetwarzania sygnałów.
10:06
Here's a simple way to do it.
242
606260
2000
To prosty sposób.
10:08
Well, a reasonable expectation
243
608260
2000
Racjonalnym oczekiwaniem
10:10
is that somebody's fame in a given period of time
244
610260
2000
jest to, że czyjaś sława w określonym okresie czasu
10:12
should be roughly the average of their fame before
245
612260
2000
powinna być średnią jego sławy przed
10:14
and their fame after.
246
614260
2000
i po.
10:16
So that's sort of what we expect.
247
616260
2000
Tego oczekujemy.
10:18
And we compare that to the fame that we observe.
248
618260
3000
I porównujemy to z obserwowaną sławą.
10:21
And we just divide one by the other
249
621260
2000
Po prostu dzielimy jedno przez drugie
10:23
to produce something we call a suppression index.
250
623260
2000
by uzyskać coś, co nazywamy wskaźnikiem tłumienia.
10:25
If the suppression index is very, very, very small,
251
625260
3000
Jeśli wskaźnik tłumienia jest bardzo, bardzo, bardzo mału,
10:28
then you very well might be being suppressed.
252
628260
2000
wówczas możesz być rzeczywiście tłumiony.
10:30
If it's very large, maybe you're benefiting from propaganda.
253
630260
3000
Jeśli jest bardzo wielki, może korzystasz na propagandzie.
10:34
JM: Now you can actually look at
254
634260
2000
JM: Można spojrzeć
10:36
the distribution of suppression indexes over whole populations.
255
636260
3000
na rozkład wskaźników tłumienia całej populacji.
10:39
So for instance, here --
256
639260
2000
Więc na przykład tutaj -
10:41
this suppression index is for 5,000 people
257
641260
2000
wskaźnik tłumienia dla 5 000 osób
10:43
picked in English books where there's no known suppression --
258
643260
2000
wybranych z angielskich książek, gdzie nie ma tłumienia, o którym byśmy wiedzieli -
10:45
it would be like this, basically tightly centered on one.
259
645260
2000
będzie to wyglądało tak, ściśle upakowane koło jedynki.
10:47
What you expect is basically what you observe.
260
647260
2000
Obserwujemy to, czego byśmy oczekiwali.
10:49
This is distribution as seen in Germany --
261
649260
2000
To rozkład w Niemczech -
10:51
very different, it's shifted to the left.
262
651260
2000
bardzo odmienny, przesunięty w lewo.
10:53
People talked about it twice less as it should have been.
263
653260
3000
Ludzie mówili o tym dwa razy mniej niż powinni.
10:56
But much more importantly, the distribution is much wider.
264
656260
2000
Ale co znacznie ważniejsze, rozkład jest znacznie szerszy.
10:58
There are many people who end up on the far left on this distribution
265
658260
3000
Jest wielu ludzi, którzy są skrajnie z lewej w tym rozkładzie,
11:01
who are talked about 10 times fewer than they should have been.
266
661260
3000
mówi się o nich około 10 razy rzadziej niż się powinno.
11:04
But then also many people on the far right
267
664260
2000
Ale także jest wielu ludzi po prawej,
11:06
who seem to benefit from propaganda.
268
666260
2000
którzy korzystają na propagandzie.
11:08
This picture is the hallmark of censorship in the book record.
269
668260
3000
Ten obrazek jest oznaką cenzury w książkach.
11:11
ELA: So culturomics
270
671260
2000
ELA: Nazywamy tą metodę
11:13
is what we call this method.
271
673260
2000
kulturomiką.
11:15
It's kind of like genomics.
272
675260
2000
To coś jak genomika.
11:17
Except genomics is a lens on biology
273
677260
2000
Poza tym, że genomika patrzy na biologię
11:19
through the window of the sequence of bases in the human genome.
274
679260
3000
przez okno sekwencji zasad w ludzkim genomie.
11:22
Culturomics is similar.
275
682260
2000
Kulturomika jest podobna.
11:24
It's the application of massive-scale data collection analysis
276
684260
3000
To zastosowanie analizy zbieranych danych na wielką skalę
11:27
to the study of human culture.
277
687260
2000
do badania ludzkiej kultury.
11:29
Here, instead of through the lens of a genome,
278
689260
2000
Tutaj, zamiast przez genom,
11:31
through the lens of digitized pieces of the historical record.
279
691260
3000
dokonuje się to przez zcyfryzowane dane historyczne.
11:34
The great thing about culturomics
280
694260
2000
Wielką rzeczą w kulturomice
11:36
is that everyone can do it.
281
696260
2000
jest to, że każdy może to robić.
11:38
Why can everyone do it?
282
698260
2000
Dlaczego każdy może to robić?
11:40
Everyone can do it because three guys,
283
700260
2000
Każdy może ponieważ trzech gości,
11:42
Jon Orwant, Matt Gray and Will Brockman over at Google,
284
702260
3000
Jon Orwant, Matt Gray i Will Brockman z Google
11:45
saw the prototype of the Ngram Viewer,
285
705260
2000
zobaczyli prototyp Ngram Viewera
11:47
and they said, "This is so fun.
286
707260
2000
i powiedziało: "To jest taka frajda.
11:49
We have to make this available for people."
287
709260
3000
Musimy to udostępnić ludziom."
11:52
So in two weeks flat -- the two weeks before our paper came out --
288
712260
2000
Więc przez dwa tygodnie - dwa tygodnie przed publikacją naszego artykułu -
11:54
they coded up a version of the Ngram Viewer for the general public.
289
714260
3000
napisali kod wersji Ngram Viewera dla szerokiej publiczności.
11:57
And so you too can type in any word or phrase that you're interested in
290
717260
3000
Więc wy także możecie wpisać każde słowo lub zwrot, który was interesuje
12:00
and see its n-gram immediately --
291
720260
2000
i zobaczyć od razu jego n-gram -
12:02
also browse examples of all the various books
292
722260
2000
a także wyszukać przykłady różnych książek,
12:04
in which your n-gram appears.
293
724260
2000
w których pojawia się wasz n-gram.
12:06
JM: Now this was used over a million times on the first day,
294
726260
2000
JM: Użyto tego przeszło milion razy w pierwszym dniu,
12:08
and this is really the best of all the queries.
295
728260
2000
a to jest najlepsze ze wszystkich wyszukiwań.
12:10
So people want to be their best, put their best foot forward.
296
730260
3000
Więc ludzie chcą się pokazać z najlepszej strony.
12:13
But it turns out in the 18th century, people didn't really care about that at all.
297
733260
3000
Ale okazuje się, że w XVIII wieku ludzi to naprawdę nie obchodziło.
12:16
They didn't want to be their best, they wanted to be their beft.
298
736260
3000
Nie chcieli być najlepsi (best), a "beft".
12:19
So what happened is, of course, this is just a mistake.
299
739260
3000
Oczywiście jest to pomyłka.
12:22
It's not that strove for mediocrity,
300
742260
2000
To nie walka o przecietność,
12:24
it's just that the S used to be written differently, kind of like an F.
301
744260
3000
a fakt, że "s" pisano inaczej, raczej jak "f".
12:27
Now of course, Google didn't pick this up at the time,
302
747260
3000
Oczywiście Google nie wychwycił tego wówczas,
12:30
so we reported this in the science article that we wrote.
303
750260
3000
więc zgłosiliśmy to w artykule naukowym, który napisaliśmy.
12:33
But it turns out this is just a reminder
304
753260
2000
Ale okazuje się to tylko przypomnieniem,
12:35
that, although this is a lot of fun,
305
755260
2000
że choć to wiele zabawy,
12:37
when you interpret these graphs, you have to be very careful,
306
757260
2000
kiedy interpretuje się te wykresy, trzeba być bardzo ostrożnym
12:39
and you have to adopt the base standards in the sciences.
307
759260
3000
i przyjąć te podstawowe standardy naukowe.
12:42
ELA: People have been using this for all kinds of fun purposes.
308
762260
3000
ELA: Ludzie używali tego do zabawy na różne sposoby.
12:45
(Laughter)
309
765260
7000
(Śmiech)
12:52
Actually, we're not going to have to talk,
310
772260
2000
Nie będziemy mówili,
12:54
we're just going to show you all the slides and remain silent.
311
774260
3000
po prostu pokażemy wam te slajdy i będziemy cicho.
12:57
This person was interested in the history of frustration.
312
777260
3000
Ta osoba była zainteresowana historią frustracji.
13:00
There's various types of frustration.
313
780260
3000
To różne rodzaje frustracji.
13:03
If you stub your toe, that's a one A "argh."
314
783260
3000
Jeśli uderzysz się w palec, to jedno "a" w "argh"
13:06
If the planet Earth is annihilated by the Vogons
315
786260
2000
Jeśli Ziemia jest anihilowana przez Vogonów,
13:08
to make room for an interstellar bypass,
316
788260
2000
by zrobić miejsce na międzygwiezdny tunel,
13:10
that's an eight A "aaaaaaaargh."
317
790260
2000
jest to "aaaaaaaargh" przez 8 "a".
13:12
This person studies all the "arghs,"
318
792260
2000
Ta osoba zbadała wszystkie "argh"
13:14
from one through eight A's.
319
794260
2000
przez od 1 do 8 "a".
13:16
And it turns out
320
796260
2000
I okazuje się,
13:18
that the less-frequent "arghs"
321
798260
2000
że rzadsze "argh"
13:20
are, of course, the ones that correspond to things that are more frustrating --
322
800260
3000
są, oczywiście, tymi, które odpowiadają bardziej frustrującym rzeczom -
13:23
except, oddly, in the early 80s.
323
803260
3000
poza, co dziwne, we wczesnych latach 80-tych.
13:26
We think that might have something to do with Reagan.
324
806260
2000
Myślimy, że to może mieć coś wspólnego z Reaganem.
13:28
(Laughter)
325
808260
2000
(Śmiech)
13:30
JM: There are many usages of this data,
326
810260
3000
JM: Jest wiele zastosowań dla tych danych,
13:33
but the bottom line is that the historical record is being digitized.
327
813260
3000
ale puenta jest taka, że dane historyczne są cyfryzowane.
13:36
Google has started to digitize 15 million books.
328
816260
2000
Google zaczęła cyfryzować 15 milionów książek.
13:38
That's 12 percent of all the books that have ever been published.
329
818260
2000
To 12% wszystkich książek, które kiedykolwiek zostały wydane.
13:40
It's a sizable chunk of human culture.
330
820260
3000
To pokaźny kawał ludzkiej kultury.
13:43
There's much more in culture: there's manuscripts, there newspapers,
331
823260
3000
Jest znacznie więcej aspektów: manuskrypty, gazety,
13:46
there's things that are not text, like art and paintings.
332
826260
2000
rzeczy, które nie są tekstem, jak sztuka i malarstwo.
13:48
These all happen to be on our computers,
333
828260
2000
Wszystkie są w naszych komputerach,
13:50
on computers across the world.
334
830260
2000
na całym świecie.
13:52
And when that happens, that will transform the way we have
335
832260
3000
A kiedy to się stanie, odmieni to sposób, w jaki
13:55
to understand our past, our present and human culture.
336
835260
2000
będziemy rozumieli naszą przeszłość, teraźniejszość, ludzką kulturę.
13:57
Thank you very much.
337
837260
2000
Dziękujemy bardzo.
13:59
(Applause)
338
839260
3000
(Oklaski)
O tej stronie

Na tej stronie poznasz filmy z YouTube, które są przydatne do nauki języka angielskiego. Zobaczysz lekcje angielskiego prowadzone przez najlepszych nauczycieli z całego świata. Kliknij dwukrotnie na angielskie napisy wyświetlane na stronie każdego filmu, aby odtworzyć film od tego miejsca. Napisy przewijają się synchronicznie z odtwarzaniem filmu. Jeśli masz jakieś uwagi lub prośby, skontaktuj się z nami za pomocą formularza kontaktowego.

https://forms.gle/WvT1wiN1qDtmnspy7