What we learned from 5 million books

236,259 views ・ 2011-09-20

TED


Vă rugăm să faceți dublu clic pe subtitrările în limba engleză de mai jos pentru a reda videoclipul.

Traducător: Mihaela - Patricia Vadan Corector: Antoniu Gugu
00:15
Erez Lieberman Aiden: Everyone knows
0
15260
2000
Erez Lieberman Aiden: Toată lumea știe
00:17
that a picture is worth a thousand words.
1
17260
3000
că o poză valorează cât o mie de cuvinte.
00:22
But we at Harvard
2
22260
2000
Dar noi cei de la Harvard,
00:24
were wondering if this was really true.
3
24260
3000
ne gândeam cât de adevărat este.
00:27
(Laughter)
4
27260
2000
(Râsete)
00:29
So we assembled a team of experts,
5
29260
4000
Așa că am adunat o echipă de experți,
00:33
spanning Harvard, MIT,
6
33260
2000
de la Harvard, MIT (Institutul Tehnologic din Massachusetts),
00:35
The American Heritage Dictionary, The Encyclopedia Britannica
7
35260
3000
American Heritage Dictionary, Encyclopedia Britannica
00:38
and even our proud sponsors,
8
38260
2000
și chiar și pe mândrii noștri sponsori,
00:40
the Google.
9
40260
3000
Google.
00:43
And we cogitated about this
10
43260
2000
Și am dezbătut această problemă
00:45
for about four years.
11
45260
2000
timp de aproape patru ani.
00:47
And we came to a startling conclusion.
12
47260
5000
Și am ajuns la o concluzie surprinzătoare.
00:52
Ladies and gentlemen, a picture is not worth a thousand words.
13
52260
3000
Doamnelor și domnilor, o poză nu valorează cât o mie de cuvinte.
00:55
In fact, we found some pictures
14
55260
2000
Chiar am găsit unele poze,
00:57
that are worth 500 billion words.
15
57260
5000
care valorează 500 de miliarde de cuvinte.
01:02
Jean-Baptiste Michel: So how did we get to this conclusion?
16
62260
2000
Jean-Baptiste Michel: Cum am ajuns la această concluzie?
01:04
So Erez and I were thinking about ways
17
64260
2000
Eu și Erez ne gândeam la modalități
01:06
to get a big picture of human culture
18
66260
2000
de a cuprinde într-o mare poză cultura umană
01:08
and human history: change over time.
19
68260
3000
și istoria umanității: schimbarea de-a lungul timpului.
01:11
So many books actually have been written over the years.
20
71260
2000
În toți acești ani au fost scrise foarte multe cărți.
01:13
So we were thinking, well the best way to learn from them
21
73260
2000
Așa că ne gândeam că cea mai bună metodă să învățăm din ele,
01:15
is to read all of these millions of books.
22
75260
2000
este să citim toate aceste milioane de cărți.
01:17
Now of course, if there's a scale for how awesome that is,
23
77260
3000
Bineînțeles că dacă ar exista o scală pentru cât de grozavă e ideea,
01:20
that has to rank extremely, extremely high.
24
80260
3000
s-ar afla undeva foarte, foarte sus.
01:23
Now the problem is there's an X-axis for that,
25
83260
2000
Problema este că există și o axă X pentru asta,
01:25
which is the practical axis.
26
85260
2000
care este axa practică.
01:27
This is very, very low.
27
87260
2000
Aceasta este foarte, foarte jos.
01:29
(Applause)
28
89260
3000
(Aplauze)
01:32
Now people tend to use an alternative approach,
29
92260
3000
Oamenii au tendința unei alte abordări,
01:35
which is to take a few sources and read them very carefully.
30
95260
2000
care este să ia câteva surse și să le citească cu atenție.
01:37
This is extremely practical, but not so awesome.
31
97260
2000
Ceea ce este foarte practic, dar nu foarte grozav.
01:39
What you really want to do
32
99260
3000
Ceea ce se vrea de fapt este,
01:42
is to get to the awesome yet practical part of this space.
33
102260
3000
să avem și partea grozavă și partea practică a acestui spațiu.
01:45
So it turns out there was a company across the river called Google
34
105260
3000
Așa că am aflat că mai există o companie numită Google
01:48
who had started a digitization project a few years back
35
108260
2000
care începuse cu câțiva ani în urmă un proiect de digitizare,
01:50
that might just enable this approach.
36
110260
2000
care ar putea să atingă această abordare.
01:52
They have digitized millions of books.
37
112260
2000
Ei au digitizat milioane de cărți.
01:54
So what that means is, one could use computational methods
38
114260
3000
Ceea ce înseamnă, că prin metode computaționale,
01:57
to read all of the books in a click of a button.
39
117260
2000
cu un singur click, pot fi citite toate cărțile.
01:59
That's very practical and extremely awesome.
40
119260
3000
Ceea ce este foarte practic si foarte grozav.
02:03
ELA: Let me tell you a little bit about where books come from.
41
123260
2000
ELA: Permiteți-mi să vă povestesc un pic despre originea cărților.
02:05
Since time immemorial, there have been authors.
42
125260
3000
Încă din cele mai vechi timpuri, au existat autori.
02:08
These authors have been striving to write books.
43
128260
3000
Acești autori s-au străduit să scrie cărți.
02:11
And this became considerably easier
44
131260
2000
Proces ce a devenit deosebit de facil
02:13
with the development of the printing press some centuries ago.
45
133260
2000
o dată cu dezvoltarea presei de tipar în urmă cu câteva secole.
02:15
Since then, the authors have won
46
135260
3000
De atunci, autorii au câștigat
02:18
on 129 million distinct occasions,
47
138260
2000
în 129 de milioane de ocazii diferite,
02:20
publishing books.
48
140260
2000
publicarea cărților.
02:22
Now if those books are not lost to history,
49
142260
2000
Dacă acele cărți nu s-au pierdut în istorie,
02:24
then they are somewhere in a library,
50
144260
2000
atunci se află undeva într-o bibliotecă,
02:26
and many of those books have been getting retrieved from the libraries
51
146260
3000
și multe dintre acele cărți au fost scoase din biblioteci
02:29
and digitized by Google,
52
149260
2000
și digitizate de către Google,
02:31
which has scanned 15 million books to date.
53
151260
2000
care până în ziua de azi a scanat 15 milioane de cărți.
02:33
Now when Google digitizes a book, they put it into a really nice format.
54
153260
3000
Când Google digitizează o carte, o și așează într-un format frumos.
02:36
Now we've got the data, plus we have metadata.
55
156260
2000
Acum avem datele și în plus avem și metadatele.
02:38
We have information about things like where was it published,
56
158260
3000
Avem informații despre locul de publicare,
02:41
who was the author, when was it published.
57
161260
2000
despre autor, când a fost publicată.
02:43
And what we do is go through all of those records
58
163260
3000
Ceea ce facem noi este să filtrăm aceste informații
02:46
and exclude everything that's not the highest quality data.
59
166260
4000
și să ștergem tot ce nu este de cea mai mare calitate.
02:50
What we're left with
60
170260
2000
Așa că ce avem acum
02:52
is a collection of five million books,
61
172260
3000
este o colecție de 5 milioane de cărți,
02:55
500 billion words,
62
175260
3000
500 miliarde de cuvinte,
02:58
a string of characters a thousand times longer
63
178260
2000
un șir de caractere de o mie de ori mai lung
03:00
than the human genome --
64
180260
3000
decât un genom uman --
03:03
a text which, when written out,
65
183260
2000
un text care, dacă ar fi scris,
03:05
would stretch from here to the Moon and back
66
185260
2000
s-ar întinde de aici, la lună și înapoi
03:07
10 times over --
67
187260
2000
de 10 ori --
03:09
a veritable shard of our cultural genome.
68
189260
4000
o adevărată bucată din genomul nostru cultural.
03:13
Of course what we did
69
193260
2000
Bineînțeles că ceea ce am făcut
03:15
when faced with such outrageous hyperbole ...
70
195260
3000
când ne-am lovit de o asemenea hiperbolă...
03:18
(Laughter)
71
198260
2000
(Râsete)
03:20
was what any self-respecting researchers
72
200260
3000
a fost ceea ce ar face orice cercetător
03:23
would have done.
73
203260
3000
care se respectă.
03:26
We took a page out of XKCD,
74
206260
2000
Am luat o pagină din XKCD,
03:28
and we said, "Stand back.
75
208260
2000
și am spus, „Dați-vă înapoi.
03:30
We're going to try science."
76
210260
2000
O să încercăm prin știință.”
03:32
(Laughter)
77
212260
2000
(Râsete)
03:34
JM: Now of course, we were thinking,
78
214260
2000
JM: Acum noi ne gândeam,
03:36
well let's just first put the data out there
79
216260
2000
să punem datele acolo
03:38
for people to do science to it.
80
218260
2000
și să lăsăm oamenii să experimenteze.
03:40
Now we're thinking, what data can we release?
81
220260
2000
Apoi ne-am întrebat, ce informații să lansăm?
03:42
Well of course, you want to take the books
82
222260
2000
Normal că vrei să iei cărțile
03:44
and release the full text of these five million books.
83
224260
2000
și să vezi tot textul acestor cinci milioane de cărți.
03:46
Now Google, and Jon Orwant in particular,
84
226260
2000
Google-ul și în special Jon Orwant,
03:48
told us a little equation that we should learn.
85
228260
2000
ne-au arătat o mică ecuație pe care ar trebui să o învățăm.
03:50
So you have five million, that is, five million authors
86
230260
3000
Așadar, ai cinci milioane, adică cinci milioane de autori
03:53
and five million plaintiffs is a massive lawsuit.
87
233260
3000
și cinci milioane de reclamanți într-un imens proces.
03:56
So, although that would be really, really awesome,
88
236260
2000
Și deși ar fi foarte foarte grozav,
03:58
again, that's extremely, extremely impractical.
89
238260
3000
din nou, este foarte, foarte ineficace.
04:01
(Laughter)
90
241260
2000
(Râsete)
04:03
Now again, we kind of caved in,
91
243260
2000
Atunci din nou ne-am cam prăbușit,
04:05
and we did the very practical approach, which was a bit less awesome.
92
245260
3000
și am făcut ceea ce părea mai practic, dar mai puțin grozav.
04:08
We said, well instead of releasing the full text,
93
248260
2000
Ne-am hotărât ca, în loc să punem întregul text,
04:10
we're going to release statistics about the books.
94
250260
2000
vom publica statistici despre cărți.
04:12
So take for instance "A gleam of happiness."
95
252260
2000
Spre exemplu „Un strop de fericire.”
04:14
It's four words; we call that a four-gram.
96
254260
2000
Sunt patru cuvinte; este ceea ce numim tetragramă.
04:16
We're going to tell you how many times a particular four-gram
97
256260
2000
Vă vom spune de câte ori apare o anumită tetragramă
04:18
appeared in books in 1801, 1802, 1803,
98
258260
2000
în cărți, în 1801, 1802, 1803,
04:20
all the way up to 2008.
99
260260
2000
și până în anul 2008.
04:22
That gives us a time series
100
262260
2000
Ceea ce ne va oferi o serie temporală
04:24
of how frequently this particular sentence was used over time.
101
264260
2000
cu frecvența de utilizare a acestei secvențe de-a lungul timpului.
04:26
We do that for all the words and phrases that appear in those books,
102
266260
3000
Facem asta pentru toate cuvintele și expresiile care apar în acele cărți,
04:29
and that gives us a big table of two billion lines
103
269260
3000
și acest lucru ne oferă un mare tabel de două miliarde de linii
04:32
that tell us about the way culture has been changing.
104
272260
2000
care ne explică cum s-a schimbat cultura.
04:34
ELA: So those two billion lines,
105
274260
2000
ELA: Așadar acele două miliarde de linii,
04:36
we call them two billion n-grams.
106
276260
2000
noi le numim două miliarde de n-grame.
04:38
What do they tell us?
107
278260
2000
Ce ne spun ele?
04:40
Well the individual n-grams measure cultural trends.
108
280260
2000
N-gramele individuale măsoară trendul cultural.
04:42
Let me give you an example.
109
282260
2000
Să vă dau un exemplu.
04:44
Let's suppose that I am thriving,
110
284260
2000
Să presupunem că eu acum mă aflu într-o stare de prosperitate,
04:46
then tomorrow I want to tell you about how well I did.
111
286260
2000
iar mâine aș vrea să vă spun dvs. cum mă descurc.
04:48
And so I might say, "Yesterday, I throve."
112
288260
3000
Așa că aș putea spune, „Ieri, am înflorit.”
04:51
Alternatively, I could say, "Yesterday, I thrived."
113
291260
3000
Sau o altă variantă, aș putea spune, „Ieri, am prosperat.”
04:54
Well which one should I use?
114
294260
3000
Pe care ar trebui să o folosesc?
04:57
How to know?
115
297260
2000
De unde știi?
04:59
As of about six months ago,
116
299260
2000
De cam șase luni încoace,
05:01
the state of the art in this field
117
301260
2000
cel mai bun lucru pe care-l puteai face în acest domeniu,
05:03
is that you would, for instance,
118
303260
2000
ar fi ca, spre exemplu,
05:05
go up to the following psychologist with fabulous hair,
119
305260
2000
să mergi la un psiholog specializat cu coafură fabuloasă,
05:07
and you'd say,
120
307260
2000
și să-i spui,
05:09
"Steve, you're an expert on the irregular verbs.
121
309260
3000
„Steve, tu ești expert în verbe.
05:12
What should I do?"
122
312260
2000
Ce ar trebui să fac?”
05:14
And he'd tell you, "Well most people say thrived,
123
314260
2000
Iar el ți-ar spune, „Păi, cei mai mulți oameni spun „a prospera”,
05:16
but some people say throve."
124
316260
3000
dar unii spun „a înflori”.
05:19
And you also knew, more or less,
125
319260
2000
Și mai mult sau mai puțin știai și că,
05:21
that if you were to go back in time 200 years
126
321260
3000
dacă te-ai întoarce în timp cu 200 de ani
05:24
and ask the following statesman with equally fabulous hair,
127
324260
3000
și ai întreba un politician cu coafură la fel de fabuloasă,
05:27
(Laughter)
128
327260
3000
(Râsete)
05:30
"Tom, what should I say?"
129
330260
2000
„Tom, cum ar trebui să spun?”
05:32
He'd say, "Well, in my day, most people throve,
130
332260
2000
El ar spune, „Păi, în vremea mea, cei mai mulți spuneau „a înflori”,
05:34
but some thrived."
131
334260
3000
dar unii spuneau „a prospera.”
05:37
So now what I'm just going to show you is raw data.
132
337260
2000
Ce vă voi arăta în continuare sunt date brute.
05:39
Two rows from this table of two billion entries.
133
339260
4000
Două rânduri din acest tabel cu două miliarde de intrări.
05:43
What you're seeing is year by year frequency
134
343260
2000
Aici vedeți frecvența înregistrată an de an
05:45
of "thrived" and "throve" over time.
135
345260
3000
de-a lungul timpului pentru „a prospera” și „a înflori”.
05:49
Now this is just two
136
349260
2000
Acestea sunt doar două
05:51
out of two billion rows.
137
351260
3000
dintre cele două miliarde de rânduri.
05:54
So the entire data set
138
354260
2000
Așa că întreaga bază de date
05:56
is a billion times more awesome than this slide.
139
356260
3000
este de un miliard de ori mai grozavă decât acest slide.
05:59
(Laughter)
140
359260
2000
(Râsete)
06:01
(Applause)
141
361260
4000
(Aplauze)
06:05
JM: Now there are many other pictures that are worth 500 billion words.
142
365260
2000
JM: Sunt multe alte poze care valorează 500 de miliarde de cuvinte.
06:07
For instance, this one.
143
367260
2000
Aceasta spre exemplu.
06:09
If you just take influenza,
144
369260
2000
Dacă alegi răceală,
06:11
you will see peaks at the time where you knew
145
371260
2000
veți vedea extreme în perioadele în care știați
06:13
big flu epidemics were killing people around the globe.
146
373260
3000
că mari epidemii de gripă au ucis pe tot globul.
06:16
ELA: If you were not yet convinced,
147
376260
3000
ELA: Dacă nu erați încă convinși,
06:19
sea levels are rising,
148
379260
2000
nivelurile mării se ridică,
06:21
so is atmospheric CO2 and global temperature.
149
381260
3000
ceea ce înseamnă CO2 atmosferic și temperatura globală.
06:24
JM: You might also want to have a look at this particular n-gram,
150
384260
3000
JM: Poate ați vrea să vă uitați mai atent la această n-gramă,
06:27
and that's to tell Nietzsche that God is not dead,
151
387260
3000
iar asta este pentru a-i spune lui Nietzsche că Dumnezeu nu este mort,
06:30
although you might agree that he might need a better publicist.
152
390260
3000
și poate credeți că ar avea nevoie de un editor mai bun.
06:33
(Laughter)
153
393260
2000
(Râsete)
06:35
ELA: You can get at some pretty abstract concepts with this sort of thing.
154
395260
3000
ELA: Poți ajunge la niște concepte destul de abstracte cu aceste lucruri.
06:38
For instance, let me tell you the history
155
398260
2000
Spre exemplu, permiteți-mi să vă spun istoria
06:40
of the year 1950.
156
400260
2000
anului 1950.
06:42
Pretty much for the vast majority of history,
157
402260
2000
În cea mai mare parte a istoriei,
06:44
no one gave a damn about 1950.
158
404260
2000
nimănui nu-i păsa de 1950.
06:46
In 1700, in 1800, in 1900,
159
406260
2000
În 1700, în 1800, în 1900,
06:48
no one cared.
160
408260
3000
nimănui nu-i păsa.
06:52
Through the 30s and 40s,
161
412260
2000
În anii 30 și 40,
06:54
no one cared.
162
414260
2000
nimănui nu-i păsa.
06:56
Suddenly, in the mid-40s,
163
416260
2000
Dintr-o dată, pe la mijlocul anilor 40,
06:58
there started to be a buzz.
164
418260
2000
a început un zumzet.
07:00
People realized that 1950 was going to happen,
165
420260
2000
Oamenii și-au dat seama că 1950 urma să se petreacă,
07:02
and it could be big.
166
422260
2000
și putea să fie măreț.
07:04
(Laughter)
167
424260
3000
(Râsete)
07:07
But nothing got people interested in 1950
168
427260
3000
Dar în 1950, nimic nu i-a interesat mai mult pe oameni,
07:10
like the year 1950.
169
430260
3000
ca anul 1950.
07:13
(Laughter)
170
433260
3000
(Râsete)
07:16
People were walking around obsessed.
171
436260
2000
Oamenii erau absolut obsedați.
07:18
They couldn't stop talking
172
438260
2000
Nu mai încetau să vorbească
07:20
about all the things they did in 1950,
173
440260
3000
despre ce au făcut ei în 1950,
07:23
all the things they were planning to do in 1950,
174
443260
3000
tot ce plănuiau să facă în 1950,
07:26
all the dreams of what they wanted to accomplish in 1950.
175
446260
5000
tot ce visau să îndeplinească în 1950.
07:31
In fact, 1950 was so fascinating
176
451260
2000
1950 a fost așa de fascinant
07:33
that for years thereafter,
177
453260
2000
încât la ani după,
07:35
people just kept talking about all the amazing things that happened,
178
455260
3000
oamenii încă mai vorbeau despre lucrurile minunate petrecute atunci,
07:38
in '51, '52, '53.
179
458260
2000
în '51, '52, '53.
07:40
Finally in 1954,
180
460260
2000
În 1954, într-un final,
07:42
someone woke up and realized
181
462260
2000
cineva s-a trezit şi şi-a dat seama
07:44
that 1950 had gotten somewhat passé.
182
464260
4000
că anul 1950 a cam trecut.
07:48
(Laughter)
183
468260
2000
(Râsete)
07:50
And just like that, the bubble burst.
184
470260
2000
Şi uite-aşa, balonul s-a spart.
07:52
(Laughter)
185
472260
2000
(Râsete)
07:54
And the story of 1950
186
474260
2000
Şi povestea anului 1950
07:56
is the story of every year that we have on record,
187
476260
2000
este povestea fiecărui an pe care l-am înregistrat,
07:58
with a little twist, because now we've got these nice charts.
188
478260
3000
cu o mică schimbare, pentru că acum avem aceste diagrame drăguţe.
08:01
And because we have these nice charts, we can measure things.
189
481260
3000
Şi pentru că avem aceste diagrame drăguţe, putem să măsurăm anumite lucruri.
08:04
We can say, "Well how fast does the bubble burst?"
190
484260
2000
Putem întreba, "Cât de repede se sparge acest balon?"
08:06
And it turns out that we can measure that very precisely.
191
486260
3000
Şi ne-am dat seama că putem măsura asta cu precizie mare.
08:09
Equations were derived, graphs were produced,
192
489260
3000
Au reieşit ecuaţii, au fost produse grafice
08:12
and the net result
193
492260
2000
iar rezultatul final
08:14
is that we find that the bubble bursts faster and faster
194
494260
3000
este că aceste baloane se sparg din ce în ce mai repede
08:17
with each passing year.
195
497260
2000
cu fiecare an.
08:19
We are losing interest in the past more rapidly.
196
499260
5000
Ne pierdem interesul pentru istorie mai repede.
08:24
JM: Now a little piece of career advice.
197
504260
2000
JM: Un mic sfat despre cariere.
08:26
So for those of you who seek to be famous,
198
506260
2000
Pentru aceia dintre voi care vor să fie faimoşi,
08:28
we can learn from the 25 most famous political figures,
199
508260
2000
putem învăţa de la cele mai cunoscute 25 de personalităţi politice,
08:30
authors, actors and so on.
200
510260
2000
scriitori, actori şi aşa mai departe.
08:32
So if you want to become famous early on, you should be an actor,
201
512260
3000
Aşa că dacă vreţi să fiţi cunoscuţi de tineri, ar trebui să fiţi actori,
08:35
because then fame starts rising by the end of your 20s --
202
515260
2000
pentru că devii faimos când te apropii de 30 de ani --
08:37
you're still young, it's really great.
203
517260
2000
eşti încă tânăr, e minunat.
08:39
Now if you can wait a little bit, you should be an author,
204
519260
2000
Dacă poţi să mai aştepţi puţin, poţi să fii scriitor,
08:41
because then you rise to very great heights,
205
521260
2000
pentru că atunci te ridic la culmi foarte înalte,
08:43
like Mark Twain, for instance: extremely famous.
206
523260
2000
spre exemplu ca Mark Twain: foarte cunoscut.
08:45
But if you want to reach the very top,
207
525260
2000
Dar dacă vrei să ajungi în vârful piramidei,
08:47
you should delay gratification
208
527260
2000
ar trebui să întârzii recompensa,
08:49
and, of course, become a politician.
209
529260
2000
şi bineînţeles, să devii politician.
08:51
So here you will become famous by the end of your 50s,
210
531260
2000
Aici vei ajunge cunoscut când deja ai trecut de 50 de ani
08:53
and become very, very famous afterward.
211
533260
2000
şi foarte foarte cunoscut după vârsta asta.
08:55
So scientists also tend to get famous when they're much older.
212
535260
3000
Şi oamenii de ştiinţă devin cunoscuţi când sunt mult mai în vârstă.
08:58
Like for instance, biologists and physics
213
538260
2000
Spre exemplu, biologii şi fizicienii
09:00
tend to be almost as famous as actors.
214
540260
2000
ajung la fel de faimoşi ca actorii.
09:02
One mistake you should not do is become a mathematician.
215
542260
3000
O greşeală pe care nu trebuie să o faceţi, este să deveniţi matematicieni.
09:05
(Laughter)
216
545260
2000
(Râsete)
09:07
If you do that,
217
547260
2000
Dacă faceţi asta,
09:09
you might think, "Oh great. I'm going to do my best work when I'm in my 20s."
218
549260
3000
o să vă gândiţi, "O, ce bine, o să-mi ating apogeul pe la 20 de ani."
09:12
But guess what, nobody will really care.
219
552260
2000
Dar ghiciţi ce, nimănui nu-i pasă.
09:14
(Laughter)
220
554260
3000
(Râsete)
09:17
ELA: There are more sobering notes
221
557260
2000
ELA: Există şi note mai vesele
09:19
among the n-grams.
222
559260
2000
printre n-grame.
09:21
For instance, here's the trajectory of Marc Chagall,
223
561260
2000
Spre exemplu, iată traiectoria lui Marc Chagall,
09:23
an artist born in 1887.
224
563260
2000
un artist născut în 1887.
09:25
And this looks like the normal trajectory of a famous person.
225
565260
3000
Aşa arată traiectoria normală a unui om faimos.
09:28
He gets more and more and more famous,
226
568260
4000
Devine din ce în ce mai cunoscut,
09:32
except if you look in German.
227
572260
2000
doar dacă nu te uiţi în germană.
09:34
If you look in German, you see something completely bizarre,
228
574260
2000
Dacă te uiţi în germană, se observă ceva foarte ciudat,
09:36
something you pretty much never see,
229
576260
2000
ceva ce se observă foarte rar,
09:38
which is he becomes extremely famous
230
578260
2000
adică devine extrem de faimos
09:40
and then all of a sudden plummets,
231
580260
2000
şi apoi decade dintr-o dată,
09:42
going through a nadir between 1933 and 1945,
232
582260
3000
trece printr-un nadir între 1933 şi 1945
09:45
before rebounding afterward.
233
585260
3000
înainte de a-şi reveni.
09:48
And of course, what we're seeing
234
588260
2000
Ceea ce vedem este, bineînţeles,
09:50
is the fact Marc Chagall was a Jewish artist
235
590260
3000
că Marc Chagall este un artist evreu
09:53
in Nazi Germany.
236
593260
2000
într-o Germanie nazistă.
09:55
Now these signals
237
595260
2000
Aceste semnalmente
09:57
are actually so strong
238
597260
2000
sunt atât de puternice
09:59
that we don't need to know that someone was censored.
239
599260
3000
încât nu avem nevoie să ştim că acea persoană a fost cenzurată.
10:02
We can actually figure it out
240
602260
2000
Ne putem da seama
10:04
using really basic signal processing.
241
604260
2000
folosind procese de semnalare de bază.
10:06
Here's a simple way to do it.
242
606260
2000
Iată o metodă de simplă de a o face.
10:08
Well, a reasonable expectation
243
608260
2000
Un rezultat așteptat
10:10
is that somebody's fame in a given period of time
244
610260
2000
este ca faima cuiva într-o perioadă de timp
10:12
should be roughly the average of their fame before
245
612260
2000
să fie calculată ca faima anterioară
10:14
and their fame after.
246
614260
2000
și faima ulterioară.
10:16
So that's sort of what we expect.
247
616260
2000
Cam asta așteptăm noi.
10:18
And we compare that to the fame that we observe.
248
618260
3000
Și comparăm rezultatul cu faima obeservată de noi.
10:21
And we just divide one by the other
249
621260
2000
Și am împărțit un rezultat la celălalt
10:23
to produce something we call a suppression index.
250
623260
2000
pentru a reieși ceva ce noi numim index reprimat.
10:25
If the suppression index is very, very, very small,
251
625260
3000
Dacă indexul de reprimare este foarte, foarte, foarte mic,
10:28
then you very well might be being suppressed.
252
628260
2000
atunci este foarte posibil ca și tu să fii reprimat.
10:30
If it's very large, maybe you're benefiting from propaganda.
253
630260
3000
Dacă este foarte mare, atunci poate beneficiezi de propagandă.
10:34
JM: Now you can actually look at
254
634260
2000
JM: Acum puteți privi
10:36
the distribution of suppression indexes over whole populations.
255
636260
3000
distribuția indexului de reprimare pentru toate populațiile.
10:39
So for instance, here --
256
639260
2000
Așa că spre exemplu, aici --
10:41
this suppression index is for 5,000 people
257
641260
2000
indexul de reprimare este pentru 5.000 de persoane
10:43
picked in English books where there's no known suppression --
258
643260
2000
alese din cărți engleze, unde nu se cunoaște vreo reprimare --
10:45
it would be like this, basically tightly centered on one.
259
645260
2000
ar arăta cam așa, în principiu centrat pe una.
10:47
What you expect is basically what you observe.
260
647260
2000
Ceea ce aștepți este în principiu ceea ce observi.
10:49
This is distribution as seen in Germany --
261
649260
2000
Așa arată distribuția în Germania --
10:51
very different, it's shifted to the left.
262
651260
2000
total diferită, este mutată către stânga.
10:53
People talked about it twice less as it should have been.
263
653260
3000
Oamenii au vorbit despre asta de două ori mai puțin decât ar fi trebuit.
10:56
But much more importantly, the distribution is much wider.
264
656260
2000
Dar mai important este că distribuția este mult mai întinsă.
10:58
There are many people who end up on the far left on this distribution
265
658260
3000
Sunt oameni care ajung în extrema stângă a distribuției
11:01
who are talked about 10 times fewer than they should have been.
266
661260
3000
despre care se vorbește de 10 ori mai puțin decât ar trebui.
11:04
But then also many people on the far right
267
664260
2000
De asemenea, mulți oameni din extrema dreaptă
11:06
who seem to benefit from propaganda.
268
666260
2000
par să beneficieze de propagandă.
11:08
This picture is the hallmark of censorship in the book record.
269
668260
3000
Această imagine este marca cenzurilor în arhiva cărții.
11:11
ELA: So culturomics
270
671260
2000
ELA: Așa că noi numim această metodă,
11:13
is what we call this method.
271
673260
2000
culturomică.
11:15
It's kind of like genomics.
272
675260
2000
Se aseamană cu genomica.
11:17
Except genomics is a lens on biology
273
677260
2000
Doar că genomica este o lupă asupra biologiei
11:19
through the window of the sequence of bases in the human genome.
274
679260
3000
prin fereastra de secvențe de bază din genomul uman.
11:22
Culturomics is similar.
275
682260
2000
Culturomica este similară.
11:24
It's the application of massive-scale data collection analysis
276
684260
3000
Este o analiză realizată pe o colecție de date imensă aplicată
11:27
to the study of human culture.
277
687260
2000
la studiul culturii umane.
11:29
Here, instead of through the lens of a genome,
278
689260
2000
Aici, nu privim prin lentilele unui genom
11:31
through the lens of digitized pieces of the historical record.
279
691260
3000
ci prin lentilele unor piese digitale din istorie.
11:34
The great thing about culturomics
280
694260
2000
Partea grozavă despre culturomică
11:36
is that everyone can do it.
281
696260
2000
este că oricine o poate face.
11:38
Why can everyone do it?
282
698260
2000
De ce o poate face oricine?
11:40
Everyone can do it because three guys,
283
700260
2000
Toată lumea poate datorită a trei bărbați.
11:42
Jon Orwant, Matt Gray and Will Brockman over at Google,
284
702260
3000
Jon Orwant, Matt Gray și Will Brockman de la Google
11:45
saw the prototype of the Ngram Viewer,
285
705260
2000
au văzut prototipul lui Ngram Viewer,
11:47
and they said, "This is so fun.
286
707260
2000
și au spus, „Este foarte distractiv.
11:49
We have to make this available for people."
287
709260
3000
Trebuie să-l facem accesibil tuturor.”
11:52
So in two weeks flat -- the two weeks before our paper came out --
288
712260
2000
Așa că în fix două săptămâni -- cele două săptămâni dinainte să ne iasă actele --
11:54
they coded up a version of the Ngram Viewer for the general public.
289
714260
3000
au dezvoltat o versiune a Ngram Viewer pentru publicul larg.
11:57
And so you too can type in any word or phrase that you're interested in
290
717260
3000
Așa că și voi puteți să tastați orice cuvânt sau frază doriți
12:00
and see its n-gram immediately --
291
720260
2000
și imediat să-i vedeți n-grama --
12:02
also browse examples of all the various books
292
722260
2000
și să explorați exemple din toate cărțile
12:04
in which your n-gram appears.
293
724260
2000
în care apare n-grama voastră.
12:06
JM: Now this was used over a million times on the first day,
294
726260
2000
JM: În prima zi a fost folosit de peste un milion de ori,
12:08
and this is really the best of all the queries.
295
728260
2000
iar asta este cea mai bună dintre toate interogările.
12:10
So people want to be their best, put their best foot forward.
296
730260
3000
Așa că oamenii își dau silința, fac tot posibilul.
12:13
But it turns out in the 18th century, people didn't really care about that at all.
297
733260
3000
Se pare că în secolul 18, oamenilor nu le păsa deloc.
12:16
They didn't want to be their best, they wanted to be their beft.
298
736260
3000
Nu doreau să fie cei mai buni, vroiau să fie cei mai buli.
12:19
So what happened is, of course, this is just a mistake.
299
739260
3000
Ceea ce s-a întâmplat este, bineînțeles, doar o greșeală.
12:22
It's not that strove for mediocrity,
300
742260
2000
Nu tindeau către mediocritate,
12:24
it's just that the S used to be written differently, kind of like an F.
301
744260
3000
doar N-ul era scris diferit, se apropia de un L.
12:27
Now of course, Google didn't pick this up at the time,
302
747260
3000
Bineînțeles, Google nu a ales asta atunci,
12:30
so we reported this in the science article that we wrote.
303
750260
3000
așa că am raportat acestă situație într-un articol științific pe care l-am scris.
12:33
But it turns out this is just a reminder
304
753260
2000
Dar acesta a fost doar ca să ne amintească de faptul că,
12:35
that, although this is a lot of fun,
305
755260
2000
deși este foarte distractiv,
12:37
when you interpret these graphs, you have to be very careful,
306
757260
2000
atunci când interpretezi aceste grafice, trebuie să fii foarte atent,
12:39
and you have to adopt the base standards in the sciences.
307
759260
3000
și trebuie să adopți standardele de bază în aceste științe.
12:42
ELA: People have been using this for all kinds of fun purposes.
308
762260
3000
ELA: Oamenii le-au folosit în diferite scopuri distractive.
12:45
(Laughter)
309
765260
7000
(Râsete)
12:52
Actually, we're not going to have to talk,
310
772260
2000
De fapt, nu o să mai vorbim,
12:54
we're just going to show you all the slides and remain silent.
311
774260
3000
ci doar o să vă arătăm slide-urile și o să păstrăm liniștea.
12:57
This person was interested in the history of frustration.
312
777260
3000
Această persoană a fost interesată de istoria frustrării.
13:00
There's various types of frustration.
313
780260
3000
Există diferite tipuri de frustrare.
13:03
If you stub your toe, that's a one A "argh."
314
783260
3000
Dacă îți rupi tocul, este un singur „A”.
13:06
If the planet Earth is annihilated by the Vogons
315
786260
2000
Dacă planeta Pământ este anihilată de Vogoni
13:08
to make room for an interstellar bypass,
316
788260
2000
pentru a permite un zbor interstelar,
13:10
that's an eight A "aaaaaaaargh."
317
790260
2000
este un A spus de opt ori „Aaaaaaaa”.
13:12
This person studies all the "arghs,"
318
792260
2000
Această persoană studiază toate „a-urile”,
13:14
from one through eight A's.
319
794260
2000
de la unu la opt A.
13:16
And it turns out
320
796260
2000
Și reiese
13:18
that the less-frequent "arghs"
321
798260
2000
că cele mai rare „a-uri”
13:20
are, of course, the ones that correspond to things that are more frustrating --
322
800260
3000
sunt, evident, cu evenimentele cele mai puțin frustrante --
13:23
except, oddly, in the early 80s.
323
803260
3000
cu excepția, ciudat, de la începutul anilor '80.
13:26
We think that might have something to do with Reagan.
324
806260
2000
Noi credem că ar putea avea legătură cu Reagan.
13:28
(Laughter)
325
808260
2000
(Râsete)
13:30
JM: There are many usages of this data,
326
810260
3000
JM: Sunt multe utilizări ale acestei informații,
13:33
but the bottom line is that the historical record is being digitized.
327
813260
3000
dar concluzia este că istoricul ei este digitizat.
13:36
Google has started to digitize 15 million books.
328
816260
2000
Google a început să digitizeze 15 milioane de cărți.
13:38
That's 12 percent of all the books that have ever been published.
329
818260
2000
Ceea ce înseamnă 12% din totalul de cărți vreodată publicat.
13:40
It's a sizable chunk of human culture.
330
820260
3000
Este o parte considerabilă din cultura umană.
13:43
There's much more in culture: there's manuscripts, there newspapers,
331
823260
3000
În cultură există mult mai multe lucruri: manuscripte, ziare,
13:46
there's things that are not text, like art and paintings.
332
826260
2000
există non-texte, ca arta și picturile.
13:48
These all happen to be on our computers,
333
828260
2000
Toate acestea se întâmplă să fie în calculatoarele noastre,
13:50
on computers across the world.
334
830260
2000
în calculatoare din întreaga lume.
13:52
And when that happens, that will transform the way we have
335
832260
3000
Și când asta se întâmplă, va schimba felul în care noi
13:55
to understand our past, our present and human culture.
336
835260
2000
ne înțelegem trecutul, prezentul și cultura umană.
13:57
Thank you very much.
337
837260
2000
Vă mulțumesc foarte mult.
13:59
(Applause)
338
839260
3000
(Aplauze)
Despre acest site

Acest site vă va prezenta videoclipuri de pe YouTube care sunt utile pentru a învăța limba engleză. Veți vedea lecții de engleză predate de profesori de top din întreaga lume. Faceți dublu clic pe subtitrările în limba engleză afișate pe fiecare pagină video pentru a reda videoclipul de acolo. Subtitrările se derulează în sincron cu redarea videoclipului. Dacă aveți comentarii sau solicitări, vă rugăm să ne contactați folosind acest formular de contact.

https://forms.gle/WvT1wiN1qDtmnspy7