What we learned from 5 million books

236,062 views ・ 2011-09-20

TED


Please double-click on the English subtitles below to play the video.

Translator: Eduardo Otsoa Reviewer: Fran Ontanaya
00:15
Erez Lieberman Aiden: Everyone knows
0
15260
2000
Erez Lieberman Aiden: Tothom sap
00:17
that a picture is worth a thousand words.
1
17260
3000
que una imatge val més que mil mots.
00:22
But we at Harvard
2
22260
2000
Però a Harvard
00:24
were wondering if this was really true.
3
24260
3000
ens preguntàvem si és de veres.
00:27
(Laughter)
4
27260
2000
(Rialles)
00:29
So we assembled a team of experts,
5
29260
4000
Així doncs vam formar un grup d'experts,
00:33
spanning Harvard, MIT,
6
33260
2000
incloent-hi Harvard, el MIT,
00:35
The American Heritage Dictionary, The Encyclopedia Britannica
7
35260
3000
The American Heritage Dictionary, La Enciclopèdia Britànica
00:38
and even our proud sponsors,
8
38260
2000
i fins i tot el nostre orgullós espònsor,
00:40
the Google.
9
40260
3000
Google.
00:43
And we cogitated about this
10
43260
2000
I ens ho vam rumiar
00:45
for about four years.
11
45260
2000
durant vora quatre anys.
00:47
And we came to a startling conclusion.
12
47260
5000
I vam arribar a una conclusió sorprenent.
00:52
Ladies and gentlemen, a picture is not worth a thousand words.
13
52260
3000
Senyores i senyors, una imatge no val més que mil mots.
00:55
In fact, we found some pictures
14
55260
2000
De fet, vam trobar algunes imatges
00:57
that are worth 500 billion words.
15
57260
5000
que valen més que 500.000 milions de mots.
01:02
Jean-Baptiste Michel: So how did we get to this conclusion?
16
62260
2000
Jean-Baptiste Michel: Així doncs com vam arribar a aquesta conclusió?
01:04
So Erez and I were thinking about ways
17
64260
2000
Erez i jo buscàvem maneres
01:06
to get a big picture of human culture
18
66260
2000
de trobar una imatge general de la cultura
01:08
and human history: change over time.
19
68260
3000
i història humanes: com canvien amb el temps.
01:11
So many books actually have been written over the years.
20
71260
2000
S'han escrit molts i molts llibres al llarg de la història.
01:13
So we were thinking, well the best way to learn from them
21
73260
2000
Pensàvem que la millor manera d´aprendre d'ells
01:15
is to read all of these millions of books.
22
75260
2000
és llegir-se tots aquests milions de llibres.
01:17
Now of course, if there's a scale for how awesome that is,
23
77260
3000
Ara, és clar, si hi ha una escala per a la magnitud de tot això,
01:20
that has to rank extremely, extremely high.
24
80260
3000
cal que vagi extremadament per dalt.
01:23
Now the problem is there's an X-axis for that,
25
83260
2000
El problema és que també hi ha un eix d'abscisses per a això,
01:25
which is the practical axis.
26
85260
2000
el qual és l'eix pràctic.
01:27
This is very, very low.
27
87260
2000
És molt, molt baix.
01:29
(Applause)
28
89260
3000
(Aplaudiment)
01:32
Now people tend to use an alternative approach,
29
92260
3000
Ara la gent tendeix a fer servir un enfocament alternatiu,
01:35
which is to take a few sources and read them very carefully.
30
95260
2000
que és prendre poques fonts i llegilr-les amb molta cura.
01:37
This is extremely practical, but not so awesome.
31
97260
2000
Això és molt pràctic, però no tan sorprenent.
01:39
What you really want to do
32
99260
3000
El que realment volem fer
01:42
is to get to the awesome yet practical part of this space.
33
102260
3000
és aconseguir la part sorprenent, i pràctica d'aquest espai.
01:45
So it turns out there was a company across the river called Google
34
105260
3000
Resulta que hi havia una companyia a l'altra vorera del riu anomenada Google
01:48
who had started a digitization project a few years back
35
108260
2000
que havia encetat un procés de digitalització fa alguns anys
01:50
that might just enable this approach.
36
110260
2000
que potser possibilitaria aquest enfocament.
01:52
They have digitized millions of books.
37
112260
2000
Han digitalitzat milions de llibres.
01:54
So what that means is, one could use computational methods
38
114260
3000
El que això vol dir és que hom podria usar mètodes informàtics
01:57
to read all of the books in a click of a button.
39
117260
2000
per llegir tots els llibres amb un clic del ratolí.
01:59
That's very practical and extremely awesome.
40
119260
3000
Això és molt pràctic i molt i molt sorprenent.
02:03
ELA: Let me tell you a little bit about where books come from.
41
123260
2000
ELA: Us diré ara una mica sobre l'origen dels llibres.
02:05
Since time immemorial, there have been authors.
42
125260
3000
Des de temps immemorials, hi ha hagut autors.
02:08
These authors have been striving to write books.
43
128260
3000
S'han esforçat en escriure llibres.
02:11
And this became considerably easier
44
131260
2000
Això esdevingué molt més fàcil
02:13
with the development of the printing press some centuries ago.
45
133260
2000
amb el desenvolupament de la impremta fa alguns segles.
02:15
Since then, the authors have won
46
135260
3000
Des de llavors, els autors han guanyat
02:18
on 129 million distinct occasions,
47
138260
2000
129 milions vegades,
02:20
publishing books.
48
140260
2000
tot publicant llibres.
02:22
Now if those books are not lost to history,
49
142260
2000
Si aquests llibres no es perden en la nit dels temps,
02:24
then they are somewhere in a library,
50
144260
2000
aleshores hi són en algun lloc d'una biblioteca,
02:26
and many of those books have been getting retrieved from the libraries
51
146260
3000
i molts d'ells han estat deixats en préstec a les biblioteques
02:29
and digitized by Google,
52
149260
2000
i digitalitzats per Google,
02:31
which has scanned 15 million books to date.
53
151260
2000
qui ha escanejat 15 milions de llibres fins avui.
02:33
Now when Google digitizes a book, they put it into a really nice format.
54
153260
3000
Quan Google digitalitza un llibre, li donen un format bonic de veres.
02:36
Now we've got the data, plus we have metadata.
55
156260
2000
Ara tenim les dades i, a més a més, les metadades.
02:38
We have information about things like where was it published,
56
158260
3000
Tenim informació sobre coses com on ha estat publicat,
02:41
who was the author, when was it published.
57
161260
2000
qui era l'autor, quan fou publicat.
02:43
And what we do is go through all of those records
58
163260
3000
I el que fem és esbrinar tots aquests registres
02:46
and exclude everything that's not the highest quality data.
59
166260
4000
i excloure tot allò que no siguin les dades de més qualitat.
02:50
What we're left with
60
170260
2000
El que ens queda
02:52
is a collection of five million books,
61
172260
3000
és una col·leció de cinc milions de llibres,
02:55
500 billion words,
62
175260
3000
500.000 milions de mots,
02:58
a string of characters a thousand times longer
63
178260
2000
una tirallonga de lletres mil vegades més llarga
03:00
than the human genome --
64
180260
3000
que el genoma humà --
03:03
a text which, when written out,
65
183260
2000
un text que, un cop escrit,
03:05
would stretch from here to the Moon and back
66
185260
2000
faria el camí d'anada i tornada a la lluna
03:07
10 times over --
67
187260
2000
més de 10 vegades --
03:09
a veritable shard of our cultural genome.
68
189260
4000
un veritable fragment del nostre genoma cultural.
03:13
Of course what we did
69
193260
2000
És cert que el que vam fer
03:15
when faced with such outrageous hyperbole ...
70
195260
3000
al enfrontar-nos a aquesta hipèrbole indignant ...
03:18
(Laughter)
71
198260
2000
(Rialles)
03:20
was what any self-respecting researchers
72
200260
3000
fou allò que qualsevol investigador que es precïi
03:23
would have done.
73
203260
3000
hauria fet.
03:26
We took a page out of XKCD,
74
206260
2000
Vam agafar una plana del còmic XKCD,
03:28
and we said, "Stand back.
75
208260
2000
i diguérem, "Atura't.
03:30
We're going to try science."
76
210260
2000
Provarem de fer ciència."
03:32
(Laughter)
77
212260
2000
(Rialles)
03:34
JM: Now of course, we were thinking,
78
214260
2000
JM: És clar, hi pensem,
03:36
well let's just first put the data out there
79
216260
2000
posem les dades per aquí
03:38
for people to do science to it.
80
218260
2000
perquè la gent faci ciència amb elles.
03:40
Now we're thinking, what data can we release?
81
220260
2000
I pensem, quines dades podem publicar?
03:42
Well of course, you want to take the books
82
222260
2000
Evidentment, hom vol prendre els llibres
03:44
and release the full text of these five million books.
83
224260
2000
i publicar el text sencer de cinc milions de llibres.
03:46
Now Google, and Jon Orwant in particular,
84
226260
2000
Google, i Jon Orwant en particular,
03:48
told us a little equation that we should learn.
85
228260
2000
ens van dir una petita equació que calia que aprenguéssim.
03:50
So you have five million, that is, five million authors
86
230260
3000
Així doncs hi ha cinc milions, és a dir, cinc milions d'autors
03:53
and five million plaintiffs is a massive lawsuit.
87
233260
3000
i cinc millions de demandes judicials és un procés descomunal.
03:56
So, although that would be really, really awesome,
88
236260
2000
Així doncs, encara que això seria molt i molt sorprenent,
03:58
again, that's extremely, extremely impractical.
89
238260
3000
una vegada més, seria molt i molt poc pràctic.
04:01
(Laughter)
90
241260
2000
(Rialles)
04:03
Now again, we kind of caved in,
91
243260
2000
Llavors, gairebé ens vam ensorrar,
04:05
and we did the very practical approach, which was a bit less awesome.
92
245260
3000
i optàrem per l'enfocament pràctic, que no era tan sorprenent.
04:08
We said, well instead of releasing the full text,
93
248260
2000
Ens vam dir, en lloc de publicar el text sencer,
04:10
we're going to release statistics about the books.
94
250260
2000
publicarem estadístiques al voltant dels llibres.
04:12
So take for instance "A gleam of happiness."
95
252260
2000
A tall d'exemple "A gleam of happiness."
04:14
It's four words; we call that a four-gram.
96
254260
2000
Té quatre paraules; ho anomenem un quatre-grams.
04:16
We're going to tell you how many times a particular four-gram
97
256260
2000
Us direm quantes vegades va aparèixer un quatre-grams en particular
04:18
appeared in books in 1801, 1802, 1803,
98
258260
2000
en els llibres de 1801, 1802, 1802,
04:20
all the way up to 2008.
99
260260
2000
fins a l'any 2008.
04:22
That gives us a time series
100
262260
2000
Això ens dóna una sèrie temporal
04:24
of how frequently this particular sentence was used over time.
101
264260
2000
sobre la freqüència amb què una frase concreta ha estat usada al llarg del temps.
04:26
We do that for all the words and phrases that appear in those books,
102
266260
3000
Ho fem amb tots els mots i frases que apareixen en aquells llibres,
04:29
and that gives us a big table of two billion lines
103
269260
3000
i ens dóna una gran taula de 2000 milions de línies
04:32
that tell us about the way culture has been changing.
104
272260
2000
que ens parla sobre la manera com la cultura ha canviat.
04:34
ELA: So those two billion lines,
105
274260
2000
ELA: Així doncs 2000 milions de línies,
04:36
we call them two billion n-grams.
106
276260
2000
ho anomenem 2000 milions de n-grams.
04:38
What do they tell us?
107
278260
2000
Què ens diu tot això?
04:40
Well the individual n-grams measure cultural trends.
108
280260
2000
Doncs que els n-grams mesuren les tendències culturals.
04:42
Let me give you an example.
109
282260
2000
Us posaré un exemple.
04:44
Let's suppose that I am thriving,
110
284260
2000
Suposem que estic esforçant-me,
04:46
then tomorrow I want to tell you about how well I did.
111
286260
2000
demà vull contar-vos el que vaig fer ahir.
04:48
And so I might say, "Yesterday, I throve."
112
288260
3000
Podria dir-vos, "Ahir, em vaig esforçar."
04:51
Alternatively, I could say, "Yesterday, I thrived."
113
291260
3000
Altrament, puc dir, "Ahir, m'esforcí."
04:54
Well which one should I use?
114
294260
3000
Quina forma cal que faci servir?
04:57
How to know?
115
297260
2000
Com saber-ho?
04:59
As of about six months ago,
116
299260
2000
Fa com sis mesos,
05:01
the state of the art in this field
117
301260
2000
el més novedós en aquest camp
05:03
is that you would, for instance,
118
303260
2000
era que, posem per cas, hom
05:05
go up to the following psychologist with fabulous hair,
119
305260
2000
aniria al psicòleg amb cabells fabulosos
05:07
and you'd say,
120
307260
2000
i li preguntaria,
05:09
"Steve, you're an expert on the irregular verbs.
121
309260
3000
"Steve, tu que ets un expert en verbs irregulars.
05:12
What should I do?"
122
312260
2000
Què cal que digui?"
05:14
And he'd tell you, "Well most people say thrived,
123
314260
2000
I et diria, "la majoria de la gent diu em vaig esforçar,
05:16
but some people say throve."
124
316260
3000
però alguns diuen m'esforcí."
05:19
And you also knew, more or less,
125
319260
2000
I hom sap que, més o menys,
05:21
that if you were to go back in time 200 years
126
321260
3000
si ens remuntem 200 anys en la història
05:24
and ask the following statesman with equally fabulous hair,
127
324260
3000
i preguntem al següent estadista també amb cabells fabulosos,
05:27
(Laughter)
128
327260
3000
(Rialles)
05:30
"Tom, what should I say?"
129
330260
2000
"Tom, què cal que digui?"
05:32
He'd say, "Well, in my day, most people throve,
130
332260
2000
Diria, "Bé, en la meua època, la majoria deia m'esforcí,
05:34
but some thrived."
131
334260
3000
i alguns em vaig esforçar."
05:37
So now what I'm just going to show you is raw data.
132
337260
2000
El que ara us mostraré són dades en brut.
05:39
Two rows from this table of two billion entries.
133
339260
4000
Dues línes en aquesta taula de 2000 milions d'entrades.
05:43
What you're seeing is year by year frequency
134
343260
2000
El que esteu veient és la freqüència any rere any
05:45
of "thrived" and "throve" over time.
135
345260
3000
de "em vaig esforçar" i "m'esforcí".
05:49
Now this is just two
136
349260
2000
Això és sols dues
05:51
out of two billion rows.
137
351260
3000
línies dels 2000 milions.
05:54
So the entire data set
138
354260
2000
Doncs totes les dades plegades
05:56
is a billion times more awesome than this slide.
139
356260
3000
són 1000 milions de cops més sorprenents que aquesta diapositiva.
05:59
(Laughter)
140
359260
2000
(Rialles)
06:01
(Applause)
141
361260
4000
(Aplaudiment)
06:05
JM: Now there are many other pictures that are worth 500 billion words.
142
365260
2000
JM: Hi ha moltes altres imatges que valen més que 500.000 milions de paraules.
06:07
For instance, this one.
143
367260
2000
Per exemple, aquesta.
06:09
If you just take influenza,
144
369260
2000
Si prenem en consideració la grip
06:11
you will see peaks at the time where you knew
145
371260
2000
hom veurà pics allà on se sap que
06:13
big flu epidemics were killing people around the globe.
146
373260
3000
grans epidèmies de grip eren mortíferes a escala mundial.
06:16
ELA: If you were not yet convinced,
147
376260
3000
ELA: Si encara no estiguéssiu convençuts,
06:19
sea levels are rising,
148
379260
2000
el nivell del mar està pujant,
06:21
so is atmospheric CO2 and global temperature.
149
381260
3000
igual que el CO2 de l'atmosfera i el rescalfament global.
06:24
JM: You might also want to have a look at this particular n-gram,
150
384260
3000
JM: Potser us interessi fer una ullada a aquest n-gram,
06:27
and that's to tell Nietzsche that God is not dead,
151
387260
3000
per dir-li a Nietzsche que Déu és mort,
06:30
although you might agree that he might need a better publicist.
152
390260
3000
tot i que potser esteu d'acord que potser necessita un altre publicista.
06:33
(Laughter)
153
393260
2000
(Rialles)
06:35
ELA: You can get at some pretty abstract concepts with this sort of thing.
154
395260
3000
ELA: Hom pot arribar a alguns conceptes prou abstractes amb això.
06:38
For instance, let me tell you the history
155
398260
2000
Per exemple, us contaré la història
06:40
of the year 1950.
156
400260
2000
de l'any 1950.
06:42
Pretty much for the vast majority of history,
157
402260
2000
Pel que fa a gran part de la història,
06:44
no one gave a damn about 1950.
158
404260
2000
a ningú li importava un rave el 1950.
06:46
In 1700, in 1800, in 1900,
159
406260
2000
El 1700, el 1800, el 1900,
06:48
no one cared.
160
408260
3000
a ningú li importaven un rave.
06:52
Through the 30s and 40s,
161
412260
2000
Els anys 30 i 40,
06:54
no one cared.
162
414260
2000
a ningú li importava un rave.
06:56
Suddenly, in the mid-40s,
163
416260
2000
De sobte, a mitjans dels anys 40,
06:58
there started to be a buzz.
164
418260
2000
va començar a haver-hi un rumor.
07:00
People realized that 1950 was going to happen,
165
420260
2000
La gent s'adonà que 1950 anava a succeir,
07:02
and it could be big.
166
422260
2000
i que potser seria gran.
07:04
(Laughter)
167
424260
3000
(Rialles)
07:07
But nothing got people interested in 1950
168
427260
3000
Però no-res va fer que la gent s'hi interessessi.
07:10
like the year 1950.
169
430260
3000
tant com l'any 1950.
07:13
(Laughter)
170
433260
3000
(Rialles)
07:16
People were walking around obsessed.
171
436260
2000
La gent s'hi estava obsessionant.
07:18
They couldn't stop talking
172
438260
2000
No podien deixar de parlar-ne
07:20
about all the things they did in 1950,
173
440260
3000
sobre allò que havien fet en 1950,
07:23
all the things they were planning to do in 1950,
174
443260
3000
tot allò que planejaven fer en 1950,
07:26
all the dreams of what they wanted to accomplish in 1950.
175
446260
5000
tots els somnis al voltant d'allò que volien aconseguir en 1950.
07:31
In fact, 1950 was so fascinating
176
451260
2000
De fet, el 1950 va ser tant fascinant
07:33
that for years thereafter,
177
453260
2000
que durant anys després,
07:35
people just kept talking about all the amazing things that happened,
178
455260
3000
la gent va continuar parlant sobre les coses meravelloses que havien passat,
07:38
in '51, '52, '53.
179
458260
2000
en 1951, 52, 53.
07:40
Finally in 1954,
180
460260
2000
Al capdavall en 1954,
07:42
someone woke up and realized
181
462260
2000
algú es va despertar i es va adonar
07:44
that 1950 had gotten somewhat passé.
182
464260
4000
que el 1950 havia, d'alguna manera, passat de moda.
07:48
(Laughter)
183
468260
2000
(Rialles)
07:50
And just like that, the bubble burst.
184
470260
2000
I simplement així, la bombolla va esclatar.
07:52
(Laughter)
185
472260
2000
(Rialles)
07:54
And the story of 1950
186
474260
2000
I la història del 1950
07:56
is the story of every year that we have on record,
187
476260
2000
és la història de cada any que tenim enregistrat,
07:58
with a little twist, because now we've got these nice charts.
188
478260
3000
amb un petit canvi, perquè ara tenim aquests fantàstics gràfics.
08:01
And because we have these nice charts, we can measure things.
189
481260
3000
I com que tenim aquests fantàstics gràfics, podem mesurar les coses.
08:04
We can say, "Well how fast does the bubble burst?"
190
484260
2000
Podem afirmar, "A quina velocitat esclata la bombolla?
08:06
And it turns out that we can measure that very precisely.
191
486260
3000
I resulta que podem mesurar-ho amb molta precisió.
08:09
Equations were derived, graphs were produced,
192
489260
3000
Vam resoldre equacions, generar gràfics.
08:12
and the net result
193
492260
2000
i el resultat nítid
08:14
is that we find that the bubble bursts faster and faster
194
494260
3000
és que trobem que la bombolla esclata més i més ràpidament
08:17
with each passing year.
195
497260
2000
amb cada any que passa.
08:19
We are losing interest in the past more rapidly.
196
499260
5000
El passat deixa d'interessar-nos més ràpidament.
08:24
JM: Now a little piece of career advice.
197
504260
2000
JM: Ara un petit consell per a la vida professional.
08:26
So for those of you who seek to be famous,
198
506260
2000
Per a aquells de vosaltres qui vulgueu ser famosos,
08:28
we can learn from the 25 most famous political figures,
199
508260
2000
podem aprendre de les 25 figures polítiques més famoses,
08:30
authors, actors and so on.
200
510260
2000
autors, actors, etc.
08:32
So if you want to become famous early on, you should be an actor,
201
512260
3000
Així, si algú vol esdevenir famós aviat, caldria que fos actor,
08:35
because then fame starts rising by the end of your 20s --
202
515260
2000
perquè la fama comença a crèixer quan tens gariebé 30 anys --
08:37
you're still young, it's really great.
203
517260
2000
encara ets jove, això és bonic de veres.
08:39
Now if you can wait a little bit, you should be an author,
204
519260
2000
Ara si pots esperar una mica més, caldria que fossis un autor,
08:41
because then you rise to very great heights,
205
521260
2000
perquè llavors t'aixecaràs a alçades molt elevades,
08:43
like Mark Twain, for instance: extremely famous.
206
523260
2000
com Mark Twain, per exemple: molt i molt famós.
08:45
But if you want to reach the very top,
207
525260
2000
Però si vols assolir el cim,
08:47
you should delay gratification
208
527260
2000
cal que endarrereixis la gratificació
08:49
and, of course, become a politician.
209
529260
2000
i, és clar, esdevinguis polític.
08:51
So here you will become famous by the end of your 50s,
210
531260
2000
En aquest cas seràs famós quan tinguis gairebé 60 anys,
08:53
and become very, very famous afterward.
211
533260
2000
i seràs molt i molt famós després.
08:55
So scientists also tend to get famous when they're much older.
212
535260
3000
Els científics tendeixen a ser famosos quan són encara més grans.
08:58
Like for instance, biologists and physics
213
538260
2000
Com, per exemple, els biòlegs i els físics
09:00
tend to be almost as famous as actors.
214
540260
2000
tendeixen a ser tan famosos com els actors.
09:02
One mistake you should not do is become a mathematician.
215
542260
3000
Una errada que cal evitar és convertir-se en matemàtic.
09:05
(Laughter)
216
545260
2000
(Rialles)
09:07
If you do that,
217
547260
2000
Si ho fas,
09:09
you might think, "Oh great. I'm going to do my best work when I'm in my 20s."
218
549260
3000
potser pensis, "molt bé, faré la meua gran obra quan tingui 20 i escaig."
09:12
But guess what, nobody will really care.
219
552260
2000
Però sabeu què, a ningú li importarà un rave.
09:14
(Laughter)
220
554260
3000
(Rialles)
09:17
ELA: There are more sobering notes
221
557260
2000
ELA: Hi ha més notes alliçonadores
09:19
among the n-grams.
222
559260
2000
entre els n-grams.
09:21
For instance, here's the trajectory of Marc Chagall,
223
561260
2000
A tall d'exemple, heus aquí la trajectòria de Marc Chagall,
09:23
an artist born in 1887.
224
563260
2000
un artista nascut en 1887.
09:25
And this looks like the normal trajectory of a famous person.
225
565260
3000
I això sembla la trajectòria normal de una persona famosa.
09:28
He gets more and more and more famous,
226
568260
4000
Es fa més i més famós,
09:32
except if you look in German.
227
572260
2000
excepte si recerques en alemay.
09:34
If you look in German, you see something completely bizarre,
228
574260
2000
Si recerques en alemay, veus quelcom estrany del tot,
09:36
something you pretty much never see,
229
576260
2000
quelcom que garibé no veus mai,
09:38
which is he becomes extremely famous
230
578260
2000
que és que esdevé molt i molt famós
09:40
and then all of a sudden plummets,
231
580260
2000
i llavors, sobtadament, decau
09:42
going through a nadir between 1933 and 1945,
232
582260
3000
tot tocant fons entre 1933 i 1945,
09:45
before rebounding afterward.
233
585260
3000
abans de repuntar de nou.
09:48
And of course, what we're seeing
234
588260
2000
I, és clar, el que veiem
09:50
is the fact Marc Chagall was a Jewish artist
235
590260
3000
és el fet que Marc Chagall era un artista jueu
09:53
in Nazi Germany.
236
593260
2000
a l'Alemanya nazi.
09:55
Now these signals
237
595260
2000
Aquests signes
09:57
are actually so strong
238
597260
2000
són realment tan forts
09:59
that we don't need to know that someone was censored.
239
599260
3000
que no cal que sapiguem que algú fou censurat.
10:02
We can actually figure it out
240
602260
2000
Podem deduir-ho
10:04
using really basic signal processing.
241
604260
2000
fent servir un bàsic procesament de signes.
10:06
Here's a simple way to do it.
242
606260
2000
Aquí teniu una manera simple de fer-ho.
10:08
Well, a reasonable expectation
243
608260
2000
Una expectativa raonable
10:10
is that somebody's fame in a given period of time
244
610260
2000
és que la fama d'algú en un període donat de temps
10:12
should be roughly the average of their fame before
245
612260
2000
hauria de ser, més o menys, el promedi de la seva fama anterior
10:14
and their fame after.
246
614260
2000
i la seva fama posterior.
10:16
So that's sort of what we expect.
247
616260
2000
Doncs això és el que esperem.
10:18
And we compare that to the fame that we observe.
248
618260
3000
I comparem això amb la fama que observem.
10:21
And we just divide one by the other
249
621260
2000
I dividim l'una entre l'altra
10:23
to produce something we call a suppression index.
250
623260
2000
per obtindre quelcom que anomenem índex de supressió.
10:25
If the suppression index is very, very, very small,
251
625260
3000
Si l'índex de supressió és molt i molt petit,
10:28
then you very well might be being suppressed.
252
628260
2000
és més que probable que t'estiguin suprimint.
10:30
If it's very large, maybe you're benefiting from propaganda.
253
630260
3000
I si és molt gran, potser és gràcies a la propaganda.
10:34
JM: Now you can actually look at
254
634260
2000
JM: Aquí podeu veure realment
10:36
the distribution of suppression indexes over whole populations.
255
636260
3000
la distribució dels índex de supresió de poblacions senceres.
10:39
So for instance, here --
256
639260
2000
Així doncs per exemple, aquí --
10:41
this suppression index is for 5,000 people
257
641260
2000
l'índex de supressió és de 5.000 persones
10:43
picked in English books where there's no known suppression --
258
643260
2000
preses en llibres en anglés on no hi ha supressió coneguda --
10:45
it would be like this, basically tightly centered on one.
259
645260
2000
seria d'aquesta manera, en essència centrat estretament al voltant del u.
10:47
What you expect is basically what you observe.
260
647260
2000
El que ens esperaríem és el que observem.
10:49
This is distribution as seen in Germany --
261
649260
2000
Aquesta és la distribució vista en Alemanay --
10:51
very different, it's shifted to the left.
262
651260
2000
molt diferent, està inclinada envers l'esquerra.
10:53
People talked about it twice less as it should have been.
263
653260
3000
La gent en parlava dues vegades del que caldria esperar.
10:56
But much more importantly, the distribution is much wider.
264
656260
2000
Però encara més important, la distribució és molt més àmplia.
10:58
There are many people who end up on the far left on this distribution
265
658260
3000
Hi ha molta gent que acaben en l'extrem esquerrà d'aquesta distribució
11:01
who are talked about 10 times fewer than they should have been.
266
661260
3000
dels quals es parla unes 10 vegades menys del que caldria esperar.
11:04
But then also many people on the far right
267
664260
2000
I, d'una altra banda, molta gent en el extrem contrari
11:06
who seem to benefit from propaganda.
268
666260
2000
qui semblen rebre el benefici de la propaganda.
11:08
This picture is the hallmark of censorship in the book record.
269
668260
3000
Aquesta imatge és l'epítom de la censura en el registre de llibres.
11:11
ELA: So culturomics
270
671260
2000
ELA: cultròmica
11:13
is what we call this method.
271
673260
2000
és com hem anomenat aquest mètode.
11:15
It's kind of like genomics.
272
675260
2000
És com la genòmica.
11:17
Except genomics is a lens on biology
273
677260
2000
Tret que la genòmica és una lent vers la biologia
11:19
through the window of the sequence of bases in the human genome.
274
679260
3000
a través de la finestra de la seqüència de les bases en el genoma humà.
11:22
Culturomics is similar.
275
682260
2000
La cultròmica és similar.
11:24
It's the application of massive-scale data collection analysis
276
684260
3000
És l'aplicació de l'anàlisi de corpus massius de dades
11:27
to the study of human culture.
277
687260
2000
a l'estudi de la cultura humana.
11:29
Here, instead of through the lens of a genome,
278
689260
2000
Aquí, en lloc de fer servir la lent del genoma,
11:31
through the lens of digitized pieces of the historical record.
279
691260
3000
es fa a través de la lent de registres històrics digitalitzats.
11:34
The great thing about culturomics
280
694260
2000
El bo de la cultròmica
11:36
is that everyone can do it.
281
696260
2000
és que tothom pot practicar-la.
11:38
Why can everyone do it?
282
698260
2000
Perquè pot practicar-la tothom?
11:40
Everyone can do it because three guys,
283
700260
2000
Gràcies a tres tipus,
11:42
Jon Orwant, Matt Gray and Will Brockman over at Google,
284
702260
3000
Jon Orwant, Matt Gray i Will Brockman a Google,
11:45
saw the prototype of the Ngram Viewer,
285
705260
2000
van veure el prototipus del Ngram Viewer,
11:47
and they said, "This is so fun.
286
707260
2000
i van dir-se, "Això és molt divertit.
11:49
We have to make this available for people."
287
709260
3000
Hem de posar-ho a l'abast de tothom."
11:52
So in two weeks flat -- the two weeks before our paper came out --
288
712260
2000
Així que en sols dues setmanes -- les dues setmanes prèvies a la publicació de la nostra recerca --
11:54
they coded up a version of the Ngram Viewer for the general public.
289
714260
3000
van codificar una versió del Ngram Viewer per al gran públic.
11:57
And so you too can type in any word or phrase that you're interested in
290
717260
3000
I llavors hom pot teclejar qualsevol mot o frase en què hom estigui interessat
12:00
and see its n-gram immediately --
291
720260
2000
i veure el seu n-gram immediatament --
12:02
also browse examples of all the various books
292
722260
2000
també navegar per exemples de diversos llibres
12:04
in which your n-gram appears.
293
724260
2000
on aquest n-gram apareix.
12:06
JM: Now this was used over a million times on the first day,
294
726260
2000
JM: Va ser utilitzat més d'un milio de vegades el primer dia,
12:08
and this is really the best of all the queries.
295
728260
2000
i això és la millor de les consultes.
12:10
So people want to be their best, put their best foot forward.
296
730260
3000
La gent vol el bo i millor, engrescar-s'hi amb ganes.
12:13
But it turns out in the 18th century, people didn't really care about that at all.
297
733260
3000
Però sembla ser que en el segle XVIII, a la gent li importava un rave tot això.
12:16
They didn't want to be their best, they wanted to be their beft.
298
736260
3000
No volien el bo i millor (best), volien el bo i millor (beft).
12:19
So what happened is, of course, this is just a mistake.
299
739260
3000
El que passava és, és clar, que això és una errada.
12:22
It's not that strove for mediocrity,
300
742260
2000
No és que s'esforcessin per la mediocritat,
12:24
it's just that the S used to be written differently, kind of like an F.
301
744260
3000
és simplement que la S s'escrivia diferent, una mena de F.
12:27
Now of course, Google didn't pick this up at the time,
302
747260
3000
Òbviament Google no ho va veure aleshores,
12:30
so we reported this in the science article that we wrote.
303
750260
3000
així que vam notificar-ho en el següent article científic que vam escriure.
12:33
But it turns out this is just a reminder
304
753260
2000
Resulta que això és sols un recordatori
12:35
that, although this is a lot of fun,
305
755260
2000
que, tot i ser molt divertit,
12:37
when you interpret these graphs, you have to be very careful,
306
757260
2000
quan interpretes aquests gràfics, cal ser molt curós,
12:39
and you have to adopt the base standards in the sciences.
307
759260
3000
i cal que s'adoptin els estàndards bàsics de les ciències.
12:42
ELA: People have been using this for all kinds of fun purposes.
308
762260
3000
ELA: La gent ho ha fet servir per a tot tipus de propòsits.
12:45
(Laughter)
309
765260
7000
(Rialles)
12:52
Actually, we're not going to have to talk,
310
772260
2000
En realitat, no parlarem,
12:54
we're just going to show you all the slides and remain silent.
311
774260
3000
simplement mostrarem les diapositives i estarem callats.
12:57
This person was interested in the history of frustration.
312
777260
3000
Aquesta persona estava interessada en la història de la frustració.
13:00
There's various types of frustration.
313
780260
3000
Hi ha diversos tipus de frustració.
13:03
If you stub your toe, that's a one A "argh."
314
783260
3000
Si et fas mal al dit del peu, això és un "argh" amb una A.
13:06
If the planet Earth is annihilated by the Vogons
315
786260
2000
Si el planeta Terra és anihilat pels Vogons
13:08
to make room for an interstellar bypass,
316
788260
2000
per fer lloc per una circumval·lació interstel·lar
13:10
that's an eight A "aaaaaaaargh."
317
790260
2000
Això és un "aaaaaaaargh" amb vuit As.
13:12
This person studies all the "arghs,"
318
792260
2000
Aquesta persona estudia tots els "arghs,"
13:14
from one through eight A's.
319
794260
2000
des de una A a vuit As.
13:16
And it turns out
320
796260
2000
I resulta que
13:18
that the less-frequent "arghs"
321
798260
2000
els "arghs" menys freqüents
13:20
are, of course, the ones that correspond to things that are more frustrating --
322
800260
3000
són, és clar, els que corresponen a les coses més frustrants --
13:23
except, oddly, in the early 80s.
323
803260
3000
excepte, curiosament, a principis dels anys 80.
13:26
We think that might have something to do with Reagan.
324
806260
2000
Pensem que potser estigui relacionat amb Reagan.
13:28
(Laughter)
325
808260
2000
(Rialles)
13:30
JM: There are many usages of this data,
326
810260
3000
JM: Hi ha molts usos d'aquestes dades.
13:33
but the bottom line is that the historical record is being digitized.
327
813260
3000
però el més important és que els arxius històrics estan sent digitaliltzats.
13:36
Google has started to digitize 15 million books.
328
816260
2000
Google ha començat a digitalitzar 15 milions de llibres.
13:38
That's 12 percent of all the books that have ever been published.
329
818260
2000
Això és el 12 % de tots els llibres que s'han publicat en la història.
13:40
It's a sizable chunk of human culture.
330
820260
3000
És un troç important de la cultura humana.
13:43
There's much more in culture: there's manuscripts, there newspapers,
331
823260
3000
Hi ha molt més en la cultura: hi ha manuscrits, periòdics,
13:46
there's things that are not text, like art and paintings.
332
826260
2000
hi ha coses que no són text, com ara art i quadres.
13:48
These all happen to be on our computers,
333
828260
2000
I resulta que tot ho tenim als nostres ordinadors,
13:50
on computers across the world.
334
830260
2000
als ordinadors de tot el món.
13:52
And when that happens, that will transform the way we have
335
832260
3000
I quan això succeixi, això transformarà la manera que tenim
13:55
to understand our past, our present and human culture.
336
835260
2000
d'entendre el nostre passat, el nostre present i la cultura humana.
13:57
Thank you very much.
337
837260
2000
Moltes gràcies.
13:59
(Applause)
338
839260
3000
(Aplaudiment)
About this website

This site will introduce you to YouTube videos that are useful for learning English. You will see English lessons taught by top-notch teachers from around the world. Double-click on the English subtitles displayed on each video page to play the video from there. The subtitles scroll in sync with the video playback. If you have any comments or requests, please contact us using this contact form.

https://forms.gle/WvT1wiN1qDtmnspy7