What we learned from 5 million books

236,259 views ・ 2011-09-20

TED


Fare doppio clic sui sottotitoli in inglese per riprodurre il video.

Traduttore: Claudio Dinapoli Revisore: Emanuele Caccia
00:15
Erez Lieberman Aiden: Everyone knows
0
15260
2000
Erez Lieberman Aiden: Tutti sanno
00:17
that a picture is worth a thousand words.
1
17260
3000
che un'immagine vale mille parole.
00:22
But we at Harvard
2
22260
2000
ma noi di Harward
00:24
were wondering if this was really true.
3
24260
3000
ci stavamo chiedendo se fosse davvero così.
00:27
(Laughter)
4
27260
2000
(Risate)
00:29
So we assembled a team of experts,
5
29260
4000
Perciò abbiamo messo insieme un gruppo di esperti,
00:33
spanning Harvard, MIT,
6
33260
2000
provenienti da Harvard, dall'MIT,
00:35
The American Heritage Dictionary, The Encyclopedia Britannica
7
35260
3000
dall'American Heritage Dictionary, dall'Encyclopedia Britannica
00:38
and even our proud sponsors,
8
38260
2000
e persino dal nostro gentile sponsor,
00:40
the Google.
9
40260
3000
Google.
00:43
And we cogitated about this
10
43260
2000
E ci abbiamo rimuginato sopra
00:45
for about four years.
11
45260
2000
per circa quattro anni.
00:47
And we came to a startling conclusion.
12
47260
5000
E siamo giunti ad una conclusione sorprendente.
00:52
Ladies and gentlemen, a picture is not worth a thousand words.
13
52260
3000
Signore e signori, un'immagine non vale mille parole.
00:55
In fact, we found some pictures
14
55260
2000
In effetti abbiamo scoperto alcune immagini
00:57
that are worth 500 billion words.
15
57260
5000
che valgono 500 miliardi di parole.
01:02
Jean-Baptiste Michel: So how did we get to this conclusion?
16
62260
2000
Jean-Baptiste Michel: Come siamo giunti a questa conclusione?
01:04
So Erez and I were thinking about ways
17
64260
2000
Erez e io stavamo pensando ai diversi modi
01:06
to get a big picture of human culture
18
66260
2000
di ottenere una grande rappresentazione visiva della cultura umana,
01:08
and human history: change over time.
19
68260
3000
della sua storia e dei loro cambiamenti nel corso del tempo.
01:11
So many books actually have been written over the years.
20
71260
2000
Col passare degli anni sono stati scritti tantissimi libri,
01:13
So we were thinking, well the best way to learn from them
21
73260
2000
così abbiamo pensato: <Beh, il modo migliore per imparare qualcosa
01:15
is to read all of these millions of books.
22
75260
2000
da questi milioni di libri é leggerli tutti.>.
01:17
Now of course, if there's a scale for how awesome that is,
23
77260
3000
Se esiste una scala per misurare il grado di grandiosità delle cose,
01:20
that has to rank extremely, extremely high.
24
80260
3000
leggere tutti quei libri si piazza molto, molto in alto.
01:23
Now the problem is there's an X-axis for that,
25
83260
2000
Il problema è che c'è anche un asse X di cui tenere conto,
01:25
which is the practical axis.
26
85260
2000
l'asse della praticità.
01:27
This is very, very low.
27
87260
2000
Sul quale si piazza molto, molto in basso
01:29
(Applause)
28
89260
3000
(Applauso)
01:32
Now people tend to use an alternative approach,
29
92260
3000
Molte persone tendono ad usare un approccio alternativo,
01:35
which is to take a few sources and read them very carefully.
30
95260
2000
che consiste nel prendere solo alcune fonti e leggerle molto attentamente.
01:37
This is extremely practical, but not so awesome.
31
97260
2000
Estremamente pratico, ma non altrettanto grandioso.
01:39
What you really want to do
32
99260
3000
La cosa ideale da fare
01:42
is to get to the awesome yet practical part of this space.
33
102260
3000
é riuscire ad arrivare nella parte grandiosa ma al contempo pratica di questo grafico.
01:45
So it turns out there was a company across the river called Google
34
105260
3000
Si scopre che c'è un'azienda dall'altra parte del fiume chiamata Google,
01:48
who had started a digitization project a few years back
35
108260
2000
che alcuni anni prima aveva avviato un progetto di digitalizzazione
01:50
that might just enable this approach.
36
110260
2000
che avrebbe potuto rendere quest'ultimo approccio possibile.
01:52
They have digitized millions of books.
37
112260
2000
Per questo progetto hanno digitalizzato milioni di libri.
01:54
So what that means is, one could use computational methods
38
114260
3000
Ciò significa che una persona può utilizzare metodi computazionali
01:57
to read all of the books in a click of a button.
39
117260
2000
per leggere tutti questi libri solo cliccando su un pulsante.
01:59
That's very practical and extremely awesome.
40
119260
3000
-Questo- é sia molto pratico che assolutamente grandioso.
02:03
ELA: Let me tell you a little bit about where books come from.
41
123260
2000
ELA: Lasciate che vi racconti qualcosa sulla provenienza dei libri.
02:05
Since time immemorial, there have been authors.
42
125260
3000
Da tempo immemore sono esistiti gli autori.
02:08
These authors have been striving to write books.
43
128260
3000
Questi autori hanno sempre avuto l'ardente desiderio di scrivere libri,
02:11
And this became considerably easier
44
131260
2000
Cosa che divenne considerevolmente più facile
02:13
with the development of the printing press some centuries ago.
45
133260
2000
con lo sviluppo della macchina tipografica alcuni secoli fa.
02:15
Since then, the authors have won
46
135260
3000
Da allora, gli autori sono riusciti
02:18
on 129 million distinct occasions,
47
138260
2000
in 129 milioni distinte occasioni,
02:20
publishing books.
48
140260
2000
a pubblicare libri.
02:22
Now if those books are not lost to history,
49
142260
2000
Ora, se quei libri non sono andati persi nel corso della storia,
02:24
then they are somewhere in a library,
50
144260
2000
allora si trovano da qualche parte in una qualche libreria,
02:26
and many of those books have been getting retrieved from the libraries
51
146260
3000
e molti di quei libri sono stati reperiti dalle biblioteche
02:29
and digitized by Google,
52
149260
2000
e digitalizzati da Google,
02:31
which has scanned 15 million books to date.
53
151260
2000
che ad oggi ha scansionato 15 milioni di libri.
02:33
Now when Google digitizes a book, they put it into a really nice format.
54
153260
3000
Ora, quando Google digitalizza un libro, lo converte in un formato digitale molto pratico.
02:36
Now we've got the data, plus we have metadata.
55
156260
2000
Ora oltre ad avere i dati abbiamo anche i metadati.
02:38
We have information about things like where was it published,
56
158260
3000
Abbiamo informazioni su cose come dove il libro fu pubblicato,
02:41
who was the author, when was it published.
57
161260
2000
chi era l'autore, quando venne pubblicato.
02:43
And what we do is go through all of those records
58
163260
3000
E quel che facciamo è esaminare tutte quelle informazioni
02:46
and exclude everything that's not the highest quality data.
59
166260
4000
ed escludere tutto all'infuori dei dati della miglior qualità.
02:50
What we're left with
60
170260
2000
Quello che resta
02:52
is a collection of five million books,
61
172260
3000
è una selezione di cinque milioni di libri,
02:55
500 billion words,
62
175260
3000
500 miliardi di parole,
02:58
a string of characters a thousand times longer
63
178260
2000
una riga di caratteri mille volte più lunga
03:00
than the human genome --
64
180260
3000
del genoma umano --
03:03
a text which, when written out,
65
183260
2000
un testo che, se venisse trascritto,
03:05
would stretch from here to the Moon and back
66
185260
2000
coprirebbe la distanza tra qui e la luna, andata e ritorno
03:07
10 times over --
67
187260
2000
per 10 volte --
03:09
a veritable shard of our cultural genome.
68
189260
4000
un autentico frammento del nostro genoma culturale.
03:13
Of course what we did
69
193260
2000
Ovviamente ciò che abbiamo fatto
03:15
when faced with such outrageous hyperbole ...
70
195260
3000
una volta messi di fronte ad una cosa così spaventosamente esagerata...
03:18
(Laughter)
71
198260
2000
(Risate)
03:20
was what any self-respecting researchers
72
200260
3000
è stato ciò che qualunque ricercatore con un po' di amor proprio
03:23
would have done.
73
203260
3000
avrebbe fatto.
03:26
We took a page out of XKCD,
74
206260
2000
Abbiamo preso una pagina di XKCD
03:28
and we said, "Stand back.
75
208260
2000
e abbiamo detto: "Fatevi da parte.
03:30
We're going to try science."
76
210260
2000
Qui stiamo per fare la scienza."
03:32
(Laughter)
77
212260
2000
(Risate)
03:34
JM: Now of course, we were thinking,
78
214260
2000
JM: Ovviamente stavamo pensando:
03:36
well let's just first put the data out there
79
216260
2000
limitiamoci a mettere questi dati a disposizione
03:38
for people to do science to it.
80
218260
2000
di chiunque e lasciamo loro a "fare la scienza".
03:40
Now we're thinking, what data can we release?
81
220260
2000
Ora stiamo pensando: "Quali dati possiamo divulgare?"
03:42
Well of course, you want to take the books
82
222260
2000
Quello che vorremmo fare é prendere i libri
03:44
and release the full text of these five million books.
83
224260
2000
e divulgare il testo integrale di questi cinque milioni di tomi.
03:46
Now Google, and Jon Orwant in particular,
84
226260
2000
Google, e Jon Orwant in particolare,
03:48
told us a little equation that we should learn.
85
228260
2000
ci rivelarono una piccola equazione che dovremmo imparare.
03:50
So you have five million, that is, five million authors
86
230260
3000
Se hai cinque milioni di libri hai anche cinque milioni di autori,
03:53
and five million plaintiffs is a massive lawsuit.
87
233260
3000
e cinque milioni di querelanti fanno un'enorme causa legale.
03:56
So, although that would be really, really awesome,
88
236260
2000
Perciò, anche se sarebbe stato davvero davvero grandioso,
03:58
again, that's extremely, extremely impractical.
89
238260
3000
di nuovo, sarebbe stato anche molto molto poco fattibile.
04:01
(Laughter)
90
241260
2000
(Risate)
04:03
Now again, we kind of caved in,
91
243260
2000
E così cedemmo di nuovo
04:05
and we did the very practical approach, which was a bit less awesome.
92
245260
3000
e ripiegammo sull'approccio più fattibile e un po' meno grandioso.
04:08
We said, well instead of releasing the full text,
93
248260
2000
Ci dicemmo:" Ok, invece di divulgare il testo integrale
04:10
we're going to release statistics about the books.
94
250260
2000
divulgheremo le statistiche sui libri".
04:12
So take for instance "A gleam of happiness."
95
252260
2000
Prendete per esempio "Un barlume di felicità".
04:14
It's four words; we call that a four-gram.
96
254260
2000
Sono quattro parole, noi lo chiamiamo un "quattro grammi".
04:16
We're going to tell you how many times a particular four-gram
97
256260
2000
Riveleremo quante volte uno specifico "quattro grammi"
04:18
appeared in books in 1801, 1802, 1803,
98
258260
2000
è apparso nei libri nel 1801, 1802, 1803,
04:20
all the way up to 2008.
99
260260
2000
fino al 2008.
04:22
That gives us a time series
100
262260
2000
Questo ci dà una serie temporale
04:24
of how frequently this particular sentence was used over time.
101
264260
2000
di quanto frequentemente questa particolare frase è stata usata nel tempo.
04:26
We do that for all the words and phrases that appear in those books,
102
266260
3000
Lo facciamo con tutte le parole e frasi che appaiono in quei libri,
04:29
and that gives us a big table of two billion lines
103
269260
3000
ottenendo così una grande tabella con due miliardi di righe
04:32
that tell us about the way culture has been changing.
104
272260
2000
che ci raccontano il modo in cui la cultura è cambiata.
04:34
ELA: So those two billion lines,
105
274260
2000
ELA: Questi due miliardi di righe
04:36
we call them two billion n-grams.
106
276260
2000
noi le chiamiamo due miliardi di n-grammi.
04:38
What do they tell us?
107
278260
2000
Cosa ci raccontano?
04:40
Well the individual n-grams measure cultural trends.
108
280260
2000
Gli n-grammi individuali misurano le tendenze culturali.
04:42
Let me give you an example.
109
282260
2000
Lasciate che vi faccia un esempio.
04:44
Let's suppose that I am thriving,
110
284260
2000
Prendiamo il verbo irregolare "to thrive", prosperare
04:46
then tomorrow I want to tell you about how well I did.
111
286260
2000
e immaginiamo che vi voglia dire che ieri ho prosperato.
04:48
And so I might say, "Yesterday, I throve."
112
288260
3000
Potrei usare questa forma regolare.
04:51
Alternatively, I could say, "Yesterday, I thrived."
113
291260
3000
O, in alternativa, potrei usare questa forma irregolare.
04:54
Well which one should I use?
114
294260
3000
Hanno lo stesso significato, quale dovrei usare?
04:57
How to know?
115
297260
2000
Come scoprirlo?
04:59
As of about six months ago,
116
299260
2000
All'inirca sei mesi fa
05:01
the state of the art in this field
117
301260
2000
l'approccio migliore in casi come questo
05:03
is that you would, for instance,
118
303260
2000
era rivolgersi, ad esempio,
05:05
go up to the following psychologist with fabulous hair,
119
305260
2000
a questo psicologo dalla favolosa capigliatura
05:07
and you'd say,
120
307260
2000
e chiedergli:
05:09
"Steve, you're an expert on the irregular verbs.
121
309260
3000
"Steve, tu sei un esperto di verbi irregolari.
05:12
What should I do?"
122
312260
2000
Cosa dovrei fare secondo te?"
05:14
And he'd tell you, "Well most people say thrived,
123
314260
2000
E lui avrebbe detto: "Be' la maggioranza delle persone usa thrived,
05:16
but some people say throve."
124
316260
3000
ma alcune persone usano throve".
05:19
And you also knew, more or less,
125
319260
2000
E tu sapevi anche, più o meno,
05:21
that if you were to go back in time 200 years
126
321260
3000
che se fossi dovuto tornare indietro nel tempo di 200 anni
05:24
and ask the following statesman with equally fabulous hair,
127
324260
3000
e domandare al seguente luminare dalla capigliatura ugualmente favolosa,
05:27
(Laughter)
128
327260
3000
(Risate)
05:30
"Tom, what should I say?"
129
330260
2000
"Tom, secondo te cosa dovrei dire?"
05:32
He'd say, "Well, in my day, most people throve,
130
332260
2000
Lui avrebbe detto: "Be', di questi tempi la maggioranza della gente usa throve,
05:34
but some thrived."
131
334260
3000
ma alcuni usano thrived".
05:37
So now what I'm just going to show you is raw data.
132
337260
2000
Quelli che intendo mostrarvi ora sono dati grezzi.
05:39
Two rows from this table of two billion entries.
133
339260
4000
Due righe da questa tabella di due miliardi di voci.
05:43
What you're seeing is year by year frequency
134
343260
2000
Ciò che state vedendo è la frequenza anno dopo anno
05:45
of "thrived" and "throve" over time.
135
345260
3000
nell'uso di "thrived" e "throve" nella storia.
05:49
Now this is just two
136
349260
2000
Ora queste sono solo due righe
05:51
out of two billion rows.
137
351260
3000
fra due miliardi.
05:54
So the entire data set
138
354260
2000
Perciò l'intera collezione di dati
05:56
is a billion times more awesome than this slide.
139
356260
3000
è un miliardo di volte più grandiosa di questa diapositiva.
05:59
(Laughter)
140
359260
2000
(Risate)
06:01
(Applause)
141
361260
4000
(Applausi)
06:05
JM: Now there are many other pictures that are worth 500 billion words.
142
365260
2000
JM: Ora, ci sono molte altre immagini che valgono 500 miliardi di parole.
06:07
For instance, this one.
143
367260
2000
Questa, ad esempio.
06:09
If you just take influenza,
144
369260
2000
Se semplicemente prendete la parola influenza,
06:11
you will see peaks at the time where you knew
145
371260
2000
vedrete i picchi nel momento in cui sapevate
06:13
big flu epidemics were killing people around the globe.
146
373260
3000
che c'erano grandi epidemie di influenza che stavano mietendo vittime in tutto il mondo.
06:16
ELA: If you were not yet convinced,
147
376260
3000
ELA: Se ancora non foste convinti,
06:19
sea levels are rising,
148
379260
2000
il livello del mare si sta innalzando,
06:21
so is atmospheric CO2 and global temperature.
149
381260
3000
così come i livelli di anidride carbonica nell'atmosfera e la temperatura globale.
06:24
JM: You might also want to have a look at this particular n-gram,
150
384260
3000
JM: Potreste inoltre voler dare un'occhiata a questo particolare n-grammo,
06:27
and that's to tell Nietzsche that God is not dead,
151
387260
3000
giusto per poter dire a Nietzsche che Dio non è morto,
06:30
although you might agree that he might need a better publicist.
152
390260
3000
anche se forse sarete d'accordo nel dire che avrebbe bisogno di un migliore agente.
06:33
(Laughter)
153
393260
2000
(Risate)
06:35
ELA: You can get at some pretty abstract concepts with this sort of thing.
154
395260
3000
ELA: Si può arrivare anche a concetti abbastanza astratti con questo metodo.
06:38
For instance, let me tell you the history
155
398260
2000
Ad esempio, lasciate che vi racconti la storia
06:40
of the year 1950.
156
400260
2000
dell'anno 1950.
06:42
Pretty much for the vast majority of history,
157
402260
2000
Durante buona parte della storia,
06:44
no one gave a damn about 1950.
158
404260
2000
a nessuno gliene fregava nulla del 1950.
06:46
In 1700, in 1800, in 1900,
159
406260
2000
Nel 1700, nel 1800, nel 1900,
06:48
no one cared.
160
408260
3000
a nessuno importava.
06:52
Through the 30s and 40s,
161
412260
2000
Negli anni Trenta e Quaranta
06:54
no one cared.
162
414260
2000
a nessuno importava
06:56
Suddenly, in the mid-40s,
163
416260
2000
Improvvisamente, a metà degli anni Quaranta,
06:58
there started to be a buzz.
164
418260
2000
cominciò ad esserci del fermento.
07:00
People realized that 1950 was going to happen,
165
420260
2000
La gente si rese conto che il 1950 stava per arrivare,
07:02
and it could be big.
166
422260
2000
e poteva essere grandioso.
07:04
(Laughter)
167
424260
3000
(Risate)
07:07
But nothing got people interested in 1950
168
427260
3000
Ma nulla fece interessare la gente al 1950
07:10
like the year 1950.
169
430260
3000
come l'anno 1950.
07:13
(Laughter)
170
433260
3000
(Risate)
07:16
People were walking around obsessed.
171
436260
2000
La gente se ne andava in giro ossessionata.
07:18
They couldn't stop talking
172
438260
2000
Non riuscivano a smettere di parlare
07:20
about all the things they did in 1950,
173
440260
3000
di tutte le cose che fecero nel 1950,
07:23
all the things they were planning to do in 1950,
174
443260
3000
di tutte le cose che stavano pianificando di fare nel 1950,
07:26
all the dreams of what they wanted to accomplish in 1950.
175
446260
5000
di tutti i sogni di cose che che volevano realizzare nel 1950.
07:31
In fact, 1950 was so fascinating
176
451260
2000
A conti fatti il 1950 fu così affascinante
07:33
that for years thereafter,
177
453260
2000
che negli anni a seguire
07:35
people just kept talking about all the amazing things that happened,
178
455260
3000
la gente continuò a parlare di tutte le cose stupefacenti che accaddero,
07:38
in '51, '52, '53.
179
458260
2000
nel '51, nel '52 e nel '53.
07:40
Finally in 1954,
180
460260
2000
Alla fine nel 1954
07:42
someone woke up and realized
181
462260
2000
qualcuno si svegliò e si rese conto
07:44
that 1950 had gotten somewhat passé.
182
464260
4000
che il 1950 era in qualche modo passato di moda.
07:48
(Laughter)
183
468260
2000
(Risate)
07:50
And just like that, the bubble burst.
184
470260
2000
E improvvisamente la bolla esplose.
07:52
(Laughter)
185
472260
2000
(Risate)
07:54
And the story of 1950
186
474260
2000
E la storia del 1950
07:56
is the story of every year that we have on record,
187
476260
2000
è la storia di ogni anno che abbiamo in archivio,
07:58
with a little twist, because now we've got these nice charts.
188
478260
3000
con una piccola variante, perché ora abbiamo questi bei diagrammi.
08:01
And because we have these nice charts, we can measure things.
189
481260
3000
E dato che abbiamo questi bei diagrammi, possiamo misurare le cose.
08:04
We can say, "Well how fast does the bubble burst?"
190
484260
2000
Possiamo dire: "Quanto velocemente la bolla esplode?".
08:06
And it turns out that we can measure that very precisely.
191
486260
3000
E si scopre che possiamo misurarla in maniera precisissima.
08:09
Equations were derived, graphs were produced,
192
489260
3000
Equazioni vennero dedotte, grafici furono realizzati
08:12
and the net result
193
492260
2000
ed il risultato definitivo
08:14
is that we find that the bubble bursts faster and faster
194
494260
3000
é che scopriamo che la bolla esplode sempre più velocemente
08:17
with each passing year.
195
497260
2000
col passare di ciascun anno.
08:19
We are losing interest in the past more rapidly.
196
499260
5000
Stiamo perdendo interesse nel passato più rapidamente.
08:24
JM: Now a little piece of career advice.
197
504260
2000
JM: Ora un piccolissimo consiglio sulla carriera.
08:26
So for those of you who seek to be famous,
198
506260
2000
Per quanti di voi che desiderano essere famosi,
08:28
we can learn from the 25 most famous political figures,
199
508260
2000
possiamo imparare dalle 25 figure politiche più famose,
08:30
authors, actors and so on.
200
510260
2000
autori, attori e così via.
08:32
So if you want to become famous early on, you should be an actor,
201
512260
3000
Ad esempio, se volete diventare famosi da giovani, dovreste fare gli attori
08:35
because then fame starts rising by the end of your 20s --
202
515260
2000
perché in quel caso la fama inizia a crescere con l'avvicinarsi dei trent'anni
08:37
you're still young, it's really great.
203
517260
2000
siete ancora giovani, è davvero meraviglioso.
08:39
Now if you can wait a little bit, you should be an author,
204
519260
2000
Se invece potete attendere un po', potreste diventare degli autori,
08:41
because then you rise to very great heights,
205
521260
2000
perché in quel caso raggiungerete vette altissime,
08:43
like Mark Twain, for instance: extremely famous.
206
523260
2000
come Mark Twain, ad esempio. Estremamente famoso.
08:45
But if you want to reach the very top,
207
525260
2000
Ma se volete raggiungere il massimo
08:47
you should delay gratification
208
527260
2000
dovreste rinviare le gratificazioni
08:49
and, of course, become a politician.
209
529260
2000
e, ovviamente, diventare un politico.
08:51
So here you will become famous by the end of your 50s,
210
531260
2000
In questo caso diventereste famosi verso la fine dei cinquant'anni,
08:53
and become very, very famous afterward.
211
533260
2000
e molto molto famosi da andando avanti con l'età.
08:55
So scientists also tend to get famous when they're much older.
212
535260
3000
Anche gli scienziati tendono a diventare famosi in età molto più avanzata.
08:58
Like for instance, biologists and physics
213
538260
2000
Biologi e fisici, ad esempio,
09:00
tend to be almost as famous as actors.
214
540260
2000
tendono ad essere quasi tanto famosi quanto gli attori.
09:02
One mistake you should not do is become a mathematician.
215
542260
3000
Un errore che non dovreste commettere è quello di diventare dei matematici.
09:05
(Laughter)
216
545260
2000
(Risate)
09:07
If you do that,
217
547260
2000
Se lo faceste
09:09
you might think, "Oh great. I'm going to do my best work when I'm in my 20s."
218
549260
3000
potreste pensare: "Oh, fantastico! Realizzerò il mio miglior lavoro tra i venti e i trent'anni."
09:12
But guess what, nobody will really care.
219
552260
2000
Ma, indovinate un po'? A nessuno importerà nulla.
09:14
(Laughter)
220
554260
3000
(Risate)
09:17
ELA: There are more sobering notes
221
557260
2000
ELA: Ci sono annotazioni più serie
09:19
among the n-grams.
222
559260
2000
tra gli n-grammi.
09:21
For instance, here's the trajectory of Marc Chagall,
223
561260
2000
Ad esempio, ecco la traiettoria di Marc Chagall,
09:23
an artist born in 1887.
224
563260
2000
un artista nato nel 1887.
09:25
And this looks like the normal trajectory of a famous person.
225
565260
3000
Questa sembra essere la normale traiettoria di una persona famosa.
09:28
He gets more and more and more famous,
226
568260
4000
Diventa sempre più famoso,
09:32
except if you look in German.
227
572260
2000
tranne quando si considerano gli n-grammi tedeschi.
09:34
If you look in German, you see something completely bizarre,
228
574260
2000
Se date uno sguardo in Germania, vedrete qualcosa di assolutamente bizzarro,
09:36
something you pretty much never see,
229
576260
2000
qualcosa che non si vede praticamente mai,
09:38
which is he becomes extremely famous
230
578260
2000
ovvero il fatto che diventa estremamente famoso
09:40
and then all of a sudden plummets,
231
580260
2000
e poi tutto a un tratto la sua fama precipita
09:42
going through a nadir between 1933 and 1945,
232
582260
3000
raggiungendo il punto più basso tra il 1933 e il 45,
09:45
before rebounding afterward.
233
585260
3000
prima di recuperare terreno in seguito.
09:48
And of course, what we're seeing
234
588260
2000
Ovviamente quello che stiamo guardando
09:50
is the fact Marc Chagall was a Jewish artist
235
590260
3000
è il fatto che Marc Chagall era un artista ebreo
09:53
in Nazi Germany.
236
593260
2000
nella Germania nazista.
09:55
Now these signals
237
595260
2000
Ora questi segnali
09:57
are actually so strong
238
597260
2000
sono davvero tanto evidenti
09:59
that we don't need to know that someone was censored.
239
599260
3000
da non rendere necessario il sapere che qualcuno è stato censurato.
10:02
We can actually figure it out
240
602260
2000
Possiamo arrivarci tranquillamente
10:04
using really basic signal processing.
241
604260
2000
usando teorie dei segnali davvero elementari.
10:06
Here's a simple way to do it.
242
606260
2000
Ecco un modo facile per farlo.
10:08
Well, a reasonable expectation
243
608260
2000
Ci si può ragionevolmente aspettare
10:10
is that somebody's fame in a given period of time
244
610260
2000
che la fama di una persona in un dato periodo di tempo
10:12
should be roughly the average of their fame before
245
612260
2000
sia approssimativamente la media della sua precedente fama
10:14
and their fame after.
246
614260
2000
e di quella successiva.
10:16
So that's sort of what we expect.
247
616260
2000
Questo è un po' quello che ci attendiamo.
10:18
And we compare that to the fame that we observe.
248
618260
3000
Ora, confrontiamo questo con la fama che osserviamo.
10:21
And we just divide one by the other
249
621260
2000
E semplicemente dividiamo l'una per l'altra
10:23
to produce something we call a suppression index.
250
623260
2000
per produrre qualcosa che noi chiamiamo indice di repressione.
10:25
If the suppression index is very, very, very small,
251
625260
3000
Se l'indice di repressione di una persona è molto, molto, molto piccolo
10:28
then you very well might be being suppressed.
252
628260
2000
quella persona potrebbe benissimo star venendo censurata.
10:30
If it's very large, maybe you're benefiting from propaganda.
253
630260
3000
Se è molto ampio, forse sta traendo beneficio dalla propaganda.
10:34
JM: Now you can actually look at
254
634260
2000
JM: Adesso potete dare un'occhiata
10:36
the distribution of suppression indexes over whole populations.
255
636260
3000
alla distribuzione degli indici di repressione sull'intera popolazione
10:39
So for instance, here --
256
639260
2000
Ad esempio, in questo caso:
10:41
this suppression index is for 5,000 people
257
641260
2000
questo indice di repressione è quello di 5.000 persone
10:43
picked in English books where there's no known suppression --
258
643260
2000
estratte da libri inglesi in cui non risulta alcuna repressione.
10:45
it would be like this, basically tightly centered on one.
259
645260
2000
La distribuzione sarebbe questa, fondamentalmente distribuito attorno all'1.
10:47
What you expect is basically what you observe.
260
647260
2000
Ciò che si osserva è sostanzialmente identico alle aspettative.
10:49
This is distribution as seen in Germany --
261
649260
2000
Questa è la distribuzione come vista in Germania;
10:51
very different, it's shifted to the left.
262
651260
2000
é molto diversa, spostata più a sinistra.
10:53
People talked about it twice less as it should have been.
263
653260
3000
La gente ne parlava due volte meno di quanto avrebbe teoricamente dovuto.
10:56
But much more importantly, the distribution is much wider.
264
656260
2000
Ma, cosa molto più importante, la distribuzione è molto più larga.
10:58
There are many people who end up on the far left on this distribution
265
658260
3000
Ci sono molte persone che finiscono nella parte più a sinistra della distribuzione
11:01
who are talked about 10 times fewer than they should have been.
266
661260
3000
di cui si parla circa 10 volte meno di quanto si sarebbe dovuto.
11:04
But then also many people on the far right
267
664260
2000
Ma al contempo molte persone sulla parte più a destra
11:06
who seem to benefit from propaganda.
268
666260
2000
che sembrano beneficiare della propaganda.
11:08
This picture is the hallmark of censorship in the book record.
269
668260
3000
Questa immagine è il marchio della censura nella storia dell'editoria.
11:11
ELA: So culturomics
270
671260
2000
ELA: Culturomica;
11:13
is what we call this method.
271
673260
2000
è così che chiamiamo questo metodo.
11:15
It's kind of like genomics.
272
675260
2000
E' un po' come la genomica.
11:17
Except genomics is a lens on biology
273
677260
2000
Eccetto per il fatto che la genomica è uno spiraglio sulla biologia
11:19
through the window of the sequence of bases in the human genome.
274
679260
3000
attraverso la finestra della sequenza di basi nel genoma umano.
11:22
Culturomics is similar.
275
682260
2000
La culturomica è simile.
11:24
It's the application of massive-scale data collection analysis
276
684260
3000
E' l'applicazione dell'analisi su larga scala di una raccolta di dati
11:27
to the study of human culture.
277
687260
2000
allo studio della cultura umana.
11:29
Here, instead of through the lens of a genome,
278
689260
2000
Qui, invece che attraverso la lente di un genoma,
11:31
through the lens of digitized pieces of the historical record.
279
691260
3000
è attraverso la lente di frammenti digitalizzati di registrazioni di carattere storico.
11:34
The great thing about culturomics
280
694260
2000
La cosa esaltante della culturonomica
11:36
is that everyone can do it.
281
696260
2000
è che chiunque può praticarla.
11:38
Why can everyone do it?
282
698260
2000
Perché chiunque può praticarla?
11:40
Everyone can do it because three guys,
283
700260
2000
Chiunque può perché queste tre persone,
11:42
Jon Orwant, Matt Gray and Will Brockman over at Google,
284
702260
3000
Jon Orwant, Matt Gray e Will Brockman di Google
11:45
saw the prototype of the Ngram Viewer,
285
705260
2000
videro il prototipo dell'Ngram Viewer.
11:47
and they said, "This is so fun.
286
707260
2000
e dissero: "E' così divertente.
11:49
We have to make this available for people."
287
709260
3000
Dobbiamo renderlo disponibile al pubblico".
11:52
So in two weeks flat -- the two weeks before our paper came out --
288
712260
2000
Quindi in due settimane giuste giuste, le due settimane precedenti alla pubblicazione del nostro saggio
11:54
they coded up a version of the Ngram Viewer for the general public.
289
714260
3000
programmarono una versione dell'Ngram Viewer per il vasto pubblico.
11:57
And so you too can type in any word or phrase that you're interested in
290
717260
3000
Così anche voi potete digitare una qualsiasi parola o frase alla quale siete interessati
12:00
and see its n-gram immediately --
291
720260
2000
e vedere il suo n-grammo immediatamente;
12:02
also browse examples of all the various books
292
722260
2000
oltre a spulciare esempi di tutti i vari libri
12:04
in which your n-gram appears.
293
724260
2000
in cui appare il vostro n-grammo .
12:06
JM: Now this was used over a million times on the first day,
294
726260
2000
JM: Questo programma venne utilizzato un milione di volte durante il primo giorno di rilascio,
12:08
and this is really the best of all the queries.
295
728260
2000
e questa è la migliore di tutte le interrogazioni.
12:10
So people want to be their best, put their best foot forward.
296
730260
3000
Tutti vogliono essere best-qualcosa: best seller, best player...
12:13
But it turns out in the 18th century, people didn't really care about that at all.
297
733260
3000
Ma si scopre che nel 18esimo secolo, alla gente non importava assolutamente nulla.
12:16
They didn't want to be their best, they wanted to be their beft.
298
736260
3000
Non volevano affatto essere "best-qualcosa", volevano essere "beft-qualcosa".
12:19
So what happened is, of course, this is just a mistake.
299
739260
3000
Quello che è successo è, ovviamente, solamente un errore.
12:22
It's not that strove for mediocrity,
300
742260
2000
Non è che si sforzassero di essere mediocri.
12:24
it's just that the S used to be written differently, kind of like an F.
301
744260
3000
Semplicemente un tempo si usava scrivere la S in maniera differente, un po' come la F.
12:27
Now of course, Google didn't pick this up at the time,
302
747260
3000
Questa cosa Google al momento non la capì,
12:30
so we reported this in the science article that we wrote.
303
750260
3000
quindi lo riferimmo nell'articolo scientifico che abbiamo scritto.
12:33
But it turns out this is just a reminder
304
753260
2000
Ma alla fine questo è solo un avvertimento
12:35
that, although this is a lot of fun,
305
755260
2000
sul fatto che, pur essendo molto divertente,
12:37
when you interpret these graphs, you have to be very careful,
306
757260
2000
interpretare questi grafici richiede molta cautela
12:39
and you have to adopt the base standards in the sciences.
307
759260
3000
e bisogna farlo seguendo le regole base della scienza.
12:42
ELA: People have been using this for all kinds of fun purposes.
308
762260
3000
ELA: Le persone hanno usato questo strumento in un sacco di modi spassosi.
12:45
(Laughter)
309
765260
7000
(Risate)
12:52
Actually, we're not going to have to talk,
310
772260
2000
In realtà, non avremo nemmeno bisogno di parlare,
12:54
we're just going to show you all the slides and remain silent.
311
774260
3000
ci limiteremo a mostrarvi tutte le diapositive restando in silenzio.
12:57
This person was interested in the history of frustration.
312
777260
3000
Questa persona era interessata alla storia della frustrazione.
13:00
There's various types of frustration.
313
780260
3000
Ci sono diversi tipi di frustrazione.
13:03
If you stub your toe, that's a one A "argh."
314
783260
3000
Se sbatti un dito del piede, è un "argh" con una A.
13:06
If the planet Earth is annihilated by the Vogons
315
786260
2000
Se il pianeta Terra viene annientato dai Vogon
13:08
to make room for an interstellar bypass,
316
788260
2000
per fare spazio a un passaggio interstellare,
13:10
that's an eight A "aaaaaaaargh."
317
790260
2000
quello è un aaaaaaaargh" con otto A.
13:12
This person studies all the "arghs,"
318
792260
2000
Questa persona studia tutti gli "argh"
13:14
from one through eight A's.
319
794260
2000
composti da uno fino a otto A.
13:16
And it turns out
320
796260
2000
E si scopre
13:18
that the less-frequent "arghs"
321
798260
2000
che meno frequenti "argh"
13:20
are, of course, the ones that correspond to things that are more frustrating --
322
800260
3000
sono, ovviamente, quelli che corrispondono a cose che sono più frustranti;
13:23
except, oddly, in the early 80s.
323
803260
3000
tranne che, stranamente, all'inizio degli anni 80.
13:26
We think that might have something to do with Reagan.
324
806260
2000
Noi pensiamo che possa avere qualcosa a che fare con Reagan.
13:28
(Laughter)
325
808260
2000
(Risate)
13:30
JM: There are many usages of this data,
326
810260
3000
JM: ci sono molti utilizzi per questi dati,
13:33
but the bottom line is that the historical record is being digitized.
327
813260
3000
ma la cosa che più importa è che la registrazione storica stia venendo digitalizzata.
13:36
Google has started to digitize 15 million books.
328
816260
2000
Google ha iniziato a digitalizzare 15 milioni di libri.
13:38
That's 12 percent of all the books that have ever been published.
329
818260
2000
E' il 12% di tutti i libri che siano mai stati pubblicati.
13:40
It's a sizable chunk of human culture.
330
820260
3000
E' una porzione enorme della cultura umana.
13:43
There's much more in culture: there's manuscripts, there newspapers,
331
823260
3000
C'è molto di più nella cultura: ci sono i manoscritti, ci sono le riviste,
13:46
there's things that are not text, like art and paintings.
332
826260
2000
ci sono cose che non sono testo, come l'arte e la pittura.
13:48
These all happen to be on our computers,
333
828260
2000
Tutte cose che, casualmente, si trovano nei nostri computer,
13:50
on computers across the world.
334
830260
2000
nei computer di tutto il mondo;
13:52
And when that happens, that will transform the way we have
335
832260
3000
E quando la digitalizzazione sarà completa, trasformerà il modo che abbiamo
13:55
to understand our past, our present and human culture.
336
835260
2000
di comprendere il nostro passato, il nostro presente e la cultura umana.
13:57
Thank you very much.
337
837260
2000
Grazie infinite a tutti.
13:59
(Applause)
338
839260
3000
(Applausi)
A proposito di questo sito web

Questo sito vi presenterà i video di YouTube utili per l'apprendimento dell'inglese. Vedrete lezioni di inglese tenute da insegnanti di alto livello provenienti da tutto il mondo. Fate doppio clic sui sottotitoli in inglese visualizzati su ogni pagina video per riprodurre il video da lì. I sottotitoli scorrono in sincronia con la riproduzione del video. Se avete commenti o richieste, contattateci tramite questo modulo di contatto.

https://forms.gle/WvT1wiN1qDtmnspy7