What we learned from 5 million books

Ce que nous avons appris de 5 millions de livres.

236,062 views

2011-09-20 ・ TED


New videos

What we learned from 5 million books

Ce que nous avons appris de 5 millions de livres.

236,062 views ・ 2011-09-20

TED


Veuillez double-cliquer sur les sous-titres anglais ci-dessous pour lire la vidéo.

Traducteur: Anna Cristiana Minoli Relecteur: Shadia Ramsahye
00:15
Erez Lieberman Aiden: Everyone knows
0
15260
2000
Erez Lieberman Aiden: Tout le monde sait
00:17
that a picture is worth a thousand words.
1
17260
3000
qu’une image vaut un millier de mots.
00:22
But we at Harvard
2
22260
2000
Mais à Harvard
00:24
were wondering if this was really true.
3
24260
3000
nous nous sommes demandé si c’était vrai.
00:27
(Laughter)
4
27260
2000
(Rires)
00:29
So we assembled a team of experts,
5
29260
4000
Nous avons donc rassemblé un groupe d’experts,
00:33
spanning Harvard, MIT,
6
33260
2000
qui viennent d’Harvard, du MIT,
00:35
The American Heritage Dictionary, The Encyclopedia Britannica
7
35260
3000
de The American Heritage Dictionary, The Encyclopedia Britannica
00:38
and even our proud sponsors,
8
38260
2000
et même notre heureux sponsor,
00:40
the Google.
9
40260
3000
Google.
00:43
And we cogitated about this
10
43260
2000
Et nous y avons réfléchi
00:45
for about four years.
11
45260
2000
pendant quatre ans.
00:47
And we came to a startling conclusion.
12
47260
5000
Et nous sommes arrivés à une conclusion surprenante.
00:52
Ladies and gentlemen, a picture is not worth a thousand words.
13
52260
3000
Mesdames et messieurs, une image ne vaut pas un millier de mots.
00:55
In fact, we found some pictures
14
55260
2000
En fait, nous avons trouvé des images
00:57
that are worth 500 billion words.
15
57260
5000
qui valent 500 milliards de mots.
01:02
Jean-Baptiste Michel: So how did we get to this conclusion?
16
62260
2000
Jean-Baptiste Michel : Comment sommes-nous arrivés à cette conclusion ?
01:04
So Erez and I were thinking about ways
17
64260
2000
Donc Erez et moi nous étions en train de penser à des moyens
01:06
to get a big picture of human culture
18
66260
2000
d’avoir une image complète de la culture humaine
01:08
and human history: change over time.
19
68260
3000
et de l‘histoire humaine : les changements dans le temps.
01:11
So many books actually have been written over the years.
20
71260
2000
Beaucoup de livres ont été écrits au fil des ans.
01:13
So we were thinking, well the best way to learn from them
21
73260
2000
Nous avons donc pensé, le meilleur moyen d’apprendre des livres
01:15
is to read all of these millions of books.
22
75260
2000
est de lire tous ces millions de livres.
01:17
Now of course, if there's a scale for how awesome that is,
23
77260
3000
Bien sur, s’il existe une échelle pour voir à quel point c’est impressionnant,
01:20
that has to rank extremely, extremely high.
24
80260
3000
ça doit être classé très très haut.
01:23
Now the problem is there's an X-axis for that,
25
83260
2000
Le problème est qu’il y a un axe X pour cela,
01:25
which is the practical axis.
26
85260
2000
qui est l’axe de la praticité.
01:27
This is very, very low.
27
87260
2000
Ce qui le classe très très bas.
01:29
(Applause)
28
89260
3000
(Applaudissements)
01:32
Now people tend to use an alternative approach,
29
92260
3000
Les gens ont tendance à utiliser une approche alternative,
01:35
which is to take a few sources and read them very carefully.
30
95260
2000
qui est de prendre quelques sources et les lire très attentivement.
01:37
This is extremely practical, but not so awesome.
31
97260
2000
Ce qui est extrêmement pratique, mais pas si impressionnant.
01:39
What you really want to do
32
99260
3000
Ce que vous voulez vraiment faire
01:42
is to get to the awesome yet practical part of this space.
33
102260
3000
c’est arriver à l’impressionnant et pratique en même temps de ce côté-là.
01:45
So it turns out there was a company across the river called Google
34
105260
3000
Il s’avère qu’il y avait une compagnie au-delà du fleuve qui s’appelle Google
01:48
who had started a digitization project a few years back
35
108260
2000
qui avait commencé un projet de numérisation quelques années auparavant
01:50
that might just enable this approach.
36
110260
2000
qui aurait pu faciliter cette approche.
01:52
They have digitized millions of books.
37
112260
2000
Ils ont numérisé des millions de livres.
01:54
So what that means is, one could use computational methods
38
114260
3000
Cela signifie qu’on peut utiliser des méthodes de calcul
01:57
to read all of the books in a click of a button.
39
117260
2000
pour lire tous les livres avec un clic.
01:59
That's very practical and extremely awesome.
40
119260
3000
C’est très pratique et extrêmement impressionnant.
02:03
ELA: Let me tell you a little bit about where books come from.
41
123260
2000
ELA : Laissez-moi vous raconter d’où viennent les livres.
02:05
Since time immemorial, there have been authors.
42
125260
3000
Depuis des temps immémoriaux il y a eu des auteurs.
02:08
These authors have been striving to write books.
43
128260
3000
Ces auteurs se sont efforcé d’écrire des livres.
02:11
And this became considerably easier
44
131260
2000
Et c’est devenu considérablement plus facile
02:13
with the development of the printing press some centuries ago.
45
133260
2000
avec le développement de l’imprimerie il y a quelques siècles.
02:15
Since then, the authors have won
46
135260
3000
Depuis, les auteurs ont eu
02:18
on 129 million distinct occasions,
47
138260
2000
129 millions différentes occasions,
02:20
publishing books.
48
140260
2000
de publier des livres.
02:22
Now if those books are not lost to history,
49
142260
2000
Si ces livres ne sont pas perdus dans l’histoire,
02:24
then they are somewhere in a library,
50
144260
2000
alors ils sont quelque part dans une bibliothèque,
02:26
and many of those books have been getting retrieved from the libraries
51
146260
3000
et beaucoup de ces livres ont été récupérés des bibliothèques
02:29
and digitized by Google,
52
149260
2000
et numérisés par Google,
02:31
which has scanned 15 million books to date.
53
151260
2000
qui a scanné 15 millions de livres à ce jour.
02:33
Now when Google digitizes a book, they put it into a really nice format.
54
153260
3000
Quand Google numérise un livre, il le transforme en un très beau format.
02:36
Now we've got the data, plus we have metadata.
55
156260
2000
Nous avons maintenant les données, et nous avons les métadonnées.
02:38
We have information about things like where was it published,
56
158260
3000
Nous avons les informations sur des choses comme où il a été publié,
02:41
who was the author, when was it published.
57
161260
2000
qui était l’auteur, la date de publication.
02:43
And what we do is go through all of those records
58
163260
3000
Ce que nous faisons c’est parcourir tous ces archives
02:46
and exclude everything that's not the highest quality data.
59
166260
4000
et exclure tout ce qui n’est pas de très haute qualité.
02:50
What we're left with
60
170260
2000
Ce qui nous reste
02:52
is a collection of five million books,
61
172260
3000
c’est une collection de cinq millions de livres,
02:55
500 billion words,
62
175260
3000
500 milliards de mots,
02:58
a string of characters a thousand times longer
63
178260
2000
une série de caractères mille fois plus longs
03:00
than the human genome --
64
180260
3000
que le génome humain --
03:03
a text which, when written out,
65
183260
2000
un texte qui, écrit,
03:05
would stretch from here to the Moon and back
66
185260
2000
un aller et un retour d'ici jusqu'à la lune
03:07
10 times over --
67
187260
2000
plus de 10 fois --
03:09
a veritable shard of our cultural genome.
68
189260
4000
un véritable fragment de notre génome culturel.
03:13
Of course what we did
69
193260
2000
Bien sur ce que nous avons fait
03:15
when faced with such outrageous hyperbole ...
70
195260
3000
en faisant face à cette hyperbole outrageuse…
03:18
(Laughter)
71
198260
2000
(Rires)
03:20
was what any self-respecting researchers
72
200260
3000
est ce que n’importe quel chercheur respectable
03:23
would have done.
73
203260
3000
aurait fait.
03:26
We took a page out of XKCD,
74
206260
2000
Nous avons pris une page de XKCD,
03:28
and we said, "Stand back.
75
208260
2000
et nous avons dit, « Marche arrière.
03:30
We're going to try science."
76
210260
2000
Nous allons essayer la science. »
03:32
(Laughter)
77
212260
2000
(Rires)
03:34
JM: Now of course, we were thinking,
78
214260
2000
JM : Bien sur, nous avons pensé,
03:36
well let's just first put the data out there
79
216260
2000
commençons par sortir les données
03:38
for people to do science to it.
80
218260
2000
pour que les gens puissent faire de la science.
03:40
Now we're thinking, what data can we release?
81
220260
2000
Nous avons réfléchi, quelles données pouvons-nous sortir?
03:42
Well of course, you want to take the books
82
222260
2000
Bien sûr, on veut prendre les livres
03:44
and release the full text of these five million books.
83
224260
2000
et sortir le texte complet de ces cinq millions de livres.
03:46
Now Google, and Jon Orwant in particular,
84
226260
2000
Google, et en particulier Jon Orwant,
03:48
told us a little equation that we should learn.
85
228260
2000
nous a expliqué une équation qu’il nous faudrait apprendre.
03:50
So you have five million, that is, five million authors
86
230260
3000
Vous avez cinq millions, ce qui représente, cinq millions d’auteurs
03:53
and five million plaintiffs is a massive lawsuit.
87
233260
3000
et cinq millions de plaintes judiciaires c’est un procès énorme.
03:56
So, although that would be really, really awesome,
88
236260
2000
Donc, malgré cela puisse être vraiment redoutable,
03:58
again, that's extremely, extremely impractical.
89
238260
3000
encore une fois, c’est extrêmement, extrêmement peu pratique.
04:01
(Laughter)
90
241260
2000
(Rires)
04:03
Now again, we kind of caved in,
91
243260
2000
Encore une fois, nous avons cédé,
04:05
and we did the very practical approach, which was a bit less awesome.
92
245260
3000
et nous avons suivi l’approche pratique, qui était un peu moins redoutable.
04:08
We said, well instead of releasing the full text,
93
248260
2000
On s’est dit, plutôt que de faire sortir le texte complet,
04:10
we're going to release statistics about the books.
94
250260
2000
nous allons faire sortir des statistiques sur les livres.
04:12
So take for instance "A gleam of happiness."
95
252260
2000
Prenez par exemple, « Une étincelle de bonheur ».
04:14
It's four words; we call that a four-gram.
96
254260
2000
Quatre mots ; on l’appelle quadri-gramme.
04:16
We're going to tell you how many times a particular four-gram
97
256260
2000
Nous allons vous dire combien de fois un quadri-gramme en particulier
04:18
appeared in books in 1801, 1802, 1803,
98
258260
2000
est apparu dans les livres en 1801, 1802, 1803,
04:20
all the way up to 2008.
99
260260
2000
jusqu’à 2008.
04:22
That gives us a time series
100
262260
2000
Cela nous donne une série temporelle
04:24
of how frequently this particular sentence was used over time.
101
264260
2000
sur la fréquence avec laquelle cette phrase en particulier a été utilisée dans le temps.
04:26
We do that for all the words and phrases that appear in those books,
102
266260
3000
Nous le faisons pour tous les mots et les phrases qui apparaissent dans ces livres,
04:29
and that gives us a big table of two billion lines
103
269260
3000
ce qui nous donne un tableau de deux milliards de lignes
04:32
that tell us about the way culture has been changing.
104
272260
2000
qui nous raconte les changements culturels.
04:34
ELA: So those two billion lines,
105
274260
2000
ELA : Donc ces deux milliards de lignes,
04:36
we call them two billion n-grams.
106
276260
2000
nous les appelons les deux milliards d’n-grammes.
04:38
What do they tell us?
107
278260
2000
Qu’est ce qu’ils nous disent?
04:40
Well the individual n-grams measure cultural trends.
108
280260
2000
L’n-gramme individuel mesure les tendances culturelles.
04:42
Let me give you an example.
109
282260
2000
Prenons un exemple.
04:44
Let's suppose that I am thriving,
110
284260
2000
Supposez que je sois épanoui,
04:46
then tomorrow I want to tell you about how well I did.
111
286260
2000
et demain matin je veux vous raconter comme j’étais bien.
04:48
And so I might say, "Yesterday, I throve."
112
288260
3000
Je pourrai donc dire, « Yesterday, I throve. » [Hier j’étais épanoui]
04:51
Alternatively, I could say, "Yesterday, I thrived."
113
291260
3000
Sinon, je pourrai dire, « Yesterday, I thrived.»
04:54
Well which one should I use?
114
294260
3000
Laquelle devrais-je utiliser ?
04:57
How to know?
115
297260
2000
Comment savoir ?
04:59
As of about six months ago,
116
299260
2000
Pour ce qui est d’il y a six mois,
05:01
the state of the art in this field
117
301260
2000
le dernier cri dans le domaine
05:03
is that you would, for instance,
118
303260
2000
est que, par exemple,
05:05
go up to the following psychologist with fabulous hair,
119
305260
2000
vous iriez chez le premier psychologue avec une coiffure fabuleuse,
05:07
and you'd say,
120
307260
2000
et vous diriez,
05:09
"Steve, you're an expert on the irregular verbs.
121
309260
3000
« Steve, tu es un expert en verbes irréguliers.
05:12
What should I do?"
122
312260
2000
qu’est ce que je devrais faire ? »
05:14
And he'd tell you, "Well most people say thrived,
123
314260
2000
Et il dirait, « La plupart des gens disent ‘thrived’,
05:16
but some people say throve."
124
316260
3000
mais certains disent ‘throve’»
05:19
And you also knew, more or less,
125
319260
2000
Et vous sauriez également que,
05:21
that if you were to go back in time 200 years
126
321260
3000
si vous deviez revenir en arrière de 200 ans
05:24
and ask the following statesman with equally fabulous hair,
127
324260
3000
et demander la même chose à un homme d’état avec la même coiffure,
05:27
(Laughter)
128
327260
3000
(Rires)
05:30
"Tom, what should I say?"
129
330260
2000
« Tom, qu’est que je devrais dire ? »
05:32
He'd say, "Well, in my day, most people throve,
130
332260
2000
Il dirait, « De nos jours, beaucoup disent ‘throve’,
05:34
but some thrived."
131
334260
3000
certains disent ‘thrived’»
05:37
So now what I'm just going to show you is raw data.
132
337260
2000
Maintenant ce que je vais vous montrer c’est des données bruts.
05:39
Two rows from this table of two billion entries.
133
339260
4000
Deux lignes de cette tableau de deux milliards d’entrées.
05:43
What you're seeing is year by year frequency
134
343260
2000
Ce que vous voyez c’est la fréquence année par année
05:45
of "thrived" and "throve" over time.
135
345260
3000
de « thrived » et « throve » dans le temps.
05:49
Now this is just two
136
349260
2000
Voici deux
05:51
out of two billion rows.
137
351260
3000
des deux milliards de lignes.
05:54
So the entire data set
138
354260
2000
L’entière série de données
05:56
is a billion times more awesome than this slide.
139
356260
3000
est un milliard de fois plus impressionnante que cette diapo.
05:59
(Laughter)
140
359260
2000
(Rires)
06:01
(Applause)
141
361260
4000
(Applaudissements)
06:05
JM: Now there are many other pictures that are worth 500 billion words.
142
365260
2000
JM : Il y a plein d’autres photos qui valent 500 milliards de mots.
06:07
For instance, this one.
143
367260
2000
Une par exemple.
06:09
If you just take influenza,
144
369260
2000
Si vous prenez la grippe,
06:11
you will see peaks at the time where you knew
145
371260
2000
vous voyez des pics dans les périodes pendant lesquelles vous saviez
06:13
big flu epidemics were killing people around the globe.
146
373260
3000
que les grandes grippes épidémiques tuaient les gens partout dans le monde.
06:16
ELA: If you were not yet convinced,
147
376260
3000
ELA : si vous n’êtes pas encore convaincu,
06:19
sea levels are rising,
148
379260
2000
le niveau des océans monte,
06:21
so is atmospheric CO2 and global temperature.
149
381260
3000
ainsi que le CO2 et la température globale.
06:24
JM: You might also want to have a look at this particular n-gram,
150
384260
3000
JM : Vous pourriez également jeter un coup d’œil à cet n-gramme,
06:27
and that's to tell Nietzsche that God is not dead,
151
387260
3000
et c’est pour dire à Nietzche que Dieu n’est pas mort,
06:30
although you might agree that he might need a better publicist.
152
390260
3000
bien que vous pourriez convenir qu’il ait besoin d’un meilleur attaché de presse.
06:33
(Laughter)
153
393260
2000
(Rires)
06:35
ELA: You can get at some pretty abstract concepts with this sort of thing.
154
395260
3000
ELA : Vous pouvez obtenir des concepts assez abstrait avec ce genre de chose.
06:38
For instance, let me tell you the history
155
398260
2000
Par exemple, je vais vous raconter l’histoire
06:40
of the year 1950.
156
400260
2000
de l’année 1950.
06:42
Pretty much for the vast majority of history,
157
402260
2000
Pendant la majeure partie de l’histoire,
06:44
no one gave a damn about 1950.
158
404260
2000
tout le monde s’est fiché de 1950.
06:46
In 1700, in 1800, in 1900,
159
406260
2000
En 1700, en 1800, en 1900,
06:48
no one cared.
160
408260
3000
personne ne s’en intéresse.
06:52
Through the 30s and 40s,
161
412260
2000
Pendant les années 30 et 40,
06:54
no one cared.
162
414260
2000
personne ne s’y intéresse.
06:56
Suddenly, in the mid-40s,
163
416260
2000
Tout à coup, au milieu des années 40,
06:58
there started to be a buzz.
164
418260
2000
une agitation débute.
07:00
People realized that 1950 was going to happen,
165
420260
2000
Les gens se rendent compte que 1950 approche,
07:02
and it could be big.
166
422260
2000
et ça peut être énorme.
07:04
(Laughter)
167
424260
3000
(Rires)
07:07
But nothing got people interested in 1950
168
427260
3000
Mais rien n’a intéressé personne à 1950
07:10
like the year 1950.
169
430260
3000
jusqu’à 1950.
07:13
(Laughter)
170
433260
3000
(Rires)
07:16
People were walking around obsessed.
171
436260
2000
Les gens se promenaient de touts les côtés obsédés.
07:18
They couldn't stop talking
172
438260
2000
Ils n’arrêtaient pas de parler
07:20
about all the things they did in 1950,
173
440260
3000
de tout ce qu’ils avaient fait en 1950,
07:23
all the things they were planning to do in 1950,
174
443260
3000
tout ce qu’ils prévoyaient de faire en 1950,
07:26
all the dreams of what they wanted to accomplish in 1950.
175
446260
5000
tous les rêves qu’ils voulaient accomplir en 1950.
07:31
In fact, 1950 was so fascinating
176
451260
2000
En fait, 1950 était si fascinant
07:33
that for years thereafter,
177
453260
2000
que dans les années qui ont suivi,
07:35
people just kept talking about all the amazing things that happened,
178
455260
3000
les gens n’arrêtaient pas de parler de toutes les choses extraordinaires qui étaient arrivées
07:38
in '51, '52, '53.
179
458260
2000
en 51, 52, 53.
07:40
Finally in 1954,
180
460260
2000
Finalement en 1954,
07:42
someone woke up and realized
181
462260
2000
quelqu’un s’est levé et s’est rendu compte
07:44
that 1950 had gotten somewhat passé.
182
464260
4000
que 1950 en quelque sorte était passé.
07:48
(Laughter)
183
468260
2000
(Rires)
07:50
And just like that, the bubble burst.
184
470260
2000
Et tout d’un coup, la bulle a éclaté.
07:52
(Laughter)
185
472260
2000
(Rires)
07:54
And the story of 1950
186
474260
2000
Et l’histoire de 1950
07:56
is the story of every year that we have on record,
187
476260
2000
est l’histoire de chaque année pour laquelle nous avons un passé,
07:58
with a little twist, because now we've got these nice charts.
188
478260
3000
avec un petit zest, puisque nous avons maintenant ces beaux diagrammes.
08:01
And because we have these nice charts, we can measure things.
189
481260
3000
Et vu que nous avons ces beaux diagrammes, nous pouvons mesurer les choses.
08:04
We can say, "Well how fast does the bubble burst?"
190
484260
2000
Nous sommes en mesure de dire, « A quelle vitesse la bulle a éclaté »
08:06
And it turns out that we can measure that very precisely.
191
486260
3000
Et il s’avère que nous pouvons la mesurer avec précision.
08:09
Equations were derived, graphs were produced,
192
489260
3000
Nous en avons dérivé des équations et des représentations graphiques,
08:12
and the net result
193
492260
2000
et le résultat final
08:14
is that we find that the bubble bursts faster and faster
194
494260
3000
est que nous découvrons que la bulle a éclaté de plus en plus vite
08:17
with each passing year.
195
497260
2000
à chaque année qui passait.
08:19
We are losing interest in the past more rapidly.
196
499260
5000
Nous perdons intérêt pour le passé rapidement.
08:24
JM: Now a little piece of career advice.
197
504260
2000
JM : Maintenant un tout petit conseil pour la carrière.
08:26
So for those of you who seek to be famous,
198
506260
2000
Pour ceux parmi vous qui cherchent à devenir célèbres,
08:28
we can learn from the 25 most famous political figures,
199
508260
2000
nous pouvons apprendre des 35 personnages politiques les plus célèbres,
08:30
authors, actors and so on.
200
510260
2000
écrivains, acteurs et ainsi de suite.
08:32
So if you want to become famous early on, you should be an actor,
201
512260
3000
Si vous voulez devenir célèbre très tôt, vous devriez vous faire acteur,
08:35
because then fame starts rising by the end of your 20s --
202
515260
2000
parce que la célébrité commence à monter vers la fin de la vingtaine --
08:37
you're still young, it's really great.
203
517260
2000
vous êtes encore jeunes, c’est fabuleux.
08:39
Now if you can wait a little bit, you should be an author,
204
519260
2000
Si vous pouvez attendre un peu, vous devriez vous faire écrivain,
08:41
because then you rise to very great heights,
205
521260
2000
parce qu’ensuite vous montez très haut,
08:43
like Mark Twain, for instance: extremely famous.
206
523260
2000
comme Mark Twain, par exemple : très célèbre.
08:45
But if you want to reach the very top,
207
525260
2000
Mais si vous voulez atteindre le sommet,
08:47
you should delay gratification
208
527260
2000
vous devriez retarder la gratification
08:49
and, of course, become a politician.
209
529260
2000
et, bien sûr, devenir un personnage politique.
08:51
So here you will become famous by the end of your 50s,
210
531260
2000
Et là vous devenez célèbre à la fin de la cinquantaine,
08:53
and become very, very famous afterward.
211
533260
2000
et vous devenez très, très célèbre plus tard.
08:55
So scientists also tend to get famous when they're much older.
212
535260
3000
Les scientifiques ont tendance à devenir célèbres quand ils sont plus âgés.
08:58
Like for instance, biologists and physics
213
538260
2000
Comme par exemple, les biologistes et les physicistes
09:00
tend to be almost as famous as actors.
214
540260
2000
ont tendance à être célèbre autant que les acteurs.
09:02
One mistake you should not do is become a mathematician.
215
542260
3000
Une erreur à ne pas faire est de devenir mathématicien.
09:05
(Laughter)
216
545260
2000
(Rires)
09:07
If you do that,
217
547260
2000
En faisant ça,
09:09
you might think, "Oh great. I'm going to do my best work when I'm in my 20s."
218
549260
3000
vous pourriez penser, « Super. Je vais faire mon meilleur travail à vingt ans. »
09:12
But guess what, nobody will really care.
219
552260
2000
Mais devinez, personne ne s’y intéresse vraiment.
09:14
(Laughter)
220
554260
3000
(Rires)
09:17
ELA: There are more sobering notes
221
557260
2000
ELA : Il y a encore des notes qui donnent à penser
09:19
among the n-grams.
222
559260
2000
parmi les n-grammes.
09:21
For instance, here's the trajectory of Marc Chagall,
223
561260
2000
Par exemple, voici la trajectoire de Marc Chagall,
09:23
an artist born in 1887.
224
563260
2000
un artiste né en 1887.
09:25
And this looks like the normal trajectory of a famous person.
225
565260
3000
Et ça ressemble à une normale trajectoire d’une personne célèbre.
09:28
He gets more and more and more famous,
226
568260
4000
Il devient de plus en plus célèbre,
09:32
except if you look in German.
227
572260
2000
sauf si vous regardez l’allemand.
09:34
If you look in German, you see something completely bizarre,
228
574260
2000
Si vous regardez l’allemand, vous voyez quelque chose de bizarre,
09:36
something you pretty much never see,
229
576260
2000
quelque chose que normalement vous ne voyez pas,
09:38
which is he becomes extremely famous
230
578260
2000
qui est qu’il devient extrêmement célèbre
09:40
and then all of a sudden plummets,
231
580260
2000
et tout à coup il s’effondre,
09:42
going through a nadir between 1933 and 1945,
232
582260
3000
en passant par un nadir entre 1933 et 1945,
09:45
before rebounding afterward.
233
585260
3000
avant de rebondir tout de suite après.
09:48
And of course, what we're seeing
234
588260
2000
Et bien sur, ce que nous voyons
09:50
is the fact Marc Chagall was a Jewish artist
235
590260
3000
est que Marc Chagall était un artiste juif
09:53
in Nazi Germany.
236
593260
2000
dans l’Allemagne des Nazis.
09:55
Now these signals
237
595260
2000
Ces signaux
09:57
are actually so strong
238
597260
2000
sont tellement forts
09:59
that we don't need to know that someone was censored.
239
599260
3000
que nous n’avons pas besoin de savoir que quelqu’un a été censuré.
10:02
We can actually figure it out
240
602260
2000
On peut s’en apercevoir
10:04
using really basic signal processing.
241
604260
2000
en utilisant un traitement des signaux élémentaires.
10:06
Here's a simple way to do it.
242
606260
2000
Voici une manière simple de le faire.
10:08
Well, a reasonable expectation
243
608260
2000
Une prévision raisonnable
10:10
is that somebody's fame in a given period of time
244
610260
2000
est que la célébrité de quelqu’un sur une période donnée de temps
10:12
should be roughly the average of their fame before
245
612260
2000
devrait être à peu près la moyenne de sa célébrité avant
10:14
and their fame after.
246
614260
2000
et de sa célébrité après.
10:16
So that's sort of what we expect.
247
616260
2000
Voici à peu près ce à quoi l’on s’attend.
10:18
And we compare that to the fame that we observe.
248
618260
3000
Et nous comparons ceci avec la célébrité que nous observons.
10:21
And we just divide one by the other
249
621260
2000
Et nous divisions l’un par l’autre
10:23
to produce something we call a suppression index.
250
623260
2000
pour obtenir une chose que nous appelons un index de suppression.
10:25
If the suppression index is very, very, very small,
251
625260
3000
Si l’index de suppression est très, très, très petit,
10:28
then you very well might be being suppressed.
252
628260
2000
alors vous avez très probablement été supprimé.
10:30
If it's very large, maybe you're benefiting from propaganda.
253
630260
3000
S’il est très grand, vous avez peut-être bénéficié de la propagande.
10:34
JM: Now you can actually look at
254
634260
2000
JM : En fait vous pouvez regarder
10:36
the distribution of suppression indexes over whole populations.
255
636260
3000
la distribution des index de suppression sur toutes les populations.
10:39
So for instance, here --
256
639260
2000
Donc par exemple, ici --
10:41
this suppression index is for 5,000 people
257
641260
2000
cet index de suppression est de 5000 personnes
10:43
picked in English books where there's no known suppression --
258
643260
2000
prises dans des livres anglais où il n’y a pas de suppression --
10:45
it would be like this, basically tightly centered on one.
259
645260
2000
ce serait comme ça, en fait très centré sur une.
10:47
What you expect is basically what you observe.
260
647260
2000
Ce que vous vous attendez c’est ce que vous voyez.
10:49
This is distribution as seen in Germany --
261
649260
2000
Voila la distribution vue en Allemagne --
10:51
very different, it's shifted to the left.
262
651260
2000
très différente, déplacée sur la gauche.
10:53
People talked about it twice less as it should have been.
263
653260
3000
Les gens en parlaient deux fois moins que ce qu’ils auraient dû.
10:56
But much more importantly, the distribution is much wider.
264
656260
2000
Mais encore plus important, la distribution est plus large.
10:58
There are many people who end up on the far left on this distribution
265
658260
3000
Il y a plus de personnes qui tombent à l’extrême gauche de cette distribution
11:01
who are talked about 10 times fewer than they should have been.
266
661260
3000
de qui on a parlé 10 fois moins de ce qu’on aurait dû.
11:04
But then also many people on the far right
267
664260
2000
Mai également beaucoup de personnes à l’extrême droite
11:06
who seem to benefit from propaganda.
268
666260
2000
qui paraissent bénéficier de la propagande.
11:08
This picture is the hallmark of censorship in the book record.
269
668260
3000
Cette image est la marque de la censure dans les archives des livres.
11:11
ELA: So culturomics
270
671260
2000
ELA : Donc « culturomique »
11:13
is what we call this method.
271
673260
2000
c’est le mot que nous employons pour définir cette méthode.
11:15
It's kind of like genomics.
272
675260
2000
C’est un peu comme la génomique.
11:17
Except genomics is a lens on biology
273
677260
2000
Sauf que la génomique est une lentille sur la biologie
11:19
through the window of the sequence of bases in the human genome.
274
679260
3000
à travers la fenêtre de la séquence des bases dans le génome humain.
11:22
Culturomics is similar.
275
682260
2000
La culturomique est similaire.
11:24
It's the application of massive-scale data collection analysis
276
684260
3000
C’est l’application sur grande échelle de l’analyse du recueil de données
11:27
to the study of human culture.
277
687260
2000
à l’étude de la culture humaine.
11:29
Here, instead of through the lens of a genome,
278
689260
2000
Ici, plutôt qu’à travers la lentille d’un génome,
11:31
through the lens of digitized pieces of the historical record.
279
691260
3000
à travers la lentille d’un morceau des archives numérisées.
11:34
The great thing about culturomics
280
694260
2000
Ce qui est génial à propos de la culturomique
11:36
is that everyone can do it.
281
696260
2000
c’est que tout le monde peut le faire.
11:38
Why can everyone do it?
282
698260
2000
Pourquoi tout le monde peut le faire ?
11:40
Everyone can do it because three guys,
283
700260
2000
Tout le monde peut le faire parce que trois gars,
11:42
Jon Orwant, Matt Gray and Will Brockman over at Google,
284
702260
3000
Jon Orwant, Matt Gray et Will Brockman de chez Google,
11:45
saw the prototype of the Ngram Viewer,
285
705260
2000
ont vu le prototype du Ngram Viewer,
11:47
and they said, "This is so fun.
286
707260
2000
et ils ont dit, « C’est marrant.
11:49
We have to make this available for people."
287
709260
3000
Nous devons le rendre disponible à tout le monde. »
11:52
So in two weeks flat -- the two weeks before our paper came out --
288
712260
2000
En deux semaines – les deux semaines qui ont précédé la sortie de notre article --
11:54
they coded up a version of the Ngram Viewer for the general public.
289
714260
3000
ils ont codé une version du Ngram Viewer tout public.
11:57
And so you too can type in any word or phrase that you're interested in
290
717260
3000
Donc vous aussi vous pouvez taper n’importe quel mot ou phrase qui vous intéresse
12:00
and see its n-gram immediately --
291
720260
2000
et voir son n-grammes immédiatement --
12:02
also browse examples of all the various books
292
722260
2000
vous pouvez aussi feuilleter tous les livres
12:04
in which your n-gram appears.
293
724260
2000
dans lesquelles votre n-gramme apparaît.
12:06
JM: Now this was used over a million times on the first day,
294
726260
2000
JM : Il a été utilisé plus d’un million de fois le premier jour,
12:08
and this is really the best of all the queries.
295
728260
2000
et c’est vraiment la meilleure de toutes les interrogations.
12:10
So people want to be their best, put their best foot forward.
296
730260
3000
Les gens veulent faire de leurs mieux [best], ils mettent leur meilleur [best] pied avant.
12:13
But it turns out in the 18th century, people didn't really care about that at all.
297
733260
3000
Mais il s’avère qu’au 18° siècle, les gens ne s’y intéressaient pas du tout.
12:16
They didn't want to be their best, they wanted to be their beft.
298
736260
3000
Ils ne voulaient pas faire de leur « best », ils voulaient faire de leur « beft ».
12:19
So what happened is, of course, this is just a mistake.
299
739260
3000
Ce qui est arrivé, bien sur, c’est que c’est une erreur.
12:22
It's not that strove for mediocrity,
300
742260
2000
Ils n’étaient pas à la recherche de la médiocrité.
12:24
it's just that the S used to be written differently, kind of like an F.
301
744260
3000
c’est que le S s’écrivait différemment, un peu comme un F.
12:27
Now of course, Google didn't pick this up at the time,
302
747260
3000
Bien sur, Google ne s’en est pas aperçu,
12:30
so we reported this in the science article that we wrote.
303
750260
3000
nous avons donc rapporté ceci dans l’article scientifique que nous avons écrit.
12:33
But it turns out this is just a reminder
304
753260
2000
Mais il s’avère que c’est juste un rappel
12:35
that, although this is a lot of fun,
305
755260
2000
sur le fait que malgré tout ceci soit amusant,
12:37
when you interpret these graphs, you have to be very careful,
306
757260
2000
en interprétant ces graphes, il faut faire très attention,
12:39
and you have to adopt the base standards in the sciences.
307
759260
3000
et il faut adopter les standards de base de la science.
12:42
ELA: People have been using this for all kinds of fun purposes.
308
762260
3000
ELA : Les gens l’ont utilisé pour toutes sortes de raisons amusantes.
12:45
(Laughter)
309
765260
7000
(Rires)
12:52
Actually, we're not going to have to talk,
310
772260
2000
En fait, nous n'allons pas parler,
12:54
we're just going to show you all the slides and remain silent.
311
774260
3000
nous allons juste vous montrer toutes les diapos et nous taire.
12:57
This person was interested in the history of frustration.
312
777260
3000
Cette personne s'est intéressée à l’histoire de la frustration.
13:00
There's various types of frustration.
313
780260
3000
Il y a différents types de frustration.
13:03
If you stub your toe, that's a one A "argh."
314
783260
3000
Si vous vous cognez l’orteil, en voilà une avec 1 A « argh ».
13:06
If the planet Earth is annihilated by the Vogons
315
786260
2000
Si la terre est anéantie par les Vogons
13:08
to make room for an interstellar bypass,
316
788260
2000
pour faire de la place à un voyageur intergalactique,
13:10
that's an eight A "aaaaaaaargh."
317
790260
2000
c’est avec 8 A « aaaaaaaargh ».
13:12
This person studies all the "arghs,"
318
792260
2000
Cette personne étudie tous les « argh »,
13:14
from one through eight A's.
319
794260
2000
de 1 à 8 A.
13:16
And it turns out
320
796260
2000
Et il s’avère
13:18
that the less-frequent "arghs"
321
798260
2000
que les « argh » moins fréquents
13:20
are, of course, the ones that correspond to things that are more frustrating --
322
800260
3000
sont, bien sûr, ceux qui correspondent aux choses les plus frustrantes --
13:23
except, oddly, in the early 80s.
323
803260
3000
sauf, curieusement, au début des années 80.
13:26
We think that might have something to do with Reagan.
324
806260
2000
Nous pensons que ça pourrait avoir à faire avec Reagan,
13:28
(Laughter)
325
808260
2000
(Rires)
13:30
JM: There are many usages of this data,
326
810260
3000
JM : Il y a plusieurs utilisations de ces données,
13:33
but the bottom line is that the historical record is being digitized.
327
813260
3000
mais la vérité est que nous sommes en train de numériser les archives historiques.
13:36
Google has started to digitize 15 million books.
328
816260
2000
Google a commencé à numériser 15 millions de livres.
13:38
That's 12 percent of all the books that have ever been published.
329
818260
2000
C’est 12 pour cent de tous les livres qui aient jamais été publiés.
13:40
It's a sizable chunk of human culture.
330
820260
3000
C’est un gros morceau de la culture humaine.
13:43
There's much more in culture: there's manuscripts, there newspapers,
331
823260
3000
Il y a beaucoup plus dans la culture : il y a les manuscrits, il y a les journaux,
13:46
there's things that are not text, like art and paintings.
332
826260
2000
il y a tout ce qui n’est pas texte, comme l’art et les tableaux.
13:48
These all happen to be on our computers,
333
828260
2000
Tout ceci est dans nos ordinateurs,
13:50
on computers across the world.
334
830260
2000
dans les ordinateurs du monde entier.
13:52
And when that happens, that will transform the way we have
335
832260
3000
Et dans le temps, ça transformera la manière dont
13:55
to understand our past, our present and human culture.
336
835260
2000
nous comprenons notre passé, notre culture humaine du présent.
13:57
Thank you very much.
337
837260
2000
Merci beaucoup.
13:59
(Applause)
338
839260
3000
(Applaudissements)
À propos de ce site Web

Ce site vous présentera des vidéos YouTube utiles pour apprendre l'anglais. Vous verrez des leçons d'anglais dispensées par des professeurs de premier ordre du monde entier. Double-cliquez sur les sous-titres anglais affichés sur chaque page de vidéo pour lire la vidéo à partir de là. Les sous-titres défilent en synchronisation avec la lecture de la vidéo. Si vous avez des commentaires ou des demandes, veuillez nous contacter en utilisant ce formulaire de contact.

https://forms.gle/WvT1wiN1qDtmnspy7