What we learned from 5 million books

¿Qué hemos aprendido de 5 millones de libros?

236,151 views

2011-09-20 ・ TED


New videos

What we learned from 5 million books

¿Qué hemos aprendido de 5 millones de libros?

236,151 views ・ 2011-09-20

TED


Haga doble clic en los subtítulos en inglés para reproducir el vídeo.

Traductor: Sebastian Betti Revisor: Mariela Rodio
00:15
Erez Lieberman Aiden: Everyone knows
0
15260
2000
Erez Lieberman Aiden: Todo el mundo sabe
00:17
that a picture is worth a thousand words.
1
17260
3000
que una imagen vale más que mil palabras.
00:22
But we at Harvard
2
22260
2000
Pero en Harvard
00:24
were wondering if this was really true.
3
24260
3000
nos preguntábamos si realmente es verdad.
00:27
(Laughter)
4
27260
2000
(Risas)
00:29
So we assembled a team of experts,
5
29260
4000
Así que reunimos a un equipo de expertos
00:33
spanning Harvard, MIT,
6
33260
2000
de Harvard, del MIT
00:35
The American Heritage Dictionary, The Encyclopedia Britannica
7
35260
3000
de "The American Heritage Dictionary", de la Enciclopedia Británica
00:38
and even our proud sponsors,
8
38260
2000
e incluso de nuestros patrocinadores:
00:40
the Google.
9
40260
3000
Google.
00:43
And we cogitated about this
10
43260
2000
Y meditamos sobre esto
00:45
for about four years.
11
45260
2000
durante unos 4 años
00:47
And we came to a startling conclusion.
12
47260
5000
hasta llegar a una conclusión sorprendente.
00:52
Ladies and gentlemen, a picture is not worth a thousand words.
13
52260
3000
Damas y caballeros: una imagen no vale más que mil palabras.
00:55
In fact, we found some pictures
14
55260
2000
De hecho, hallamos que algunas imágenes
00:57
that are worth 500 billion words.
15
57260
5000
valen 500.000 millones de palabras.
01:02
Jean-Baptiste Michel: So how did we get to this conclusion?
16
62260
2000
Jean-Baptiste Michel: ¿Cómo llegamos a esta conclusión?
01:04
So Erez and I were thinking about ways
17
64260
2000
Erez y yo estábamos pensando formas
01:06
to get a big picture of human culture
18
66260
2000
de ver el panorama general de la cultura humana
01:08
and human history: change over time.
19
68260
3000
y de la historia humana: su cambio en el tiempo.
01:11
So many books actually have been written over the years.
20
71260
2000
Se han escrito muchos libros en los últimos años.
01:13
So we were thinking, well the best way to learn from them
21
73260
2000
Así que estábamos pensando que la mejor forma de aprender de ellos
01:15
is to read all of these millions of books.
22
75260
2000
es leyendo estos millones de libros.
01:17
Now of course, if there's a scale for how awesome that is,
23
77260
3000
Por supuesto, si existe una escala de lo impresionante,
01:20
that has to rank extremely, extremely high.
24
80260
3000
ese tiene que estar posicionado muy, muy arriba.
01:23
Now the problem is there's an X-axis for that,
25
83260
2000
Pero el problema es que hay un eje X
01:25
which is the practical axis.
26
85260
2000
que es el eje de lo práctico.
01:27
This is very, very low.
27
87260
2000
Este está muy, muy abajo.
01:29
(Applause)
28
89260
3000
(Aplausos)
01:32
Now people tend to use an alternative approach,
29
92260
3000
Ahora bien, la gente suele usar un enfoque alternativo:
01:35
which is to take a few sources and read them very carefully.
30
95260
2000
tener pocas fuentes y leerlas con mucho cuidado.
01:37
This is extremely practical, but not so awesome.
31
97260
2000
Esto es muy práctico pero no tan impresionante.
01:39
What you really want to do
32
99260
3000
Lo que realmente queremos
01:42
is to get to the awesome yet practical part of this space.
33
102260
3000
es llegar a lo impresionante y práctico.
01:45
So it turns out there was a company across the river called Google
34
105260
3000
Y resulta que había una empresa del otro lado del río llamada Google
01:48
who had started a digitization project a few years back
35
108260
2000
que hace unos años había comenzado un proyecto de digitalización
01:50
that might just enable this approach.
36
110260
2000
que podría permitir este enfoque.
01:52
They have digitized millions of books.
37
112260
2000
Ellos han digitalizado millones de libros.
01:54
So what that means is, one could use computational methods
38
114260
3000
Eso significa que uno podría usar métodos computacionales
01:57
to read all of the books in a click of a button.
39
117260
2000
para leer todos los libros con el clic de un botón.
01:59
That's very practical and extremely awesome.
40
119260
3000
Eso es muy práctico y sumamente impresionante.
02:03
ELA: Let me tell you a little bit about where books come from.
41
123260
2000
ELA: Ahora les voy a contar un poco de dónde vienen los libros.
02:05
Since time immemorial, there have been authors.
42
125260
3000
Desde la noche de los tiempos existen autores.
02:08
These authors have been striving to write books.
43
128260
3000
Estos autores se han esforzado por escribir libros.
02:11
And this became considerably easier
44
131260
2000
Y eso se volvió considerablemente más fácil
02:13
with the development of the printing press some centuries ago.
45
133260
2000
con el desarrollo de la imprenta hace algunos siglos.
02:15
Since then, the authors have won
46
135260
3000
Desde entonces, los autores han tenido
02:18
on 129 million distinct occasions,
47
138260
2000
129 millones de ocasiones
02:20
publishing books.
48
140260
2000
para publicar libros.
02:22
Now if those books are not lost to history,
49
142260
2000
Y si esos libros no se perdieron en la historia
02:24
then they are somewhere in a library,
50
144260
2000
entonces están en alguna biblioteca
02:26
and many of those books have been getting retrieved from the libraries
51
146260
3000
y muchos de esos libros han sido recuperados de las bibliotecas
02:29
and digitized by Google,
52
149260
2000
y digitalizados por Google
02:31
which has scanned 15 million books to date.
53
151260
2000
que ha escaneado 15 millones de libros hasta la fecha.
02:33
Now when Google digitizes a book, they put it into a really nice format.
54
153260
3000
Pero cuando Google digitaliza un libro lo pone en un formato muy bueno.
02:36
Now we've got the data, plus we have metadata.
55
156260
2000
Ahora tenemos los datos y tenemos metadatos.
02:38
We have information about things like where was it published,
56
158260
3000
Tenemos información sobre cosas como el lugar de publicación
02:41
who was the author, when was it published.
57
161260
2000
el autor, fecha de publicación.
02:43
And what we do is go through all of those records
58
163260
3000
Y recorremos todos esos registros,
02:46
and exclude everything that's not the highest quality data.
59
166260
4000
excluyendo todo lo que no tenga la más alta calidad.
02:50
What we're left with
60
170260
2000
Lo que nos queda
02:52
is a collection of five million books,
61
172260
3000
es una colección de 5 millones de libros
02:55
500 billion words,
62
175260
3000
500.000 millones de palabras,
02:58
a string of characters a thousand times longer
63
178260
2000
una cadena de caracteres mil veces más larga
03:00
than the human genome --
64
180260
3000
que el genoma humano;
03:03
a text which, when written out,
65
183260
2000
un texto que, de escribirlo,
03:05
would stretch from here to the Moon and back
66
185260
2000
se extendería desde aquí hasta la luna ida y vuelta
03:07
10 times over --
67
187260
2000
10 veces más...
03:09
a veritable shard of our cultural genome.
68
189260
4000
un verdadero fragmento de nuestro genoma cultural.
03:13
Of course what we did
69
193260
2000
Por supuesto lo que hicimos
03:15
when faced with such outrageous hyperbole ...
70
195260
3000
frente a tal extravagante hipérbole...
03:18
(Laughter)
71
198260
2000
(Risas)
03:20
was what any self-respecting researchers
72
200260
3000
fue hacer lo que cualquier investigador que se respete
03:23
would have done.
73
203260
3000
habría hecho.
03:26
We took a page out of XKCD,
74
206260
2000
Tomamos una página de XKDC,
03:28
and we said, "Stand back.
75
208260
2000
y dijimos: "Háganse a un lado.
03:30
We're going to try science."
76
210260
2000
Vamos a intentar con la ciencia".
03:32
(Laughter)
77
212260
2000
(Risas)
03:34
JM: Now of course, we were thinking,
78
214260
2000
JM: Ahora, por supuesto, estábamos pensando:
03:36
well let's just first put the data out there
79
216260
2000
primero pongamos los datos allí
03:38
for people to do science to it.
80
218260
2000
para que la gente haga ciencia con eso.
03:40
Now we're thinking, what data can we release?
81
220260
2000
Ahora estamos pensando: ¿qué datos podemos liberar?
03:42
Well of course, you want to take the books
82
222260
2000
Por supuesto, uno quiere tomar los libros
03:44
and release the full text of these five million books.
83
224260
2000
y liberar el texto completo de estos 5 millones de libros.
03:46
Now Google, and Jon Orwant in particular,
84
226260
2000
Pero Google, y Jon Orwant en particular,
03:48
told us a little equation that we should learn.
85
228260
2000
nos explicaron una pequeña ecuación:
03:50
So you have five million, that is, five million authors
86
230260
3000
5 millones de autores
03:53
and five million plaintiffs is a massive lawsuit.
87
233260
3000
y 5 millones de demandantes, genera demandas masivas.
03:56
So, although that would be really, really awesome,
88
236260
2000
Por eso aunque sea muy, muy impresionante
03:58
again, that's extremely, extremely impractical.
89
238260
3000
de nuevo, es completamente impráctico.
04:01
(Laughter)
90
241260
2000
(Risas)
04:03
Now again, we kind of caved in,
91
243260
2000
Pero, de nuevo, cedimos
04:05
and we did the very practical approach, which was a bit less awesome.
92
245260
3000
y adoptamos un enfoque muy práctico, un poco menos impresionante.
04:08
We said, well instead of releasing the full text,
93
248260
2000
Dijimos: bueno, en vez de liberar todo el texto
04:10
we're going to release statistics about the books.
94
250260
2000
vamos a liberar estadísticas sobre los libros.
04:12
So take for instance "A gleam of happiness."
95
252260
2000
Tomemos, por ejemplo, "un destello de felicidad".
04:14
It's four words; we call that a four-gram.
96
254260
2000
Tiene 4 palabras; lo denominamos cuatro-grama.
04:16
We're going to tell you how many times a particular four-gram
97
256260
2000
Les vamos a contar cuántas veces aparece un cuatro-grama particular
04:18
appeared in books in 1801, 1802, 1803,
98
258260
2000
en libros en 1801, 1802, 1803,
04:20
all the way up to 2008.
99
260260
2000
en cada año hasta 2008.
04:22
That gives us a time series
100
262260
2000
Eso nos da series temporales
04:24
of how frequently this particular sentence was used over time.
101
264260
2000
de la frecuencia con que esta oración particular se usó en el tiempo.
04:26
We do that for all the words and phrases that appear in those books,
102
266260
3000
Hacemos eso para todas las palabras y frases que aparecen en esos libros
04:29
and that gives us a big table of two billion lines
103
269260
3000
y eso nos da una gran tabla de 2.000 millones de líneas
04:32
that tell us about the way culture has been changing.
104
272260
2000
que nos cuentan formas en las que fue cambiando la cultura.
04:34
ELA: So those two billion lines,
105
274260
2000
ELA: Esos dos millones de líneas
04:36
we call them two billion n-grams.
106
276260
2000
se denominan 2 millones de n-gramas.
04:38
What do they tell us?
107
278260
2000
¿Qué nos dicen?
04:40
Well the individual n-grams measure cultural trends.
108
280260
2000
Los n-gramas individuales miden las tendencias culturales.
04:42
Let me give you an example.
109
282260
2000
Les daré un ejemplo.
04:44
Let's suppose that I am thriving,
110
284260
2000
Supongamos que soy muy próspero
04:46
then tomorrow I want to tell you about how well I did.
111
286260
2000
y mañana quiero contarles lo bien que me fue.
04:48
And so I might say, "Yesterday, I throve."
112
288260
3000
Podría decir: "Ayer prosperé".
04:51
Alternatively, I could say, "Yesterday, I thrived."
113
291260
3000
En inglés, prosperé ¿es 'throve' o 'thrived'?
04:54
Well which one should I use?
114
294260
3000
¿Cuál debería usar?
04:57
How to know?
115
297260
2000
¿Cómo saberlo?
04:59
As of about six months ago,
116
299260
2000
Desde hace unos 6 meses
05:01
the state of the art in this field
117
301260
2000
la vanguardia en este campo
05:03
is that you would, for instance,
118
303260
2000
dice que, por ejemplo,
05:05
go up to the following psychologist with fabulous hair,
119
305260
2000
uno tiene que ir a ese psicólogo de pelo fabuloso
05:07
and you'd say,
120
307260
2000
y decirle:
05:09
"Steve, you're an expert on the irregular verbs.
121
309260
3000
"Steve, eres experto en verbos irregulares.
05:12
What should I do?"
122
312260
2000
¿Qué debería hacer?"
05:14
And he'd tell you, "Well most people say thrived,
123
314260
2000
Y él dirá: "Bueno la mayoría de la gente dice 'thrive'
05:16
but some people say throve."
124
316260
3000
pero alguna gente dice 'throve'".
05:19
And you also knew, more or less,
125
319260
2000
Y también sabían, más o menos,
05:21
that if you were to go back in time 200 years
126
321260
3000
que si retrocedieran en el tiempo 200 años
05:24
and ask the following statesman with equally fabulous hair,
127
324260
3000
y le preguntaran a este estadista de pelo fabuloso,
05:27
(Laughter)
128
327260
3000
(Risas)
05:30
"Tom, what should I say?"
129
330260
2000
"Tom, ¿cómo debería decir?"
05:32
He'd say, "Well, in my day, most people throve,
130
332260
2000
Diría: "Bueno, en mis tiempos era 'throve'
05:34
but some thrived."
131
334260
3000
pero había 'thrived'".
05:37
So now what I'm just going to show you is raw data.
132
337260
2000
Por eso ahora voy a mostrar los datos en crudo.
05:39
Two rows from this table of two billion entries.
133
339260
4000
Dos filas de esta tabla de 2.000 millones de entradas.
05:43
What you're seeing is year by year frequency
134
343260
2000
Lo que están viendo es la frecuencia año por año
05:45
of "thrived" and "throve" over time.
135
345260
3000
de 'thrived' y 'throve' en el tiempo.
05:49
Now this is just two
136
349260
2000
Estas son sólo 2
05:51
out of two billion rows.
137
351260
3000
de 2.000 millones de filas.
05:54
So the entire data set
138
354260
2000
Así que el set de datos entero
05:56
is a billion times more awesome than this slide.
139
356260
3000
es mil millones de veces más impresionante que esta diapositiva.
05:59
(Laughter)
140
359260
2000
(Risas)
06:01
(Applause)
141
361260
4000
(Aplausos)
06:05
JM: Now there are many other pictures that are worth 500 billion words.
142
365260
2000
JM: Ahora bien, hay muchas otras imágenes que valen 500.000 millones de palabras.
06:07
For instance, this one.
143
367260
2000
Por ejemplo, ésta.
06:09
If you just take influenza,
144
369260
2000
Si uno toma el caso de la gripe,
06:11
you will see peaks at the time where you knew
145
371260
2000
verá picos en el tiempo en el que se sabía
06:13
big flu epidemics were killing people around the globe.
146
373260
3000
de la muerte por grandes epidemias de gripe en todo el mundo.
06:16
ELA: If you were not yet convinced,
147
376260
3000
ELA: Si todavía no están convencidos,
06:19
sea levels are rising,
148
379260
2000
los niveles del mar están subiendo,
06:21
so is atmospheric CO2 and global temperature.
149
381260
3000
y también el CO2 en la atmósfera y la temperatura del planeta.
06:24
JM: You might also want to have a look at this particular n-gram,
150
384260
3000
JM: Puede ser que también deseen echar un vistazo a estos n-gramas,
06:27
and that's to tell Nietzsche that God is not dead,
151
387260
3000
para decirle a Nietzsche que Dios no está muerto,
06:30
although you might agree that he might need a better publicist.
152
390260
3000
aunque, estamos de acuerdo, necesitaría un mejor publicista.
06:33
(Laughter)
153
393260
2000
(Risas)
06:35
ELA: You can get at some pretty abstract concepts with this sort of thing.
154
395260
3000
ELA: Con este tipo de cosas se puede llegar a conceptos bastante abstractos.
06:38
For instance, let me tell you the history
155
398260
2000
Por ejemplo, tenemos la historia
06:40
of the year 1950.
156
400260
2000
del año 1950.
06:42
Pretty much for the vast majority of history,
157
402260
2000
En general para la gran mayoría de la historia
06:44
no one gave a damn about 1950.
158
404260
2000
a nadie le importa un comino 1950.
06:46
In 1700, in 1800, in 1900,
159
406260
2000
En 1700, en 1800, en 1900,
06:48
no one cared.
160
408260
3000
a nadie le importa.
06:52
Through the 30s and 40s,
161
412260
2000
Entre los años 30 y 40
06:54
no one cared.
162
414260
2000
a nadie le importa.
06:56
Suddenly, in the mid-40s,
163
416260
2000
De repente, a mediados de los 40,
06:58
there started to be a buzz.
164
418260
2000
empezó a desatarse un rumor.
07:00
People realized that 1950 was going to happen,
165
420260
2000
La gente se dio cuenta que venía 1950
07:02
and it could be big.
166
422260
2000
y quizá era algo genial.
07:04
(Laughter)
167
424260
3000
(Risas)
07:07
But nothing got people interested in 1950
168
427260
3000
Pero nada cautivó el interés de la gente en 1950
07:10
like the year 1950.
169
430260
3000
tanto como el año 1950.
07:13
(Laughter)
170
433260
3000
(Risas)
07:16
People were walking around obsessed.
171
436260
2000
La gente iba por ahí obsesionada.
07:18
They couldn't stop talking
172
438260
2000
No podía parar de pensar
07:20
about all the things they did in 1950,
173
440260
3000
en todo lo que hicieron en 1950
07:23
all the things they were planning to do in 1950,
174
443260
3000
todas las cosas que planeaban hacer en 1950
07:26
all the dreams of what they wanted to accomplish in 1950.
175
446260
5000
todos los sueños que querían cumplir en 1950.
07:31
In fact, 1950 was so fascinating
176
451260
2000
De hecho, 1950 fue tan fascinante
07:33
that for years thereafter,
177
453260
2000
que en los años sucesivos
07:35
people just kept talking about all the amazing things that happened,
178
455260
3000
la gente siguió hablando de las cosas sorprendentes que sucedieron
07:38
in '51, '52, '53.
179
458260
2000
en el 51, 52, 53.
07:40
Finally in 1954,
180
460260
2000
Finalmente, en 1954,
07:42
someone woke up and realized
181
462260
2000
alguien despertó y se dio cuenta
07:44
that 1950 had gotten somewhat passé.
182
464260
4000
que 1950 ya estaba un poco pasado de moda.
07:48
(Laughter)
183
468260
2000
(Risas)
07:50
And just like that, the bubble burst.
184
470260
2000
Y, así porque sí, estalló la burbuja.
07:52
(Laughter)
185
472260
2000
(Risas)
07:54
And the story of 1950
186
474260
2000
Y la historia de 1950
07:56
is the story of every year that we have on record,
187
476260
2000
es la historia de cada año que tenemos registrado
07:58
with a little twist, because now we've got these nice charts.
188
478260
3000
con un pequeño giro, porque ahora contamos con estos lindos gráficos.
08:01
And because we have these nice charts, we can measure things.
189
481260
3000
Y, porque los tenemos, podemos medir cosas.
08:04
We can say, "Well how fast does the bubble burst?"
190
484260
2000
Podemos decir: "Bueno, ¿a qué velocidad estalla la burbuja?"
08:06
And it turns out that we can measure that very precisely.
191
486260
3000
Y resulta que podemos medir con mucha precisión.
08:09
Equations were derived, graphs were produced,
192
489260
3000
Se derivaron ecuaciones, se hicieron gráficos,
08:12
and the net result
193
492260
2000
y el resultado neto
08:14
is that we find that the bubble bursts faster and faster
194
494260
3000
es que hallamos que la burbuja estalla cada vez más rápidamente
08:17
with each passing year.
195
497260
2000
con cada año que pasa.
08:19
We are losing interest in the past more rapidly.
196
499260
5000
Estamos perdiendo interés por el pasado más rápidamente.
08:24
JM: Now a little piece of career advice.
197
504260
2000
JM: Ahora un pequeño consejo de carrera.
08:26
So for those of you who seek to be famous,
198
506260
2000
Para los que buscan ser famosos
08:28
we can learn from the 25 most famous political figures,
199
508260
2000
podemos aprender de los 25 personajes políticos más famosos:
08:30
authors, actors and so on.
200
510260
2000
autores, actores, etc.
08:32
So if you want to become famous early on, you should be an actor,
201
512260
3000
Si quieren llegar a ser famosos desde temprano, deberían ser actores
08:35
because then fame starts rising by the end of your 20s --
202
515260
2000
porque empiezan a tener fama al final de los ventipico...
08:37
you're still young, it's really great.
203
517260
2000
todavía son jóvenes, es genial.
08:39
Now if you can wait a little bit, you should be an author,
204
519260
2000
Ahora, si pueden esperar un poquito, deberían ser autores
08:41
because then you rise to very great heights,
205
521260
2000
porque entonces alcanzarían grandes alturas
08:43
like Mark Twain, for instance: extremely famous.
206
523260
2000
como Mark Twain, por ejemplo, que es sumamente famoso.
08:45
But if you want to reach the very top,
207
525260
2000
Pero si quieren llegar realmente a la cima
08:47
you should delay gratification
208
527260
2000
deberían demorar la gratificación
08:49
and, of course, become a politician.
209
529260
2000
y, claro, ser políticos.
08:51
So here you will become famous by the end of your 50s,
210
531260
2000
En este caso se harán famosos al final de los 50 y tantos
08:53
and become very, very famous afterward.
211
533260
2000
y se volverán muy, muy famosos en lo sucesivo.
08:55
So scientists also tend to get famous when they're much older.
212
535260
3000
Los científicos suelen hacerse famosos cuando son mucho mayores.
08:58
Like for instance, biologists and physics
213
538260
2000
Por ejemplo, los biólogos y los físicos
09:00
tend to be almost as famous as actors.
214
540260
2000
suelen ser casi tan famosos como los actores.
09:02
One mistake you should not do is become a mathematician.
215
542260
3000
Un error que no deben cometer es ser matemáticos.
09:05
(Laughter)
216
545260
2000
(Risas)
09:07
If you do that,
217
547260
2000
Si lo hacen
09:09
you might think, "Oh great. I'm going to do my best work when I'm in my 20s."
218
549260
3000
podrían pensar: "Oh, genial. Voy a hacer mi mejor trabajo a los ventipico".
09:12
But guess what, nobody will really care.
219
552260
2000
Pero adivinen qué; a nadie le importará.
09:14
(Laughter)
220
554260
3000
(Risas)
09:17
ELA: There are more sobering notes
221
557260
2000
ELA: Hay notas más preocupantes
09:19
among the n-grams.
222
559260
2000
entre los n-gramas.
09:21
For instance, here's the trajectory of Marc Chagall,
223
561260
2000
Por ejemplo, esta es la trayectoria de Marc Chagall,
09:23
an artist born in 1887.
224
563260
2000
un artista nacido en 1887.
09:25
And this looks like the normal trajectory of a famous person.
225
565260
3000
Parece la trayectoria normal de un famoso.
09:28
He gets more and more and more famous,
226
568260
4000
Se hace cada vez más y más famoso
09:32
except if you look in German.
227
572260
2000
salvo que miremos en alemán.
09:34
If you look in German, you see something completely bizarre,
228
574260
2000
Si miramos en alemán vamos a notar algo muy extraño,
09:36
something you pretty much never see,
229
576260
2000
algo casi nunca visto
09:38
which is he becomes extremely famous
230
578260
2000
y es que se vuelve sumamente famoso
09:40
and then all of a sudden plummets,
231
580260
2000
y de repente se desploma
09:42
going through a nadir between 1933 and 1945,
232
582260
3000
cayendo al punto más bajo entre 1933 y 1945,
09:45
before rebounding afterward.
233
585260
3000
y después se recupera.
09:48
And of course, what we're seeing
234
588260
2000
Por supuesto, lo que vemos
09:50
is the fact Marc Chagall was a Jewish artist
235
590260
3000
es que, de hecho, Marc Chagall era un artista judío
09:53
in Nazi Germany.
236
593260
2000
en la Alemania nazi.
09:55
Now these signals
237
595260
2000
Estas señales
09:57
are actually so strong
238
597260
2000
son tan fuertes, en realidad,
09:59
that we don't need to know that someone was censored.
239
599260
3000
que no hace falta saber que alguien fue censurado.
10:02
We can actually figure it out
240
602260
2000
Podemos averiguarlo
10:04
using really basic signal processing.
241
604260
2000
mediante procesamiento básico de señales.
10:06
Here's a simple way to do it.
242
606260
2000
Esta es una manera simple de hacerlo.
10:08
Well, a reasonable expectation
243
608260
2000
Una expectativa razonable
10:10
is that somebody's fame in a given period of time
244
610260
2000
es que la fama de alguien en un período dado de tiempo
10:12
should be roughly the average of their fame before
245
612260
2000
debería ser aproximadamente el promedio de su fama antes
10:14
and their fame after.
246
614260
2000
y su fama después de eso.
10:16
So that's sort of what we expect.
247
616260
2000
Es más o menos lo que esperamos.
10:18
And we compare that to the fame that we observe.
248
618260
3000
Comparamos eso con la fama que observamos
10:21
And we just divide one by the other
249
621260
2000
y dividimos una por otra
10:23
to produce something we call a suppression index.
250
623260
2000
para producir algo que llamamos «índice de represión».
10:25
If the suppression index is very, very, very small,
251
625260
3000
Si el índice de represión es muy, muy, muy pequeño
10:28
then you very well might be being suppressed.
252
628260
2000
podrían estar reprimiéndote.
10:30
If it's very large, maybe you're benefiting from propaganda.
253
630260
3000
Si es muy grande, quizá uno se está beneficiando de la propaganda.
10:34
JM: Now you can actually look at
254
634260
2000
JM: Ahora bien, podemos mirar
10:36
the distribution of suppression indexes over whole populations.
255
636260
3000
la distribución de los índices de represión en poblaciones enteras.
10:39
So for instance, here --
256
639260
2000
Así, por ejemplo, aquí...
10:41
this suppression index is for 5,000 people
257
641260
2000
este índice de represión es para 5.000 personas
10:43
picked in English books where there's no known suppression --
258
643260
2000
calculado sobre libros de inglés, donde no hay represión conocida,
10:45
it would be like this, basically tightly centered on one.
259
645260
2000
sería algo así, bastante centrado en el uno.
10:47
What you expect is basically what you observe.
260
647260
2000
Lo que uno espera es básicamente lo que observa.
10:49
This is distribution as seen in Germany --
261
649260
2000
Esta es la distribución como se ve en Alemania...
10:51
very different, it's shifted to the left.
262
651260
2000
muy diferente, está desplazada a la izquierda.
10:53
People talked about it twice less as it should have been.
263
653260
3000
Se habla de la gente 2 veces menos de lo que se debería.
10:56
But much more importantly, the distribution is much wider.
264
656260
2000
Pero aún más importante, la distribución es mucho más amplia.
10:58
There are many people who end up on the far left on this distribution
265
658260
3000
Hay muchas personas que terminan en el extremo izquierdo de esta distribución;
11:01
who are talked about 10 times fewer than they should have been.
266
661260
3000
gente de la que se habla unas 10 veces menos de lo que se debería.
11:04
But then also many people on the far right
267
664260
2000
Pero también mucha gente en el extremo derecho
11:06
who seem to benefit from propaganda.
268
666260
2000
que parece beneficiarse de la propaganda.
11:08
This picture is the hallmark of censorship in the book record.
269
668260
3000
Esta imagen muestra el sello de la censura en el libro registrado.
11:11
ELA: So culturomics
270
671260
2000
ELA: «Culturomía»,
11:13
is what we call this method.
271
673260
2000
así denominamos al método.
11:15
It's kind of like genomics.
272
675260
2000
Es una especie de genómica,
11:17
Except genomics is a lens on biology
273
677260
2000
salvo que la genómica hace foco en la biología
11:19
through the window of the sequence of bases in the human genome.
274
679260
3000
mediante la ventana de la secuencia de bases del genoma humano.
11:22
Culturomics is similar.
275
682260
2000
La «culturomía» es similar.
11:24
It's the application of massive-scale data collection analysis
276
684260
3000
Es la aplicación del análisis de grandes volúmenes de datos
11:27
to the study of human culture.
277
687260
2000
al estudio de la cultura humana.
11:29
Here, instead of through the lens of a genome,
278
689260
2000
Aquí, en vez de mirar bajo la lente del genoma,
11:31
through the lens of digitized pieces of the historical record.
279
691260
3000
lo hacemos mediante la digitalización de registros históricos.
11:34
The great thing about culturomics
280
694260
2000
Lo genial de la «culturomía»
11:36
is that everyone can do it.
281
696260
2000
es que todos podemos practicarla.
11:38
Why can everyone do it?
282
698260
2000
¿Por qué podemos todos?
11:40
Everyone can do it because three guys,
283
700260
2000
Todo el mundo puede hacerlo porque tres muchachos
11:42
Jon Orwant, Matt Gray and Will Brockman over at Google,
284
702260
3000
Jon Orwant, Matt Gray y Will Brockman en Google,
11:45
saw the prototype of the Ngram Viewer,
285
705260
2000
vieron el prototipo del visor de n-gramas
11:47
and they said, "This is so fun.
286
707260
2000
y dijeron: "Es algo muy divertido.
11:49
We have to make this available for people."
287
709260
3000
Tenemos que dejarlo disponible para la gente".
11:52
So in two weeks flat -- the two weeks before our paper came out --
288
712260
2000
Así que en dos semanas -dos semanas antes de que salga nuestro artículo-
11:54
they coded up a version of the Ngram Viewer for the general public.
289
714260
3000
programaron una versión del visor de n-gramas para el público en general.
11:57
And so you too can type in any word or phrase that you're interested in
290
717260
3000
De ese modo, Uds también pueden escribir la palabra o frase que les interese
12:00
and see its n-gram immediately --
291
720260
2000
y ver su n-grama de inmediato;
12:02
also browse examples of all the various books
292
722260
2000
también explorar ejemplos de los distintos libros
12:04
in which your n-gram appears.
293
724260
2000
en los que aparece el n-grama.
12:06
JM: Now this was used over a million times on the first day,
294
726260
2000
JM: El primer día lo usaron más de un millón de veces
12:08
and this is really the best of all the queries.
295
728260
2000
y esta es realmente la mejor de todas las consultas.
12:10
So people want to be their best, put their best foot forward.
296
730260
3000
La gente quiere dar lo mejor de sí, en inglés se dice 'best'.
12:13
But it turns out in the 18th century, people didn't really care about that at all.
297
733260
3000
Pero resulta que en el siglo XVIII esto no importaba para nada.
12:16
They didn't want to be their best, they wanted to be their beft.
298
736260
3000
En inglés, no decían "dar lo mejor de sí" usando 'best' sino 'beft'.
12:19
So what happened is, of course, this is just a mistake.
299
739260
3000
Por supuesto, se debe a un error.
12:22
It's not that strove for mediocrity,
300
742260
2000
No es que se esforzaran en ser mediocres,
12:24
it's just that the S used to be written differently, kind of like an F.
301
744260
3000
sino que la S se solía escribir como una F.
12:27
Now of course, Google didn't pick this up at the time,
302
747260
3000
Pero claro, Google no advirtió esto en ese momento
12:30
so we reported this in the science article that we wrote.
303
750260
3000
por eso lo informamos en el artículo científico que escribimos.
12:33
But it turns out this is just a reminder
304
753260
2000
Pero resulta que esto nos recuerda
12:35
that, although this is a lot of fun,
305
755260
2000
que, aunque es muy divertido,
12:37
when you interpret these graphs, you have to be very careful,
306
757260
2000
al interpretar estos gráficos hay que tener mucho cuidado
12:39
and you have to adopt the base standards in the sciences.
307
759260
3000
y adoptar las normas básicas de la ciencia.
12:42
ELA: People have been using this for all kinds of fun purposes.
308
762260
3000
ELA: La gente ha estado usando esto para todo tipo de cosas.
12:45
(Laughter)
309
765260
7000
(Risas)
12:52
Actually, we're not going to have to talk,
310
772260
2000
En realidad no vamos a hablar
12:54
we're just going to show you all the slides and remain silent.
311
774260
3000
sino a mostrarles diapositivas y quedarnos en silencio.
12:57
This person was interested in the history of frustration.
312
777260
3000
Esta persona estaba interesada en la historia de la frustración.
13:00
There's various types of frustration.
313
780260
3000
Hay varios tipos de frustración.
13:03
If you stub your toe, that's a one A "argh."
314
783260
3000
Si nos damos con el pie en algo, es con 1A: "Ay".
13:06
If the planet Earth is annihilated by the Vogons
315
786260
2000
Si la Tierra es aniquilada por la Vogons
13:08
to make room for an interstellar bypass,
316
788260
2000
para hacer espacio para una autopista interestelar
13:10
that's an eight A "aaaaaaaargh."
317
790260
2000
eso es con 8A: "Aaaaaaaay".
13:12
This person studies all the "arghs,"
318
792260
2000
Esta persona estudia todos los "Ay"
13:14
from one through eight A's.
319
794260
2000
que tienen de 1 a 8 aes.
13:16
And it turns out
320
796260
2000
Y resulta que
13:18
that the less-frequent "arghs"
321
798260
2000
los "ay" menos frecuentes
13:20
are, of course, the ones that correspond to things that are more frustrating --
322
800260
3000
son, por supuesto, los correspondientes a las cosas más frustrantes
13:23
except, oddly, in the early 80s.
323
803260
3000
salvo, curiosamente, en los años 80.
13:26
We think that might have something to do with Reagan.
324
806260
2000
Pensamos que podría tener algo que ver con Reagan.
13:28
(Laughter)
325
808260
2000
(Risas)
13:30
JM: There are many usages of this data,
326
810260
3000
JM: Hay muchos usos para estos datos
13:33
but the bottom line is that the historical record is being digitized.
327
813260
3000
pero la conclusión es que el registro histórico se está digitalizando.
13:36
Google has started to digitize 15 million books.
328
816260
2000
Google ha empezado a digitalizar 15 millones de libros.
13:38
That's 12 percent of all the books that have ever been published.
329
818260
2000
Eso representa el 12% de todos los libros publicados en la historia.
13:40
It's a sizable chunk of human culture.
330
820260
3000
Es un fragmento considerable de la cultura humana.
13:43
There's much more in culture: there's manuscripts, there newspapers,
331
823260
3000
La cultura tiene más cosas: hay manuscritos, hay periódicos,
13:46
there's things that are not text, like art and paintings.
332
826260
2000
hay cosas que no tienen texto, como el arte y las pinturas.
13:48
These all happen to be on our computers,
333
828260
2000
Todo está en nuestras computadoras,
13:50
on computers across the world.
334
830260
2000
en las computadores del mundo.
13:52
And when that happens, that will transform the way we have
335
832260
3000
Y cuando eso suceda va a transformar nuestra manera
13:55
to understand our past, our present and human culture.
336
835260
2000
de entender nuestro pasado, nuestro presente y la cultura humana.
13:57
Thank you very much.
337
837260
2000
Muchas gracias.
13:59
(Applause)
338
839260
3000
(Aplausos)
Acerca de este sitio web

Este sitio le presentará vídeos de YouTube útiles para aprender inglés. Verá lecciones de inglés impartidas por profesores de primera categoría de todo el mundo. Haz doble clic en los subtítulos en inglés que aparecen en cada página de vídeo para reproducir el vídeo desde allí. Los subtítulos se desplazan en sincronía con la reproducción del vídeo. Si tiene algún comentario o petición, póngase en contacto con nosotros mediante este formulario de contacto.

https://forms.gle/WvT1wiN1qDtmnspy7