What we learned from 5 million books

Что мы узнали из 5 миллионов книг

236,259 views ・ 2011-09-20

TED


Пожалуйста, дважды щелкните на английские субтитры ниже, чтобы воспроизвести видео.

Переводчик: Aliaksandr Autayeu Редактор: Alexandra Egorova
00:15
Erez Lieberman Aiden: Everyone knows
0
15260
2000
Эрез Либерман Айден: Все знают,
00:17
that a picture is worth a thousand words.
1
17260
3000
что картинка стоит тысячи слов.
00:22
But we at Harvard
2
22260
2000
Но мы в Гарварде
00:24
were wondering if this was really true.
3
24260
3000
сомневались, правда ли это.
00:27
(Laughter)
4
27260
2000
(Смех)
00:29
So we assembled a team of experts,
5
29260
4000
Поэтому мы собрали команду экспертов
00:33
spanning Harvard, MIT,
6
33260
2000
из Гарварда, МТИ,
00:35
The American Heritage Dictionary, The Encyclopedia Britannica
7
35260
3000
Словаря Американского Наследия, Энциклопедии Британника,
00:38
and even our proud sponsors,
8
38260
2000
и даже нашего гордого спонсора —
00:40
the Google.
9
40260
3000
Google.
00:43
And we cogitated about this
10
43260
2000
Мы обдумывали это
00:45
for about four years.
11
45260
2000
примерно четыре года.
00:47
And we came to a startling conclusion.
12
47260
5000
И пришли к поразительному умозаключению.
00:52
Ladies and gentlemen, a picture is not worth a thousand words.
13
52260
3000
Дамы и господа, картинка не стоит тысячи слов.
00:55
In fact, we found some pictures
14
55260
2000
Мы нашли некоторые картинки,
00:57
that are worth 500 billion words.
15
57260
5000
которые стоят 500 миллиардов слов.
01:02
Jean-Baptiste Michel: So how did we get to this conclusion?
16
62260
2000
Жан-Баптист Мишель: Как мы пришли к этому заключению?
01:04
So Erez and I were thinking about ways
17
64260
2000
Эрез и я размышляли о том,
01:06
to get a big picture of human culture
18
66260
2000
как получить общий план человеческой культуры и истории:
01:08
and human history: change over time.
19
68260
3000
изменения с течением времени.
01:11
So many books actually have been written over the years.
20
71260
2000
За годы были написаны многие книги.
01:13
So we were thinking, well the best way to learn from them
21
73260
2000
И мы подумали, что лучшим способом их изучить
01:15
is to read all of these millions of books.
22
75260
2000
будет прочитать все эти миллионы книг.
01:17
Now of course, if there's a scale for how awesome that is,
23
77260
3000
Если бы была шкала, насколько круто бы это было,
01:20
that has to rank extremely, extremely high.
24
80260
3000
то это было бы очень, очень круто.
01:23
Now the problem is there's an X-axis for that,
25
83260
2000
Итак, для этого есть ось X,
01:25
which is the practical axis.
26
85260
2000
практическая ось.
01:27
This is very, very low.
27
87260
2000
Это очень, очень низко.
01:29
(Applause)
28
89260
3000
(Аплодисменты)
01:32
Now people tend to use an alternative approach,
29
92260
3000
Сейчас люди предпочитают другой подход, состоящий в том,
01:35
which is to take a few sources and read them very carefully.
30
95260
2000
чтобы взять несколько источников, и прочитать их очень внимательно.
01:37
This is extremely practical, but not so awesome.
31
97260
2000
Это очень практично, но не так круто.
01:39
What you really want to do
32
99260
3000
На самом деле хочется
01:42
is to get to the awesome yet practical part of this space.
33
102260
3000
добраться до практичной, но крутой части этого пространства.
01:45
So it turns out there was a company across the river called Google
34
105260
3000
Оказывается, напротив, через реку, есть компания Google,
01:48
who had started a digitization project a few years back
35
108260
2000
которая несколько лет назад начала проект оцифровки,
01:50
that might just enable this approach.
36
110260
2000
который может позволить это сделать.
01:52
They have digitized millions of books.
37
112260
2000
Они оцифровали миллионы книг.
01:54
So what that means is, one could use computational methods
38
114260
3000
Это означает, что можно использовать вычислительные методы
01:57
to read all of the books in a click of a button.
39
117260
2000
для прочтения всех этих книжек за один щелчок мыши.
01:59
That's very practical and extremely awesome.
40
119260
3000
Это очень практично и невероятно круто.
02:03
ELA: Let me tell you a little bit about where books come from.
41
123260
2000
ЭЛА: Давайте я расскажу о происхождении книг.
02:05
Since time immemorial, there have been authors.
42
125260
3000
С незапамятных времён, были авторы.
02:08
These authors have been striving to write books.
43
128260
3000
Авторы изо всех сил стремились писать книги.
02:11
And this became considerably easier
44
131260
2000
С изобретением печатного станка несколько веков назад
02:13
with the development of the printing press some centuries ago.
45
133260
2000
это стало заметно легче.
02:15
Since then, the authors have won
46
135260
3000
С тех пор авторы победили
02:18
on 129 million distinct occasions,
47
138260
2000
в 129 миллионах случаев
02:20
publishing books.
48
140260
2000
публикации книг.
02:22
Now if those books are not lost to history,
49
142260
2000
Если эти книги не затерялись в истории,
02:24
then they are somewhere in a library,
50
144260
2000
они хранятся где-то в какой-то библиотеке,
02:26
and many of those books have been getting retrieved from the libraries
51
146260
3000
и многие из этих книг были извлечены из библиотек
02:29
and digitized by Google,
52
149260
2000
и оцифрованы компанией Google,
02:31
which has scanned 15 million books to date.
53
151260
2000
которая на сегодня просканировала 15 миллионов книг.
02:33
Now when Google digitizes a book, they put it into a really nice format.
54
153260
3000
Когда компания Google оцифровывает книгу, они сохраняют её в очень удобном формате.
02:36
Now we've got the data, plus we have metadata.
55
156260
2000
У нас есть данные и есть метаданные.
02:38
We have information about things like where was it published,
56
158260
3000
У нас есть сведения о том, где книга была опубликована,
02:41
who was the author, when was it published.
57
161260
2000
кто её автор, когда она была опубликована.
02:43
And what we do is go through all of those records
58
163260
3000
Мы прошлись по всем этим записям,
02:46
and exclude everything that's not the highest quality data.
59
166260
4000
и исключили всё, кроме данных наивысшего качества.
02:50
What we're left with
60
170260
2000
Таким образом,
02:52
is a collection of five million books,
61
172260
3000
осталась коллекция из 5 миллионов книг,
02:55
500 billion words,
62
175260
3000
500 миллиардов слов,
02:58
a string of characters a thousand times longer
63
178260
2000
строка символов в тысячу раз длиннее,
03:00
than the human genome --
64
180260
3000
чем геном человека —
03:03
a text which, when written out,
65
183260
2000
если написать этот текст,
03:05
would stretch from here to the Moon and back
66
185260
2000
то он протянется до Луны и обратно
03:07
10 times over --
67
187260
2000
10 раз —
03:09
a veritable shard of our cultural genome.
68
189260
4000
настоящий осколок культурного генома.
03:13
Of course what we did
69
193260
2000
Естественно, мы сделали
03:15
when faced with such outrageous hyperbole ...
70
195260
3000
перед лицом такой вопиющей гиперболы...
03:18
(Laughter)
71
198260
2000
(Смех)
03:20
was what any self-respecting researchers
72
200260
3000
то, что сделал бы любой
03:23
would have done.
73
203260
3000
уважающий себя ученый.
03:26
We took a page out of XKCD,
74
206260
2000
Мы взяли страницу из XKDC
03:28
and we said, "Stand back.
75
208260
2000
и сказали: «Разойдись,
03:30
We're going to try science."
76
210260
2000
мы займёмся наукой».
03:32
(Laughter)
77
212260
2000
(Смех)
03:34
JM: Now of course, we were thinking,
78
214260
2000
ЖМ: Конечно, мы подумали,
03:36
well let's just first put the data out there
79
216260
2000
давайте сначала сделаем данные доступными
03:38
for people to do science to it.
80
218260
2000
для людей, которые применят к ним науку.
03:40
Now we're thinking, what data can we release?
81
220260
2000
И мы подумали, какие данные мы может опубликовать?
03:42
Well of course, you want to take the books
82
222260
2000
Конечно, хотелось взять и опубликовать
03:44
and release the full text of these five million books.
83
224260
2000
полные тексты всех этих пяти миллионов книг.
03:46
Now Google, and Jon Orwant in particular,
84
226260
2000
Google, и Джон Орвант в частности,
03:48
told us a little equation that we should learn.
85
228260
2000
научили нас небольшому уравнению.
03:50
So you have five million, that is, five million authors
86
230260
3000
Итак, есть пять миллионов, значит пять миллионов авторов
03:53
and five million plaintiffs is a massive lawsuit.
87
233260
3000
и пять миллионов истцов равняется огромная судебная тяжба.
03:56
So, although that would be really, really awesome,
88
236260
2000
И, хотя это было бы очень, просто нереально круто,
03:58
again, that's extremely, extremely impractical.
89
238260
3000
опять же, это очень, просто нереально непрактично.
04:01
(Laughter)
90
241260
2000
(Смех)
04:03
Now again, we kind of caved in,
91
243260
2000
Что ж, мы вроде как поддались,
04:05
and we did the very practical approach, which was a bit less awesome.
92
245260
3000
и подошли к делу очень практично, хоть и не так круто.
04:08
We said, well instead of releasing the full text,
93
248260
2000
Мы сказали, что вместо публикации полных текстов,
04:10
we're going to release statistics about the books.
94
250260
2000
мы опубликуем статистику о книгах.
04:12
So take for instance "A gleam of happiness."
95
252260
2000
Возьмём, например, «A gleam of happiness »
04:14
It's four words; we call that a four-gram.
96
254260
2000
Это четыре слова, мы называем это 4-грамма.
04:16
We're going to tell you how many times a particular four-gram
97
256260
2000
Мы скажем, как часто именно эта 4-грамма
04:18
appeared in books in 1801, 1802, 1803,
98
258260
2000
появлялась в книгах в 1801-м, 1802-м, 1803-м,
04:20
all the way up to 2008.
99
260260
2000
и так далее вплоть до 2008-го.
04:22
That gives us a time series
100
262260
2000
Это даст временной ряд частоты использования
04:24
of how frequently this particular sentence was used over time.
101
264260
2000
именно этой фразы с течением времени.
04:26
We do that for all the words and phrases that appear in those books,
102
266260
3000
Мы проделываем это для всех слов и фраз, появляющихся в этих книгах,
04:29
and that gives us a big table of two billion lines
103
269260
3000
и это даёт большую таблицу в два миллиарда строк,
04:32
that tell us about the way culture has been changing.
104
272260
2000
которые говорят нам, каким образом изменялась культура.
04:34
ELA: So those two billion lines,
105
274260
2000
ЭЛА: Эти два миллиарда строк,
04:36
we call them two billion n-grams.
106
276260
2000
мы называем их два миллиарда N-грамм.
04:38
What do they tell us?
107
278260
2000
Что они нам говорят?
04:40
Well the individual n-grams measure cultural trends.
108
280260
2000
Отдельные N-граммы измеряют культурные тенденции.
04:42
Let me give you an example.
109
282260
2000
Позвольте привести пример.
04:44
Let's suppose that I am thriving,
110
284260
2000
Предположим, я процветаю сегодня,
04:46
then tomorrow I want to tell you about how well I did.
111
286260
2000
и завтра хочу рассказать вам, как мне было хорошо.
04:48
And so I might say, "Yesterday, I throve."
112
288260
3000
Я могу сказать: «Вчера я процветал [throve]».
04:51
Alternatively, I could say, "Yesterday, I thrived."
113
291260
3000
По-другому, я могу сказать: «Вчера я процветал [thrived]».
04:54
Well which one should I use?
114
294260
3000
Какой вариант мне использовать?
04:57
How to know?
115
297260
2000
Как узнать?
04:59
As of about six months ago,
116
299260
2000
Примерно шесть месяцев назад,
05:01
the state of the art in this field
117
301260
2000
положение дел в этой области
05:03
is that you would, for instance,
118
303260
2000
было таким, что можно было, например,
05:05
go up to the following psychologist with fabulous hair,
119
305260
2000
подойти к психологу с поразительной стрижкой
05:07
and you'd say,
120
307260
2000
и спросить:
05:09
"Steve, you're an expert on the irregular verbs.
121
309260
3000
«Стив, ты эксперт по неправильным глаголам.
05:12
What should I do?"
122
312260
2000
Как мне быть?»
05:14
And he'd tell you, "Well most people say thrived,
123
314260
2000
А он бы ответил: «Большая часть людей сказала бы процветал [thrive],
05:16
but some people say throve."
124
316260
3000
но некоторые скажут процветал [throve]».
05:19
And you also knew, more or less,
125
319260
2000
Как известно, более или менее,
05:21
that if you were to go back in time 200 years
126
321260
3000
если вернуться на 200 лет назад,
05:24
and ask the following statesman with equally fabulous hair,
127
324260
3000
и спросить вот этого политика, с не менее поразительной стрижкой,
05:27
(Laughter)
128
327260
3000
(Смех)
05:30
"Tom, what should I say?"
129
330260
2000
«Том, как нужно говорить?»
05:32
He'd say, "Well, in my day, most people throve,
130
332260
2000
Он бы ответил: «В мои дни большая часть людей процветала [throve],
05:34
but some thrived."
131
334260
3000
но некоторые процветали [thrived]».
05:37
So now what I'm just going to show you is raw data.
132
337260
2000
Я вам покажу необработанные данные.
05:39
Two rows from this table of two billion entries.
133
339260
4000
Две строки из таблицы в два миллиарда строк.
05:43
What you're seeing is year by year frequency
134
343260
2000
Здесь показана, год за годом,
05:45
of "thrived" and "throve" over time.
135
345260
3000
частота слов «процветал [thrived]» и «процветал [throve]».
05:49
Now this is just two
136
349260
2000
И это всего лишь два
05:51
out of two billion rows.
137
351260
3000
из двух миллиардов строк.
05:54
So the entire data set
138
354260
2000
Весь набор данных
05:56
is a billion times more awesome than this slide.
139
356260
3000
в миллиард раз круче, чем этот слайд.
05:59
(Laughter)
140
359260
2000
(Смех)
06:01
(Applause)
141
361260
4000
(Аплодисменты)
06:05
JM: Now there are many other pictures that are worth 500 billion words.
142
365260
2000
ЖМ: Есть много других картинок, которые стоят 500 миллиардов слов.
06:07
For instance, this one.
143
367260
2000
Например, вот эта.
06:09
If you just take influenza,
144
369260
2000
Если взять грипп,
06:11
you will see peaks at the time where you knew
145
371260
2000
можно видеть пики в то время,
06:13
big flu epidemics were killing people around the globe.
146
373260
3000
когда эпидемии гриппа убивали людей по всему миру.
06:16
ELA: If you were not yet convinced,
147
376260
3000
ЭЛА: Если это вас не убеждает,
06:19
sea levels are rising,
148
379260
2000
уровень моря поднимается,
06:21
so is atmospheric CO2 and global temperature.
149
381260
3000
а также содержание углекислого газа в атмосфере и мировая температура.
06:24
JM: You might also want to have a look at this particular n-gram,
150
384260
3000
ЖМ: А также можно посмотреть на вот эту N-грамму,
06:27
and that's to tell Nietzsche that God is not dead,
151
387260
3000
и сказать Ницше, что Бог не мёртв,
06:30
although you might agree that he might need a better publicist.
152
390260
3000
хотя можно согласиться, что ему нужен лучший публицист.
06:33
(Laughter)
153
393260
2000
(Смех)
06:35
ELA: You can get at some pretty abstract concepts with this sort of thing.
154
395260
3000
ЭЛА: С помощью этого инструмента можно добраться до довольно таки абстрактных концепций.
06:38
For instance, let me tell you the history
155
398260
2000
Например, позвольте рассказать
06:40
of the year 1950.
156
400260
2000
историю 1950-го года.
06:42
Pretty much for the vast majority of history,
157
402260
2000
На протяжении большей части истории
06:44
no one gave a damn about 1950.
158
404260
2000
1950-й вообще никого не волновал.
06:46
In 1700, in 1800, in 1900,
159
406260
2000
В 1700-х, 1800-х, 1900-х
06:48
no one cared.
160
408260
3000
никто им не интересовался.
06:52
Through the 30s and 40s,
161
412260
2000
В течение 30-х и 40-х
06:54
no one cared.
162
414260
2000
никто им не интересовался.
06:56
Suddenly, in the mid-40s,
163
416260
2000
Внезапно, в середине 40-х,
06:58
there started to be a buzz.
164
418260
2000
началось обсуждение.
07:00
People realized that 1950 was going to happen,
165
420260
2000
Люди поняли, что скоро наступит 1950-й,
07:02
and it could be big.
166
422260
2000
и это будет событие.
07:04
(Laughter)
167
424260
3000
(Смех)
07:07
But nothing got people interested in 1950
168
427260
3000
Но ничто не интересовало людей сильнее в 1950-м,
07:10
like the year 1950.
169
430260
3000
чем сам 1950-й.
07:13
(Laughter)
170
433260
3000
(Смех)
07:16
People were walking around obsessed.
171
436260
2000
Люди помешались.
07:18
They couldn't stop talking
172
438260
2000
Они не могли прекратить
07:20
about all the things they did in 1950,
173
440260
3000
рассказывать обо всём, что они делали в 1950-м,
07:23
all the things they were planning to do in 1950,
174
443260
3000
обо всём, что они планировали сделать в 1950-м,
07:26
all the dreams of what they wanted to accomplish in 1950.
175
446260
5000
обо всех мечтах, которые они хотели осуществить в 1950-м.
07:31
In fact, 1950 was so fascinating
176
451260
2000
На самом деле, 1950-й был настолько восхитительным,
07:33
that for years thereafter,
177
453260
2000
что годы спустя,
07:35
people just kept talking about all the amazing things that happened,
178
455260
3000
люди продолжали говорить обо всех удивительных событиях, которые случились
07:38
in '51, '52, '53.
179
458260
2000
в 1951-м, 1952-м, 1953-м.
07:40
Finally in 1954,
180
460260
2000
Наконец, в 1954-м,
07:42
someone woke up and realized
181
462260
2000
кто-то осознал,
07:44
that 1950 had gotten somewhat passé.
182
464260
4000
что 1950-й стал старомодным.
07:48
(Laughter)
183
468260
2000
(Смех)
07:50
And just like that, the bubble burst.
184
470260
2000
Вот так пузырь и лопнул.
07:52
(Laughter)
185
472260
2000
(Смех)
07:54
And the story of 1950
186
474260
2000
История 1950-го
07:56
is the story of every year that we have on record,
187
476260
2000
повторяется для каждого года, о котором у нас есть данные,
07:58
with a little twist, because now we've got these nice charts.
188
478260
3000
с небольшим изменением, потому что теперь у нас есть вот эти графики.
08:01
And because we have these nice charts, we can measure things.
189
481260
3000
Благодаря этим графикам, мы можем измерить.
08:04
We can say, "Well how fast does the bubble burst?"
190
484260
2000
Можно сказать: «Как быстро лопаются пузыри?»
08:06
And it turns out that we can measure that very precisely.
191
486260
3000
Оказывается, это можно очень точно измерить.
08:09
Equations were derived, graphs were produced,
192
489260
3000
Уравнения были выведены, графики были построены,
08:12
and the net result
193
492260
2000
и конечным результатом стало то,
08:14
is that we find that the bubble bursts faster and faster
194
494260
3000
что пузыри лопаются быстрее и быстрее
08:17
with each passing year.
195
497260
2000
с каждым прошедшим годом.
08:19
We are losing interest in the past more rapidly.
196
499260
5000
Мы всё быстрее теряем интерес к прошлому.
08:24
JM: Now a little piece of career advice.
197
504260
2000
ЖМ: Небольшой карьерный совет.
08:26
So for those of you who seek to be famous,
198
506260
2000
Для тех из вас, кто стремится к славе,
08:28
we can learn from the 25 most famous political figures,
199
508260
2000
можно научиться у 25-ти самых известных политиков,
08:30
authors, actors and so on.
200
510260
2000
авторов, актёров, и т.д.
08:32
So if you want to become famous early on, you should be an actor,
201
512260
3000
Если вы хотите стать известным рано, вам нужно быть актёром,
08:35
because then fame starts rising by the end of your 20s --
202
515260
2000
потому что слава начинается к концу их третьего десятка —
08:37
you're still young, it's really great.
203
517260
2000
вы всё ещё молоды, это здорово.
08:39
Now if you can wait a little bit, you should be an author,
204
519260
2000
Если вы согласны подождать, вам нужно стать автором,
08:41
because then you rise to very great heights,
205
521260
2000
потому что это позволит подняться на большие высоты,
08:43
like Mark Twain, for instance: extremely famous.
206
523260
2000
как Марк Твен, например, очень знаменит.
08:45
But if you want to reach the very top,
207
525260
2000
Но если вы хотите подняться на самую вершину,
08:47
you should delay gratification
208
527260
2000
нужно отложить удовольствие
08:49
and, of course, become a politician.
209
529260
2000
и конечно, стать политиком.
08:51
So here you will become famous by the end of your 50s,
210
531260
2000
Вы станете известны под конец шестого десятка,
08:53
and become very, very famous afterward.
211
533260
2000
и станете очень, очень знаменитым после.
08:55
So scientists also tend to get famous when they're much older.
212
535260
3000
Учёные тоже становятся знаменитыми, когда они становятся старее.
08:58
Like for instance, biologists and physics
213
538260
2000
Например, биологи и физики
09:00
tend to be almost as famous as actors.
214
540260
2000
становятся примерно такими же знаменитыми, как и актёры.
09:02
One mistake you should not do is become a mathematician.
215
542260
3000
Ошибкой, которую делать не стоит — становиться математиком.
09:05
(Laughter)
216
545260
2000
(Смех)
09:07
If you do that,
217
547260
2000
В этом случае,
09:09
you might think, "Oh great. I'm going to do my best work when I'm in my 20s."
218
549260
3000
можно подумать: «Отлично, свои лучшие работы я сделаю на третьем десятке».
09:12
But guess what, nobody will really care.
219
552260
2000
Но знаете что? Никому это не интересно.
09:14
(Laughter)
220
554260
3000
(Смех)
09:17
ELA: There are more sobering notes
221
557260
2000
ЭЛА: В N-граммах есть
09:19
among the n-grams.
222
559260
2000
ещё более отрезвляющие вещи.
09:21
For instance, here's the trajectory of Marc Chagall,
223
561260
2000
Например, вот траектория Марка Шагала,
09:23
an artist born in 1887.
224
563260
2000
художника, родившегося в 1887-м.
09:25
And this looks like the normal trajectory of a famous person.
225
565260
3000
Выглядит как нормальная траектория знаменитого человека.
09:28
He gets more and more and more famous,
226
568260
4000
Он становится всё более и более знаменитым,
09:32
except if you look in German.
227
572260
2000
за исключением знаменитости среди немецкоговорящих.
09:34
If you look in German, you see something completely bizarre,
228
574260
2000
Если посмотреть на немецкий язык, то можно увидеть что совершенно невообразимое,
09:36
something you pretty much never see,
229
576260
2000
что-то, что видишь не часто —
09:38
which is he becomes extremely famous
230
578260
2000
он становится чрезвычайно знаменитым,
09:40
and then all of a sudden plummets,
231
580260
2000
а затем внезапно падает,
09:42
going through a nadir between 1933 and 1945,
232
582260
3000
проходя надир между 1933-м и 1945-м годами,
09:45
before rebounding afterward.
233
585260
3000
прежде чем вернуться позже.
09:48
And of course, what we're seeing
234
588260
2000
Конечно, здесь мы наблюдаем тот факт,
09:50
is the fact Marc Chagall was a Jewish artist
235
590260
3000
что Марк Шагал был еврейским художником
09:53
in Nazi Germany.
236
593260
2000
в нацистской Германии.
09:55
Now these signals
237
595260
2000
Эти сигналы
09:57
are actually so strong
238
597260
2000
настолько сильны,
09:59
that we don't need to know that someone was censored.
239
599260
3000
что нам не нужно знать, что кто-то подвергался цензуре.
10:02
We can actually figure it out
240
602260
2000
Мы можем это понять,
10:04
using really basic signal processing.
241
604260
2000
используя простейший анализ сигналов.
10:06
Here's a simple way to do it.
242
606260
2000
Вот простой способ это сделать.
10:08
Well, a reasonable expectation
243
608260
2000
Разумно предположить,
10:10
is that somebody's fame in a given period of time
244
610260
2000
что чья-то слава в данный период времени
10:12
should be roughly the average of their fame before
245
612260
2000
должны быть примерно равна среднему славы до
10:14
and their fame after.
246
614260
2000
и славы после.
10:16
So that's sort of what we expect.
247
616260
2000
Это то, что мы ожидаем.
10:18
And we compare that to the fame that we observe.
248
618260
3000
И мы сравним это с тем, что мы наблюдаем.
10:21
And we just divide one by the other
249
621260
2000
Затем делим одно на второе,
10:23
to produce something we call a suppression index.
250
623260
2000
чтобы получить что-то, называемое индекс подавления.
10:25
If the suppression index is very, very, very small,
251
625260
3000
Если индекс подавления очень, очень, очень маленький,
10:28
then you very well might be being suppressed.
252
628260
2000
вероятно, что вас действительно подавляют.
10:30
If it's very large, maybe you're benefiting from propaganda.
253
630260
3000
Если он очень велик, наверное, вас пропагандируют.
10:34
JM: Now you can actually look at
254
634260
2000
ЖМ: Теперь можно посмотреть
10:36
the distribution of suppression indexes over whole populations.
255
636260
3000
на распределение индексов подавления по всёму населению.
10:39
So for instance, here --
256
639260
2000
Например, здесь:
10:41
this suppression index is for 5,000 people
257
641260
2000
это индекс подавления для 5 тысяч людей,
10:43
picked in English books where there's no known suppression --
258
643260
2000
взятых из английских книг, где известно про отсутствие цензуры,
10:45
it would be like this, basically tightly centered on one.
259
645260
2000
он примерно вот такой, сконцентрированный возле единицы.
10:47
What you expect is basically what you observe.
260
647260
2000
Ожидаемое совпадает с наблюдаемым.
10:49
This is distribution as seen in Germany --
261
649260
2000
Это распределение наблюдалось в Германии —
10:51
very different, it's shifted to the left.
262
651260
2000
оно совершенно другое, смещено влево.
10:53
People talked about it twice less as it should have been.
263
653260
3000
Люди говорили об этом в два раза реже, чем должны были.
10:56
But much more importantly, the distribution is much wider.
264
656260
2000
Однако, что более важно, распределение намного шире.
10:58
There are many people who end up on the far left on this distribution
265
658260
3000
О многих людях, которые оказываются на левом краю этого распределения,
11:01
who are talked about 10 times fewer than they should have been.
266
661260
3000
говорят в 10 раз меньше, чем должны.
11:04
But then also many people on the far right
267
664260
2000
Однако многие люди на правом краю
11:06
who seem to benefit from propaganda.
268
666260
2000
пожинают плоды пропаганды.
11:08
This picture is the hallmark of censorship in the book record.
269
668260
3000
Эта картинка — клеймо цензуры на книжной истории.
11:11
ELA: So culturomics
270
671260
2000
ЭЛА: Мы называем этот метод
11:13
is what we call this method.
271
673260
2000
культуромикой.
11:15
It's kind of like genomics.
272
675260
2000
Это как геномика.
11:17
Except genomics is a lens on biology
273
677260
2000
Разве что геномика это линза для биологии,
11:19
through the window of the sequence of bases in the human genome.
274
679260
3000
взгляд сквозь окно последовательностей оснований генома человека.
11:22
Culturomics is similar.
275
682260
2000
Культуромика сходна.
11:24
It's the application of massive-scale data collection analysis
276
684260
3000
Это применение анализа наборов данных огромного масштаба
11:27
to the study of human culture.
277
687260
2000
к изучению человеческой культуры.
11:29
Here, instead of through the lens of a genome,
278
689260
2000
Но взамен линзы генома,
11:31
through the lens of digitized pieces of the historical record.
279
691260
3000
мы смотрим сквозь линзу оцифрованных частиц истории.
11:34
The great thing about culturomics
280
694260
2000
Замечательным аспектом культуромики является то,
11:36
is that everyone can do it.
281
696260
2000
что любой может ею заняться.
11:38
Why can everyone do it?
282
698260
2000
Почему же любой может ею заняться?
11:40
Everyone can do it because three guys,
283
700260
2000
Потому что эти парни,
11:42
Jon Orwant, Matt Gray and Will Brockman over at Google,
284
702260
3000
Джон Орвант, Мэтт Грей и Уилл Брокман из Google,
11:45
saw the prototype of the Ngram Viewer,
285
705260
2000
увидев прототип средства просмотра N-грамм,
11:47
and they said, "This is so fun.
286
707260
2000
сказали: «Это очень весёлая вещь.
11:49
We have to make this available for people."
287
709260
3000
Давайте это опубликуем».
11:52
So in two weeks flat -- the two weeks before our paper came out --
288
712260
2000
Ровно за две недели — за две недели до публикации нашей статьи —
11:54
they coded up a version of the Ngram Viewer for the general public.
289
714260
3000
они запрограммировали публичную версию средства просмотра N-грамм.
11:57
And so you too can type in any word or phrase that you're interested in
290
717260
3000
Теперь и вы можете напечатать любое слово или предложение, которое вас интересует,
12:00
and see its n-gram immediately --
291
720260
2000
и сразу посмотреть его N-граммы,
12:02
also browse examples of all the various books
292
722260
2000
включая просмотр примеров из всех тех разных книг,
12:04
in which your n-gram appears.
293
724260
2000
в которых встречается ваша N-грамма.
12:06
JM: Now this was used over a million times on the first day,
294
726260
2000
ЖМ: В первый же день этим воспользовались более миллиона раз,
12:08
and this is really the best of all the queries.
295
728260
2000
и это — лучшие из всех запросов.
12:10
So people want to be their best, put their best foot forward.
296
730260
3000
Люди хотят показать себя с наилучшей стороны.
12:13
But it turns out in the 18th century, people didn't really care about that at all.
297
733260
3000
Однако оказывается, что в 18-м веке людей это совсем не интересовало.
12:16
They didn't want to be their best, they wanted to be their beft.
298
736260
3000
Они не хотели показать себя с лучшей стороны [best], они хотели показать себя с лучшей штороны [beft].
12:19
So what happened is, of course, this is just a mistake.
299
739260
3000
Как обычно, это была просто ошибка.
12:22
It's not that strove for mediocrity,
300
742260
2000
Это не стремление к посредственности,
12:24
it's just that the S used to be written differently, kind of like an F.
301
744260
3000
просто буква S писалась по-другому, похоже на F.
12:27
Now of course, Google didn't pick this up at the time,
302
747260
3000
Конечно, Google тогда это не отследил,
12:30
so we reported this in the science article that we wrote.
303
750260
3000
поэтому мы отметили это в написанной нами статье.
12:33
But it turns out this is just a reminder
304
753260
2000
Однако оказывается, что это просто напоминание о том, что,
12:35
that, although this is a lot of fun,
305
755260
2000
несмотря на всё веселье,
12:37
when you interpret these graphs, you have to be very careful,
306
757260
2000
при объяснении этих графиков нужно быть очень осторожным,
12:39
and you have to adopt the base standards in the sciences.
307
759260
3000
и нужно применять лучшие научные стандарты.
12:42
ELA: People have been using this for all kinds of fun purposes.
308
762260
3000
ЭЛА: Как только люди этим не пользовались.
12:45
(Laughter)
309
765260
7000
(Смех)
12:52
Actually, we're not going to have to talk,
310
772260
2000
На самом деле, говорить ничего не нужно,
12:54
we're just going to show you all the slides and remain silent.
311
774260
3000
мы просто покажем вам слайды, молча.
12:57
This person was interested in the history of frustration.
312
777260
3000
Этого человека интересовала история расстройств.
13:00
There's various types of frustration.
313
780260
3000
Есть разные типы расстройств.
13:03
If you stub your toe, that's a one A "argh."
314
783260
3000
Если вы ударились большим пальцем, это «ах» с одним А.
13:06
If the planet Earth is annihilated by the Vogons
315
786260
2000
Если планету Земля аннигилировали вогоны,
13:08
to make room for an interstellar bypass,
316
788260
2000
чтобы освободить место для межгалактического туннеля,
13:10
that's an eight A "aaaaaaaargh."
317
790260
2000
это «аааааааах» с восемью А.
13:12
This person studies all the "arghs,"
318
792260
2000
Этот человек изучил все «ахи»,
13:14
from one through eight A's.
319
794260
2000
содержащие от одного до восьми А.
13:16
And it turns out
320
796260
2000
Оказывается,
13:18
that the less-frequent "arghs"
321
798260
2000
наиболее редкими «ахами» являются те,
13:20
are, of course, the ones that correspond to things that are more frustrating --
322
800260
3000
которые относятся к наиболее пугающим вещам,
13:23
except, oddly, in the early 80s.
323
803260
3000
кроме, как ни странно, начала 80-х.
13:26
We think that might have something to do with Reagan.
324
806260
2000
Наверное, Рейган имеет к этому отношение.
13:28
(Laughter)
325
808260
2000
(Смех)
13:30
JM: There are many usages of this data,
326
810260
3000
ЖМ: Эти данные можно использовать по-разному,
13:33
but the bottom line is that the historical record is being digitized.
327
813260
3000
но суть в том, что история оцифровывается.
13:36
Google has started to digitize 15 million books.
328
816260
2000
Google начал оцифровывать 15 миллионов книг.
13:38
That's 12 percent of all the books that have ever been published.
329
818260
2000
Это 12 процентов всех когда-либо напечатанных книг.
13:40
It's a sizable chunk of human culture.
330
820260
3000
Это заметная часть человеческой культуры.
13:43
There's much more in culture: there's manuscripts, there newspapers,
331
823260
3000
Но в культуре намного больше вещей: рукописи, газеты,
13:46
there's things that are not text, like art and paintings.
332
826260
2000
нетекстовые вещи, например искусство и картины.
13:48
These all happen to be on our computers,
333
828260
2000
Всё это оказывается на наших компьютерах,
13:50
on computers across the world.
334
830260
2000
на компьютерах по всему миру.
13:52
And when that happens, that will transform the way we have
335
832260
3000
И когда это случится, это изменит то,
13:55
to understand our past, our present and human culture.
336
835260
2000
как мы понимаем прошлое, настоящее и человеческую культуру.
13:57
Thank you very much.
337
837260
2000
Спасибо большое.
13:59
(Applause)
338
839260
3000
(Аплодисменты)
Об этом сайте

Этот сайт познакомит вас с видеороликами YouTube, полезными для изучения английского языка. Вы увидите уроки английского языка, преподаваемые высококлассными учителями со всего мира. Дважды щелкните по английским субтитрам, отображаемым на каждой странице видео, чтобы воспроизвести видео оттуда. Субтитры прокручиваются синхронно с воспроизведением видео. Если у вас есть какие-либо комментарии или пожелания, пожалуйста, свяжитесь с нами, используя эту контактную форму.

https://forms.gle/WvT1wiN1qDtmnspy7