What we learned from 5 million books

236,154 views ・ 2011-09-20

TED


Моля, кликнете два пъти върху английските субтитри по-долу, за да пуснете видеото.

Translator: Rositsa Kratunkova Reviewer: Darina Stoyanova
00:15
Erez Lieberman Aiden: Everyone knows
0
15260
2000
Ерез Лийберман Айден: Всеки знае,
00:17
that a picture is worth a thousand words.
1
17260
3000
че една картина струва хиляда думи.
00:22
But we at Harvard
2
22260
2000
Но ние от Харвард
00:24
were wondering if this was really true.
3
24260
3000
се чудехме дали това наистина е вярно.
00:27
(Laughter)
4
27260
2000
(Смях)
00:29
So we assembled a team of experts,
5
29260
4000
Затова събрахме екип от експерти,
00:33
spanning Harvard, MIT,
6
33260
2000
който включва Харвард, МИТ,
00:35
The American Heritage Dictionary, The Encyclopedia Britannica
7
35260
3000
Американския речник "Херитидж", енциклопедия "Британика"
00:38
and even our proud sponsors,
8
38260
2000
и дори гордите ни спонсори-
00:40
the Google.
9
40260
3000
Гугъл.
00:43
And we cogitated about this
10
43260
2000
Размишлявахме върху това
00:45
for about four years.
11
45260
2000
около 4 години
00:47
And we came to a startling conclusion.
12
47260
5000
и стигнахме до стряскащ извод.
00:52
Ladies and gentlemen, a picture is not worth a thousand words.
13
52260
3000
Дами и господа, една картина не струва хиляда думи.
00:55
In fact, we found some pictures
14
55260
2000
Всъщност намерихме няколко картини,
00:57
that are worth 500 billion words.
15
57260
5000
които струват 500 милиарда думи.
01:02
Jean-Baptiste Michel: So how did we get to this conclusion?
16
62260
2000
Жан Батист Мишел: Как стигнахме до този извод?
01:04
So Erez and I were thinking about ways
17
64260
2000
Ерез и аз търсихме начини
01:06
to get a big picture of human culture
18
66260
2000
да добием пълна представа за човешката култура
01:08
and human history: change over time.
19
68260
3000
и история-как се променят във времето.
01:11
So many books actually have been written over the years.
20
71260
2000
Много книги са били написани през вековете.
01:13
So we were thinking, well the best way to learn from them
21
73260
2000
Та си мислехме: "Добре, най-добрият начин да се научим от тях
01:15
is to read all of these millions of books.
22
75260
2000
е да прочетем всички тези милиони книги"
01:17
Now of course, if there's a scale for how awesome that is,
23
77260
3000
Разбира се, ако има степен колко невероятно е това,
01:20
that has to rank extremely, extremely high.
24
80260
3000
това трябва да е доста, доста голяма степен.
01:23
Now the problem is there's an X-axis for that,
25
83260
2000
Проблемът е, че има ос Х за това,
01:25
which is the practical axis.
26
85260
2000
която е практическата ос.
01:27
This is very, very low.
27
87260
2000
Това е много, много ниско.
01:29
(Applause)
28
89260
3000
(Аплодисменти)
01:32
Now people tend to use an alternative approach,
29
92260
3000
Сега хората използват алтернативен подход,
01:35
which is to take a few sources and read them very carefully.
30
95260
2000
който включва намирането на няколко източника и прочитането им много внимателно.
01:37
This is extremely practical, but not so awesome.
31
97260
2000
Това е много практично, но не толкова невероятно.
01:39
What you really want to do
32
99260
3000
Това, което наистина искаш да направиш,
01:42
is to get to the awesome yet practical part of this space.
33
102260
3000
е да стигнеш до невероятната, но практична част в тази област.
01:45
So it turns out there was a company across the river called Google
34
105260
3000
Оказва се, че има компания отвъд реката на име Гугъл,
01:48
who had started a digitization project a few years back
35
108260
2000
която е била започнала преди няколко години проект по дигитизация,
01:50
that might just enable this approach.
36
110260
2000
който може и да осъществи този подход.
01:52
They have digitized millions of books.
37
112260
2000
Те са направили електронен вариант на милиони книги.
01:54
So what that means is, one could use computational methods
38
114260
3000
Това означава, че човек може да използва компютърни методи,
01:57
to read all of the books in a click of a button.
39
117260
2000
за да чете всяка книга само с едно кликване.
01:59
That's very practical and extremely awesome.
40
119260
3000
Това е много практично и изключително страхотно.
02:03
ELA: Let me tell you a little bit about where books come from.
41
123260
2000
ЕЛА: Нека Ви кажа малко повече за това, откъде идват книгите.
02:05
Since time immemorial, there have been authors.
42
125260
3000
Имало е писатели още от време оно.
02:08
These authors have been striving to write books.
43
128260
3000
Тези писатели са се опитвали всячески да пишат книги.
02:11
And this became considerably easier
44
131260
2000
И това станало доста по-лесно
02:13
with the development of the printing press some centuries ago.
45
133260
2000
с изобретяването на печатната машина преди няколко века.
02:15
Since then, the authors have won
46
135260
3000
Оттогава писателите са получили
02:18
on 129 million distinct occasions,
47
138260
2000
129 милиона различни възможности
02:20
publishing books.
48
140260
2000
да публикуват книги.
02:22
Now if those books are not lost to history,
49
142260
2000
Ако тези книги не бъдат изгубени някъде в историята,
02:24
then they are somewhere in a library,
50
144260
2000
то те ще бъдат някъде в библиотека
02:26
and many of those books have been getting retrieved from the libraries
51
146260
3000
и много от тези книги биват намирани в библиотеките
02:29
and digitized by Google,
52
149260
2000
и дигитализирани от Гугъл.
02:31
which has scanned 15 million books to date.
53
151260
2000
Гугъл вече е сканирал над 15 милиона книги до този момент.
02:33
Now when Google digitizes a book, they put it into a really nice format.
54
153260
3000
Когато Гугъл дигитализира една книга, те я правят в много добър формат.
02:36
Now we've got the data, plus we have metadata.
55
156260
2000
Сега имаме данните, освен това имаме метаданни.
02:38
We have information about things like where was it published,
56
158260
3000
Имаме информация къде е публикувана,
02:41
who was the author, when was it published.
57
161260
2000
кой е авторът, кога е била публикувана.
02:43
And what we do is go through all of those records
58
163260
3000
Какво направихме ние - прегледахме всички тези архиви
02:46
and exclude everything that's not the highest quality data.
59
166260
4000
и изхвърлихме всичко, което не е най-високо качество.
02:50
What we're left with
60
170260
2000
Това, което получихме,
02:52
is a collection of five million books,
61
172260
3000
е една колекция от 5 милиона книги,
02:55
500 billion words,
62
175260
3000
500 милиарда думи,
02:58
a string of characters a thousand times longer
63
178260
2000
наниз от знаци хиляда пъти по-дълъг
03:00
than the human genome --
64
180260
3000
от човешкия геном-
03:03
a text which, when written out,
65
183260
2000
текст, който ако бъде написан,
03:05
would stretch from here to the Moon and back
66
185260
2000
ще е дълъг от тук до Луната и обратно,
03:07
10 times over --
67
187260
2000
умножено по 10 пъти-
03:09
a veritable shard of our cultural genome.
68
189260
4000
истински къс от нашия културен геном.
03:13
Of course what we did
69
193260
2000
Разбира се, това, което направихме,
03:15
when faced with such outrageous hyperbole ...
70
195260
3000
изправени пред толкова голяма хипербола,
03:18
(Laughter)
71
198260
2000
(Смях)
03:20
was what any self-respecting researchers
72
200260
3000
беше това, което всеки себеуважаващ се изследовател
03:23
would have done.
73
203260
3000
би направил.
03:26
We took a page out of XKCD,
74
206260
2000
Взехме една страница от ХКСД
03:28
and we said, "Stand back.
75
208260
2000
и казахме: "Стойте назад!
03:30
We're going to try science."
76
210260
2000
Ще изпробваваме наука."
03:32
(Laughter)
77
212260
2000
(Смях)
03:34
JM: Now of course, we were thinking,
78
214260
2000
ЖМ: Сега, разбира се, си мислим
03:36
well let's just first put the data out there
79
216260
2000
първо да направим данните свободни,
03:38
for people to do science to it.
80
218260
2000
за да могат хората да правят наука с тях.
03:40
Now we're thinking, what data can we release?
81
220260
2000
Мислим си какви данни можем да направим достъпни?
03:42
Well of course, you want to take the books
82
222260
2000
Разбира се, че искате да вземете книгите
03:44
and release the full text of these five million books.
83
224260
2000
и да пуснете пълните текстове на тези 5 милиона книги по нета.
03:46
Now Google, and Jon Orwant in particular,
84
226260
2000
Гугъл и Джон Оруънт най-вече
03:48
told us a little equation that we should learn.
85
228260
2000
ни казаха едно малко уравнение, което трябва да научим.
03:50
So you have five million, that is, five million authors
86
230260
3000
И така, имаш 5 милиона книги, което е 5 милиона автора,
03:53
and five million plaintiffs is a massive lawsuit.
87
233260
3000
а 5 милиона ищци е един голям съдебен процес.
03:56
So, although that would be really, really awesome,
88
236260
2000
И въпреки че това би било наистина много, много готино,
03:58
again, that's extremely, extremely impractical.
89
238260
3000
отново, това е много, много непрактично.
04:01
(Laughter)
90
241260
2000
(Смях)
04:03
Now again, we kind of caved in,
91
243260
2000
Отново ние леко отстъпихме
04:05
and we did the very practical approach, which was a bit less awesome.
92
245260
3000
и предприехме практичния подход, който беше по-малко готин.
04:08
We said, well instead of releasing the full text,
93
248260
2000
Казахме си: "Добре, вместо да пуснем пълния текст,
04:10
we're going to release statistics about the books.
94
250260
2000
ще пуснем в интернет пространството статистика за книгите.
04:12
So take for instance "A gleam of happiness."
95
252260
2000
Така, вземете например "Лъч щастие".
04:14
It's four words; we call that a four-gram.
96
254260
2000
това са 4 думи, наричаме това 4-грама.
04:16
We're going to tell you how many times a particular four-gram
97
256260
2000
Ще ви кажем колко пъти точно определена 4-грама
04:18
appeared in books in 1801, 1802, 1803,
98
258260
2000
се е появявал в книги от 1801, 1802, 1803,
04:20
all the way up to 2008.
99
260260
2000
чак до 2008.
04:22
That gives us a time series
100
262260
2000
Това ни дава времеви серии,
04:24
of how frequently this particular sentence was used over time.
101
264260
2000
посочващи колко пъти точно това изречение е било използвано във времето.
04:26
We do that for all the words and phrases that appear in those books,
102
266260
3000
Направихме това за всички думи и фрази, които се появяват в тези книги.
04:29
and that gives us a big table of two billion lines
103
269260
3000
Това ни дава една голяма таблица от 2 милиарда реда,
04:32
that tell us about the way culture has been changing.
104
272260
2000
която ни казва как културата ни се е променяла.
04:34
ELA: So those two billion lines,
105
274260
2000
ЕЛА: Тези 2 милиарда реда
04:36
we call them two billion n-grams.
106
276260
2000
наричаме 2 милиарда н-грами.
04:38
What do they tell us?
107
278260
2000
Какво ни казват те?
04:40
Well the individual n-grams measure cultural trends.
108
280260
2000
Индивидуалните н-грамови измерват културните тенденции.
04:42
Let me give you an example.
109
282260
2000
Нека ви дам един пример.
04:44
Let's suppose that I am thriving,
110
284260
2000
Нека предположим, че аз преуспявам.
04:46
then tomorrow I want to tell you about how well I did.
111
286260
2000
Утре искам да ви кажа колко добре се справих.
04:48
And so I might say, "Yesterday, I throve."
112
288260
3000
И така, може да кажа: "Вчера успях."
04:51
Alternatively, I could say, "Yesterday, I thrived."
113
291260
3000
Алтернативно мога да кажа: "Вчера преуспях."
04:54
Well which one should I use?
114
294260
3000
Добре, кое да използвам?
04:57
How to know?
115
297260
2000
Как да разбера?
04:59
As of about six months ago,
116
299260
2000
От преди около 6 месеца
05:01
the state of the art in this field
117
301260
2000
състоянието на изкуството в тази сфера
05:03
is that you would, for instance,
118
303260
2000
би било такова, например,
05:05
go up to the following psychologist with fabulous hair,
119
305260
2000
че да ви накара да отидете при психолог с невероятна коса
05:07
and you'd say,
120
307260
2000
и да кажете:
05:09
"Steve, you're an expert on the irregular verbs.
121
309260
3000
"Стийв, ти си експерт по неправилни глаголи.
05:12
What should I do?"
122
312260
2000
Какво да правя?"
05:14
And he'd tell you, "Well most people say thrived,
123
314260
2000
И той би ви казал: "Повечето хора казват успях,
05:16
but some people say throve."
124
316260
3000
но някои хора казват преуспях."
05:19
And you also knew, more or less,
125
319260
2000
И ти знаеше малко или много,
05:21
that if you were to go back in time 200 years
126
321260
3000
че ако се върнеш назад 200 години
05:24
and ask the following statesman with equally fabulous hair,
127
324260
3000
и попиташ същия човек със също толкова хубава коса,
05:27
(Laughter)
128
327260
3000
(Смях)
05:30
"Tom, what should I say?"
129
330260
2000
"Том, какво би трябвало да кажа?"
05:32
He'd say, "Well, in my day, most people throve,
130
332260
2000
Той би ви отговорил: "По мое време повечето хора успяваха,
05:34
but some thrived."
131
334260
3000
но някои преуспяха."
05:37
So now what I'm just going to show you is raw data.
132
337260
2000
Сега ще ви покажа само сухи данни.
05:39
Two rows from this table of two billion entries.
133
339260
4000
Два реда от тази таблица с 2 милиарда реда.
05:43
What you're seeing is year by year frequency
134
343260
2000
Това, което виждате, е година след година използване
05:45
of "thrived" and "throve" over time.
135
345260
3000
на "успял" и "преуспял" през времето.
05:49
Now this is just two
136
349260
2000
Това са само 2
05:51
out of two billion rows.
137
351260
3000
от 2 милиарда реда.
05:54
So the entire data set
138
354260
2000
Цялата база данни
05:56
is a billion times more awesome than this slide.
139
356260
3000
е един милиард пъти по-готина от този слайд.
05:59
(Laughter)
140
359260
2000
(Смях)
06:01
(Applause)
141
361260
4000
(Аплодисменти)
06:05
JM: Now there are many other pictures that are worth 500 billion words.
142
365260
2000
ЖМ: Има много други картини, които струват 500 милиарда думи.
06:07
For instance, this one.
143
367260
2000
Например, тази.
06:09
If you just take influenza,
144
369260
2000
Ако вземете инфлуенца,
06:11
you will see peaks at the time where you knew
145
371260
2000
ще надникнете във времето, когато сте знаели, че
06:13
big flu epidemics were killing people around the globe.
146
373260
3000
големи епидемии са убивали хора по целия глобус.
06:16
ELA: If you were not yet convinced,
147
376260
3000
ЕЛА: Ако още не сте убеден
06:19
sea levels are rising,
148
379260
2000
нивото на морското равнище се покачва,
06:21
so is atmospheric CO2 and global temperature.
149
381260
3000
както и атмосферният въглероден двуокис и глобалната температура.
06:24
JM: You might also want to have a look at this particular n-gram,
150
384260
3000
ЖМ: Може би искате да видите и точно тази н-грама
06:27
and that's to tell Nietzsche that God is not dead,
151
387260
3000
и това е за да кажем на Ницше, че Господ не е мъртъв,
06:30
although you might agree that he might need a better publicist.
152
390260
3000
въпреки че ще се съгласите, че ще се нуждае от по-добър публицист.
06:33
(Laughter)
153
393260
2000
(Смях)
06:35
ELA: You can get at some pretty abstract concepts with this sort of thing.
154
395260
3000
ЕЛА: Може да достигнете до някои доста абстрактни идеи с този начин на мислене.
06:38
For instance, let me tell you the history
155
398260
2000
Например, нека ви кажа историята
06:40
of the year 1950.
156
400260
2000
на 1950 година.
06:42
Pretty much for the vast majority of history,
157
402260
2000
Горе-долу за по-голямата част от историята
06:44
no one gave a damn about 1950.
158
404260
2000
на никой не му пукаше за 1950.
06:46
In 1700, in 1800, in 1900,
159
406260
2000
През 1700, 1800, 1900
06:48
no one cared.
160
408260
3000
никой не се интересуваше.
06:52
Through the 30s and 40s,
161
412260
2000
През 30-те и 40-те години
06:54
no one cared.
162
414260
2000
на никой не му пукаше.
06:56
Suddenly, in the mid-40s,
163
416260
2000
Изведнъж, по средата на 40-те
06:58
there started to be a buzz.
164
418260
2000
започна едно шумене.
07:00
People realized that 1950 was going to happen,
165
420260
2000
Хората осъзнаха, че 1950 ще се случи
07:02
and it could be big.
166
422260
2000
и че може би ще е голямо.
07:04
(Laughter)
167
424260
3000
(Смях)
07:07
But nothing got people interested in 1950
168
427260
3000
Но нищо не заинтересова хората през 1950
07:10
like the year 1950.
169
430260
3000
така, както годината 1950.
07:13
(Laughter)
170
433260
3000
(Смях)
07:16
People were walking around obsessed.
171
436260
2000
Хората ходеха наоколо обсебени.
07:18
They couldn't stop talking
172
438260
2000
Не можеха да спрат да говорят
07:20
about all the things they did in 1950,
173
440260
3000
за всичките неща, които са направили през тази година.
07:23
all the things they were planning to do in 1950,
174
443260
3000
за всичките неща, които са смятали да направят през 1950,
07:26
all the dreams of what they wanted to accomplish in 1950.
175
446260
5000
за всичките мечти, които са искали да постигнат през 1950.
07:31
In fact, 1950 was so fascinating
176
451260
2000
Всъщност,1950 беше толкова пленителна,
07:33
that for years thereafter,
177
453260
2000
че за години напред
07:35
people just kept talking about all the amazing things that happened,
178
455260
3000
хората продължаваха да говорят за всичките невероятни неща, които са се случили
07:38
in '51, '52, '53.
179
458260
2000
през 1951, 1952, 1953.
07:40
Finally in 1954,
180
460260
2000
Най-накрая през 1954
07:42
someone woke up and realized
181
462260
2000
някой се събуди и осъзна, че
07:44
that 1950 had gotten somewhat passé.
182
464260
4000
1950 е минала някакси пасивно,
07:48
(Laughter)
183
468260
2000
(Смях)
07:50
And just like that, the bubble burst.
184
470260
2000
И просто така балонът се спука.
07:52
(Laughter)
185
472260
2000
(Смях)
07:54
And the story of 1950
186
474260
2000
А историята на 1950
07:56
is the story of every year that we have on record,
187
476260
2000
е историята на всяка година, която имаме в архив,
07:58
with a little twist, because now we've got these nice charts.
188
478260
3000
с малък обрат, защото сега имаме тези хубави таблици.
08:01
And because we have these nice charts, we can measure things.
189
481260
3000
И защото имаме тези таблици, можем да измерваме неща.
08:04
We can say, "Well how fast does the bubble burst?"
190
484260
2000
Можем да кажем: "Колко бързо се пука балонът?"
08:06
And it turns out that we can measure that very precisely.
191
486260
3000
И се оказва, че можем да измерим това доста бързо.
08:09
Equations were derived, graphs were produced,
192
489260
3000
Изведохме уравнения, направихме диаграми
08:12
and the net result
193
492260
2000
и чистият резултат
08:14
is that we find that the bubble bursts faster and faster
194
494260
3000
е, че балонът се пука по-бързо и по-бързо
08:17
with each passing year.
195
497260
2000
с всяка следваща година.
08:19
We are losing interest in the past more rapidly.
196
499260
5000
Загубваме интерес в миналото все по-бързо.
08:24
JM: Now a little piece of career advice.
197
504260
2000
ЖМ: И сега един малък съвет относно кариерата.
08:26
So for those of you who seek to be famous,
198
506260
2000
За тези от вас, които искат да станат известни,
08:28
we can learn from the 25 most famous political figures,
199
508260
2000
могат да се поучат от 25 от най-известните политици,
08:30
authors, actors and so on.
200
510260
2000
писатели, актьори и т.н.
08:32
So if you want to become famous early on, you should be an actor,
201
512260
3000
Затова ако искате да станете известен на по-ранен етап, трябва да станете актьор,
08:35
because then fame starts rising by the end of your 20s --
202
515260
2000
защото при тях славата расте от края на 20-те им години.
08:37
you're still young, it's really great.
203
517260
2000
Все още сте млад, невероятно е.
08:39
Now if you can wait a little bit, you should be an author,
204
519260
2000
Ако може да чакате, трябва да станете писател,
08:41
because then you rise to very great heights,
205
521260
2000
защото тогава се изкачвате до големи висоти,
08:43
like Mark Twain, for instance: extremely famous.
206
523260
2000
като Марк Твен, например: изключително известен.
08:45
But if you want to reach the very top,
207
525260
2000
Но ако искате да достигнете до самия връх,
08:47
you should delay gratification
208
527260
2000
трябва да отложите овациите
08:49
and, of course, become a politician.
209
529260
2000
и, разбира се, да станете политик.
08:51
So here you will become famous by the end of your 50s,
210
531260
2000
Така ще станете известен към края на 50-те си години
08:53
and become very, very famous afterward.
211
533260
2000
и ще станете много, много известен след това.
08:55
So scientists also tend to get famous when they're much older.
212
535260
3000
Учените също стават популярни, когато остареят много.
08:58
Like for instance, biologists and physics
213
538260
2000
Например, биолози и физици
09:00
tend to be almost as famous as actors.
214
540260
2000
стават почти толкова известни, колкото актьорите.
09:02
One mistake you should not do is become a mathematician.
215
542260
3000
Една грешка, която не трябва да допускте, е да станете математици.
09:05
(Laughter)
216
545260
2000
(Смях)
09:07
If you do that,
217
547260
2000
Ако направите това,
09:09
you might think, "Oh great. I'm going to do my best work when I'm in my 20s."
218
549260
3000
може да си помислите: "О, страхотно, ще създам най-добрия си труд, когато съм на 20."
09:12
But guess what, nobody will really care.
219
552260
2000
Но познайте какво, на никого няма да му пука.
09:14
(Laughter)
220
554260
3000
(Смях)
09:17
ELA: There are more sobering notes
221
557260
2000
ЕЛА: Има по-изтрезвяващи бележки
09:19
among the n-grams.
222
559260
2000
сред н-грамите.
09:21
For instance, here's the trajectory of Marc Chagall,
223
561260
2000
Например, ето траекторията на Марк Шагал,
09:23
an artist born in 1887.
224
563260
2000
артист, роден през 1887.
09:25
And this looks like the normal trajectory of a famous person.
225
565260
3000
И това изглежда като нормалната траектория на един известен човек.
09:28
He gets more and more and more famous,
226
568260
4000
Той става по-известен, и по-известен, и по-известен
09:32
except if you look in German.
227
572260
2000
освен ако не гледате в немския език.
09:34
If you look in German, you see something completely bizarre,
228
574260
2000
Ако гледате в немския език, ще забележите нещо много странно,
09:36
something you pretty much never see,
229
576260
2000
нещо, което почти не се забелязва никъде,
09:38
which is he becomes extremely famous
230
578260
2000
е това че той става много известен
09:40
and then all of a sudden plummets,
231
580260
2000
и изведнъж тръгва стремглаво надолу,
09:42
going through a nadir between 1933 and 1945,
232
582260
3000
и стига до най-ниската точка между 1933 и 1945,
09:45
before rebounding afterward.
233
585260
3000
преди да се отблъсне отново.
09:48
And of course, what we're seeing
234
588260
2000
И разбира се, това, което наблюдаваме,
09:50
is the fact Marc Chagall was a Jewish artist
235
590260
3000
е фактът, че Марк Шагал е бил еврейски артист
09:53
in Nazi Germany.
236
593260
2000
в нацистка Германия.
09:55
Now these signals
237
595260
2000
Тези сигнали
09:57
are actually so strong
238
597260
2000
са толкова силни,
09:59
that we don't need to know that someone was censored.
239
599260
3000
че не ни трябва да знаем, че някой е бил цензуриран.
10:02
We can actually figure it out
240
602260
2000
Всъщност можем да достигнем до този извод,
10:04
using really basic signal processing.
241
604260
2000
като използваме елементарно преработване на сигналите.
10:06
Here's a simple way to do it.
242
606260
2000
Ето един лесен начин да го направите.
10:08
Well, a reasonable expectation
243
608260
2000
Е, разумното очакване
10:10
is that somebody's fame in a given period of time
244
610260
2000
е, че славата на някого в даден период от време
10:12
should be roughly the average of their fame before
245
612260
2000
би трябвало да бъде грубо средното от тяхната слава преди
10:14
and their fame after.
246
614260
2000
и след.
10:16
So that's sort of what we expect.
247
616260
2000
Та, това е горе-долу какво очакваме.
10:18
And we compare that to the fame that we observe.
248
618260
3000
И сравняваме това със славата, която наблюдаваме
10:21
And we just divide one by the other
249
621260
2000
и просто разделяме едната на другата,
10:23
to produce something we call a suppression index.
250
623260
2000
за да получим нещо, което наричаме индекс на потискане.
10:25
If the suppression index is very, very, very small,
251
625260
3000
Ако този индекс е много, много, много малък,
10:28
then you very well might be being suppressed.
252
628260
2000
тогава може би сте потиснати.
10:30
If it's very large, maybe you're benefiting from propaganda.
253
630260
3000
Ако е много голям, тогава най-вероятно се възползвате от пропаганда.
10:34
JM: Now you can actually look at
254
634260
2000
ЖМ: Сега може да наблюдавате
10:36
the distribution of suppression indexes over whole populations.
255
636260
3000
разпределението на тези индекси сред цели народи.
10:39
So for instance, here --
256
639260
2000
Например, тук-
10:41
this suppression index is for 5,000 people
257
641260
2000
този индекс на потискане е за 5 000 души,
10:43
picked in English books where there's no known suppression --
258
643260
2000
избрани от английски книги, къдете няма познат натиск-
10:45
it would be like this, basically tightly centered on one.
259
645260
2000
би било така-силно концентриран върху един.
10:47
What you expect is basically what you observe.
260
647260
2000
Това, което очаквате, е горе-долу това, което наблюдавате.
10:49
This is distribution as seen in Germany --
261
649260
2000
Това е разпределение, както в Германия-
10:51
very different, it's shifted to the left.
262
651260
2000
много различно, изместено вляво.
10:53
People talked about it twice less as it should have been.
263
653260
3000
Хората говореха за него 2 пъти по-малко, а и така е трябвало да бъде.
10:56
But much more importantly, the distribution is much wider.
264
656260
2000
Но много по-важно е, че разпространението е трябвало да бъде по-обширно.
10:58
There are many people who end up on the far left on this distribution
265
658260
3000
Има много хора, които попадат в крайно ляво при това разпределение.
11:01
who are talked about 10 times fewer than they should have been.
266
661260
3000
И за тях се е говорило 10 пъти по-малко, отколкото е трябвало.
11:04
But then also many people on the far right
267
664260
2000
Но пък тогава много хора в крайно дясно
11:06
who seem to benefit from propaganda.
268
666260
2000
изглежда имат полза от пропаганда.
11:08
This picture is the hallmark of censorship in the book record.
269
668260
3000
Тази картина е характерна черта за цензура в книгите.
11:11
ELA: So culturomics
270
671260
2000
ЕЛА: Наричаме културомикс
11:13
is what we call this method.
271
673260
2000
този метод.
11:15
It's kind of like genomics.
272
675260
2000
Прилича на геномикс.
11:17
Except genomics is a lens on biology
273
677260
2000
Само че геномиксът е леща в биологията
11:19
through the window of the sequence of bases in the human genome.
274
679260
3000
през прозорецът на редицата от бази в човешкия геном.
11:22
Culturomics is similar.
275
682260
2000
Културомиксът е подобен.
11:24
It's the application of massive-scale data collection analysis
276
684260
3000
Това е приложението на огромна база данни анализи
11:27
to the study of human culture.
277
687260
2000
за изучаване на човешката култура.
11:29
Here, instead of through the lens of a genome,
278
689260
2000
Тук, вместо през леща на геном,
11:31
through the lens of digitized pieces of the historical record.
279
691260
3000
използваме леща на дигитализирани късове на човешката история.
11:34
The great thing about culturomics
280
694260
2000
Невероятното нещо на културомиксА
11:36
is that everyone can do it.
281
696260
2000
е това, че всеки може да го прави.
11:38
Why can everyone do it?
282
698260
2000
А защо това е така?
11:40
Everyone can do it because three guys,
283
700260
2000
Всеки може да го прави, защото 3 момчета,
11:42
Jon Orwant, Matt Gray and Will Brockman over at Google,
284
702260
3000
Джон Оруънт, Мат Грей и Уил Брокман в Гугъл,
11:45
saw the prototype of the Ngram Viewer,
285
705260
2000
видяха прототипа на Нграм Вюър,
11:47
and they said, "This is so fun.
286
707260
2000
и казаха: "Това е толквоа забавно.
11:49
We have to make this available for people."
287
709260
3000
Трябва да направим това достъпно за хората."
11:52
So in two weeks flat -- the two weeks before our paper came out --
288
712260
2000
И така за 2 седмици -2 седмици, преди да ни излезе докладът,
11:54
they coded up a version of the Ngram Viewer for the general public.
289
714260
3000
те измислиха версия на програмата за широката публика.
11:57
And so you too can type in any word or phrase that you're interested in
290
717260
3000
И така всеки може да напише думата, която го интересува,
12:00
and see its n-gram immediately --
291
720260
2000
и да види нейната н-грама веднага.
12:02
also browse examples of all the various books
292
722260
2000
А също така и да търси примери на най-различни книги,
12:04
in which your n-gram appears.
293
724260
2000
в които се появява н-грамата.
12:06
JM: Now this was used over a million times on the first day,
294
726260
2000
ЖМ: Това беше изпробвано над милион пъти на първия ден
12:08
and this is really the best of all the queries.
295
728260
2000
и това е наистина най-хубавото от всички питания.
12:10
So people want to be their best, put their best foot forward.
296
730260
3000
Хората, които иската да бъдат най-добри, слагат най-добрия си крак напред.
12:13
But it turns out in the 18th century, people didn't really care about that at all.
297
733260
3000
Но изглежда през 18 век на хората не им е пукало за това изобщо.
12:16
They didn't want to be their best, they wanted to be their beft.
298
736260
3000
Те не са искали да са най-добре, а са искали да са най-добрите.
12:19
So what happened is, of course, this is just a mistake.
299
739260
3000
Излиза, че просто е станала грешка.
12:22
It's not that strove for mediocrity,
300
742260
2000
Не е този стремеж за посредственост,
12:24
it's just that the S used to be written differently, kind of like an F.
301
744260
3000
а просто С се е изписвало различно, малко като Ф.
12:27
Now of course, Google didn't pick this up at the time,
302
747260
3000
Но разбира се, Гугъл не са знаели това на времето,
12:30
so we reported this in the science article that we wrote.
303
750260
3000
затова отбелязахме това в научната статия, която написахме.
12:33
But it turns out this is just a reminder
304
753260
2000
Но изглежда това само напомня,
12:35
that, although this is a lot of fun,
305
755260
2000
че въпреки това да е много забавно,
12:37
when you interpret these graphs, you have to be very careful,
306
757260
2000
когато тълкувате тези графи, трябва да сте много внимателни,
12:39
and you have to adopt the base standards in the sciences.
307
759260
3000
и трябва да усвоите основните стандарти в науките.
12:42
ELA: People have been using this for all kinds of fun purposes.
308
762260
3000
ЕЛА: Хората са използвали това за всякакви цели.
12:45
(Laughter)
309
765260
7000
(Смях)
12:52
Actually, we're not going to have to talk,
310
772260
2000
Всъщност, няма да приказваме,
12:54
we're just going to show you all the slides and remain silent.
311
774260
3000
а просто ще ви покажем всичките слайдове и ще замълчим.
12:57
This person was interested in the history of frustration.
312
777260
3000
Този човек се е интересувал от историята на раздразнението.
13:00
There's various types of frustration.
313
780260
3000
Има различни видове раздразнение.
13:03
If you stub your toe, that's a one A "argh."
314
783260
3000
Ако си прободеш пръста на крака, това е "Ауч" с едно A.
13:06
If the planet Earth is annihilated by the Vogons
315
786260
2000
Ако Земята бъде унищожена от Вогони,
13:08
to make room for an interstellar bypass,
316
788260
2000
за да направят път за междузвезден път,
13:10
that's an eight A "aaaaaaaargh."
317
790260
2000
това е "Aааааааргхх" с 8 А-та.
13:12
This person studies all the "arghs,"
318
792260
2000
Този човек изучава всички А-та,
13:14
from one through eight A's.
319
794260
2000
от едно до осем.
13:16
And it turns out
320
796260
2000
Излиза, че
13:18
that the less-frequent "arghs"
321
798260
2000
по-малко използваното "аргх"
13:20
are, of course, the ones that correspond to things that are more frustrating --
322
800260
3000
са, разбира се, тези, които съответстват на неща, които са по-дразнещи,
13:23
except, oddly, in the early 80s.
323
803260
3000
освен, странно, през 80-те.
13:26
We think that might have something to do with Reagan.
324
806260
2000
Мислим, че това има нещо общо с Рейгън.
13:28
(Laughter)
325
808260
2000
(Смях)
13:30
JM: There are many usages of this data,
326
810260
3000
ЖМ: Тези данни имат много приложения,
13:33
but the bottom line is that the historical record is being digitized.
327
813260
3000
но най-важното е, че историческте архиви се дигитализират.
13:36
Google has started to digitize 15 million books.
328
816260
2000
Гугъл е започнал да прави това с 15 милиона книги.
13:38
That's 12 percent of all the books that have ever been published.
329
818260
2000
Това са 12% от всички публикувани книги.
13:40
It's a sizable chunk of human culture.
330
820260
3000
Това е огромен къс от човешката култура.
13:43
There's much more in culture: there's manuscripts, there newspapers,
331
823260
3000
Има много повече в културата: ръкописи, вестници,
13:46
there's things that are not text, like art and paintings.
332
826260
2000
неща, които не са текстове, като изкуството и картините.
13:48
These all happen to be on our computers,
333
828260
2000
Всичко това е на нашите компютри,
13:50
on computers across the world.
334
830260
2000
на компютри по целия свят.
13:52
And when that happens, that will transform the way we have
335
832260
3000
И когато това се случи, това ще промени начина ни на
13:55
to understand our past, our present and human culture.
336
835260
2000
разбиране на нашето минало, настояще и бъдеще.
13:57
Thank you very much.
337
837260
2000
Благодаря ви много.
13:59
(Applause)
338
839260
3000
(Аплодисменти)
Относно този уебсайт

Този сайт ще ви запознае с видеоклипове в YouTube, които са полезни за изучаване на английски език. Ще видите уроци по английски език, преподавани от първокласни учители от цял свят. Кликнете два пъти върху английските субтитри, показани на всяка страница с видеоклипове, за да възпроизведете видеото оттам. Субтитрите се превъртат в синхрон с възпроизвеждането на видеото. Ако имате някакви коментари или искания, моля, свържете се с нас, като използвате тази форма за контакт.

https://forms.gle/WvT1wiN1qDtmnspy7