What we learned from 5 million books

236,151 views ・ 2011-09-20

TED


Ве молиме кликнете двапати на англискиот титл подолу за да го репродуцирате видеото.

Translator: ALEKSANDAR MITEVSKI Reviewer: Biljana Dijanisieva
00:15
Erez Lieberman Aiden: Everyone knows
0
15260
2000
Ерез Либерман Ејден: Сите знаат
00:17
that a picture is worth a thousand words.
1
17260
3000
дека една слика вреди илјада зборови.
00:22
But we at Harvard
2
22260
2000
Но, ние од Харвард
00:24
were wondering if this was really true.
3
24260
3000
се прашувавме дали ова навистина е така.
00:27
(Laughter)
4
27260
2000
(смеа)
00:29
So we assembled a team of experts,
5
29260
4000
Па, составивме тим од експерти
00:33
spanning Harvard, MIT,
6
33260
2000
од Харвард, МИТ,
00:35
The American Heritage Dictionary, The Encyclopedia Britannica
7
35260
3000
Американскиот речник на зборови, Енциклопедија Британика,
00:38
and even our proud sponsors,
8
38260
2000
па дури и од нашиот горд спонзор
00:40
the Google.
9
40260
3000
Гугл.
00:43
And we cogitated about this
10
43260
2000
Внимателно работевме на ова
00:45
for about four years.
11
45260
2000
околу четири години.
00:47
And we came to a startling conclusion.
12
47260
5000
И дојдовме до неверојатен заклучок.
00:52
Ladies and gentlemen, a picture is not worth a thousand words.
13
52260
3000
Дами и господа, сликата не вреди илјада зборови.
00:55
In fact, we found some pictures
14
55260
2000
Всушност, најдовме некои слики
00:57
that are worth 500 billion words.
15
57260
5000
кои вредат 500 милијарди зборови.
01:02
Jean-Baptiste Michel: So how did we get to this conclusion?
16
62260
2000
Жан-Батист Мишел: Како дојдовме до овој заклучок?
01:04
So Erez and I were thinking about ways
17
64260
2000
Јас и Ерез размислувавме како
01:06
to get a big picture of human culture
18
66260
2000
да добиеме голема слика за човечката култура
01:08
and human history: change over time.
19
68260
3000
и човечката историја, за промените низ времето.
01:11
So many books actually have been written over the years.
20
71260
2000
Досега се напишани многу книги
01:13
So we were thinking, well the best way to learn from them
21
73260
2000
и си рековме дека најдобриот начин да учиме од нив
01:15
is to read all of these millions of books.
22
75260
2000
е да ги прочитаме сите тие милиони книги.
01:17
Now of course, if there's a scale for how awesome that is,
23
77260
3000
Се разбира, доколку постои скала на луди нешта,
01:20
that has to rank extremely, extremely high.
24
80260
3000
ова мора да се рангира екстремно високо.
01:23
Now the problem is there's an X-axis for that,
25
83260
2000
Проблемот е што истовремено постои и Х оска,
01:25
which is the practical axis.
26
85260
2000
која е многу практична оска.
01:27
This is very, very low.
27
87260
2000
На неа сме многу ниско.
01:29
(Applause)
28
89260
3000
(аплауз)
01:32
Now people tend to use an alternative approach,
29
92260
3000
Луѓето често користат алтернативен пристап,
01:35
which is to take a few sources and read them very carefully.
30
95260
2000
т.е. земаат неколку извори и ги читаат многу внимателно.
01:37
This is extremely practical, but not so awesome.
31
97260
2000
Ова е многу практично, но не и многу луда работа.
01:39
What you really want to do
32
99260
3000
Она што навистина сакате да го направите
01:42
is to get to the awesome yet practical part of this space.
33
102260
3000
е да дојдете до лудиот, но и практичен дел од овој простор.
01:45
So it turns out there was a company across the river called Google
34
105260
3000
Излезе дека има една компанија преку реката што се вика Гугл,
01:48
who had started a digitization project a few years back
35
108260
2000
која неколку години претходно започнала проект за дигитализација,
01:50
that might just enable this approach.
36
110260
2000
кој би можел да го овозможи овој пристап.
01:52
They have digitized millions of books.
37
112260
2000
Тие имаат дигитализирано милиони книги.
01:54
So what that means is, one could use computational methods
38
114260
3000
Тоа значи дека можат да се користат методи за пресметка
01:57
to read all of the books in a click of a button.
39
117260
2000
кои ќе овозможат читање на сите книги со еден клик.
01:59
That's very practical and extremely awesome.
40
119260
3000
Тоа е многу практично и ептен лудо.
02:03
ELA: Let me tell you a little bit about where books come from.
41
123260
2000
Да ви кажам малку за тоа од каде доаѓаат книгите.
02:05
Since time immemorial, there have been authors.
42
125260
3000
Уште од памтивек постоеле автори,
02:08
These authors have been striving to write books.
43
128260
3000
кои настојувале да пишуваат книги,
02:11
And this became considerably easier
44
131260
2000
што станало значително полесно
02:13
with the development of the printing press some centuries ago.
45
133260
2000
со развојот на машината за печатење пред неколку века.
02:15
Since then, the authors have won
46
135260
3000
Оттогаш, авторите успеале
02:18
on 129 million distinct occasions,
47
138260
2000
во 129 милиони поединечни случаи
02:20
publishing books.
48
140260
2000
да објават книги.
02:22
Now if those books are not lost to history,
49
142260
2000
Доколку овие книги не се изгубени,
02:24
then they are somewhere in a library,
50
144260
2000
тогаш се наоѓаат некаде во некоја библиотека.
02:26
and many of those books have been getting retrieved from the libraries
51
146260
3000
Многу од овие книги
02:29
and digitized by Google,
52
149260
2000
се дигитализирани од страна на Гугл,
02:31
which has scanned 15 million books to date.
53
151260
2000
кој досега има скенирано 15 милиони книги.
02:33
Now when Google digitizes a book, they put it into a really nice format.
54
153260
3000
Кога Гугл дигитализира книга, ја става во навистина убав формат.
02:36
Now we've got the data, plus we have metadata.
55
156260
2000
Сега ги имаме податоците, плус имаме и метаподатоци,
02:38
We have information about things like where was it published,
56
158260
3000
т.е. каде била објавена книгата,
02:41
who was the author, when was it published.
57
161260
2000
кој е авторот, кога била објавена.
02:43
And what we do is go through all of those records
58
163260
3000
Потоа, ги прегледавме сите овие податоци
02:46
and exclude everything that's not the highest quality data.
59
166260
4000
и елиминиравме сè што не е со највисок квалитет.
02:50
What we're left with
60
170260
2000
Она што ни останува
02:52
is a collection of five million books,
61
172260
3000
е колекција од пет милиони книги.
02:55
500 billion words,
62
175260
3000
500 милијарди зборови.
02:58
a string of characters a thousand times longer
63
178260
2000
Низа од знаци илјада пати подолга
03:00
than the human genome --
64
180260
3000
од човечкиот геном -
03:03
a text which, when written out,
65
183260
2000
текст кој, кога би бил испишан,
03:05
would stretch from here to the Moon and back
66
185260
2000
би се протегал од овде до Месечината и назад
03:07
10 times over --
67
187260
2000
10 пати последователно -
03:09
a veritable shard of our cultural genome.
68
189260
4000
вистински сведок на нашиот културолошки геном.
03:13
Of course what we did
69
193260
2000
Се разбира, она што тогаш го направивме,
03:15
when faced with such outrageous hyperbole ...
70
195260
3000
соочени со една ваква безгранична хипербола...
03:18
(Laughter)
71
198260
2000
(смеа)
03:20
was what any self-respecting researchers
72
200260
3000
е она што секои истражувачи со самопочит
03:23
would have done.
73
203260
3000
би го направиле.
03:26
We took a page out of XKCD,
74
206260
2000
Како и во XKCD стриповите,
03:28
and we said, "Stand back.
75
208260
2000
рековме „Настрана, ве молиме.
03:30
We're going to try science."
76
210260
2000
Одиме со наука.“
03:32
(Laughter)
77
212260
2000
(смеа)
03:34
JM: Now of course, we were thinking,
78
214260
2000
Се разбира, си рековме
03:36
well let's just first put the data out there
79
216260
2000
„Ајде, прво да ги објавиме податоците,
03:38
for people to do science to it.
80
218260
2000
за луѓето да можат научно да ги обработат“.
03:40
Now we're thinking, what data can we release?
81
220260
2000
Се прашавме кои податоци да ги објавиме.
03:42
Well of course, you want to take the books
82
222260
2000
Секако, би сакале
03:44
and release the full text of these five million books.
83
224260
2000
да го објавите целиот текст од овие пет милиони книги.
03:46
Now Google, and Jon Orwant in particular,
84
226260
2000
Гугл, а особено Џон Орвант,
03:48
told us a little equation that we should learn.
85
228260
2000
ни кажа една мала равенка што требаше да ја научиме.
03:50
So you have five million, that is, five million authors
86
230260
3000
Значи, имате пет милиони. Тоа се пет милиони автори.
03:53
and five million plaintiffs is a massive lawsuit.
87
233260
3000
А, тоа се пет милиони тужители.
03:56
So, although that would be really, really awesome,
88
236260
2000
И макар што тоа би било навистина супер,
03:58
again, that's extremely, extremely impractical.
89
238260
3000
сепак е многу непрактично.
04:01
(Laughter)
90
241260
2000
(смеа)
04:03
Now again, we kind of caved in,
91
243260
2000
Повторно се предомисливме
04:05
and we did the very practical approach, which was a bit less awesome.
92
245260
3000
и се насочивме кон попрактичниот пристап, кој не е толку луд.
04:08
We said, well instead of releasing the full text,
93
248260
2000
Па, наместо да го објавиме целиот текст,
04:10
we're going to release statistics about the books.
94
250260
2000
решивме да ја објавиме статистиката за книгите.
04:12
So take for instance "A gleam of happiness."
95
252260
2000
Земете, на пример, „Блесок на среќа“.
04:14
It's four words; we call that a four-gram.
96
254260
2000
Тоа се три збора. Ние го викаме три-грам.
04:16
We're going to tell you how many times a particular four-gram
97
256260
2000
Ќе ви покажеме колку пати одреден три-грам
04:18
appeared in books in 1801, 1802, 1803,
98
258260
2000
се појавил во книгите од 1801, 1802, 1803,
04:20
all the way up to 2008.
99
260260
2000
сè до 2008 година.
04:22
That gives us a time series
100
262260
2000
Тоа ни дава временска низа
04:24
of how frequently this particular sentence was used over time.
101
264260
2000
за тоа колку често оваа реченица била користена низ времето.
04:26
We do that for all the words and phrases that appear in those books,
102
266260
3000
Тоа го повторивме со сите зборови и фрази што се појавуваат во овие книги,
04:29
and that gives us a big table of two billion lines
103
269260
3000
и така добивме голема табела од две милијарди низи
04:32
that tell us about the way culture has been changing.
104
272260
2000
кои ни кажуваат како се менувала културата низ времето.
04:34
ELA: So those two billion lines,
105
274260
2000
Значи, имаме две милијарди низи,
04:36
we call them two billion n-grams.
106
276260
2000
или, како што ние ги викаме, два милијарди ен-грами.
04:38
What do they tell us?
107
278260
2000
Што ни кажуваат тие?
04:40
Well the individual n-grams measure cultural trends.
108
280260
2000
Поединечните ен-грами ги мерат културолошките трендови.
04:42
Let me give you an example.
109
282260
2000
Да ви дадам еден пример.
04:44
Let's suppose that I am thriving,
110
284260
2000
Да претпоставиме дека просперирам
04:46
then tomorrow I want to tell you about how well I did.
111
286260
2000
и утре сакам да ви кажам колку добро ми одело.
04:48
And so I might say, "Yesterday, I throve."
112
288260
3000
Можам да речам „Вчера, напредував“.
04:51
Alternatively, I could say, "Yesterday, I thrived."
113
291260
3000
Или, можам да кажам „Вчера, просперирав“.
04:54
Well which one should I use?
114
294260
3000
Кој збор да го употребам?
04:57
How to know?
115
297260
2000
Од каде да знам?
04:59
As of about six months ago,
116
299260
2000
Од пред околу шест месеци,
05:01
the state of the art in this field
117
301260
2000
со најмодерните алатки можете,
05:03
is that you would, for instance,
118
303260
2000
на пример,
05:05
go up to the following psychologist with fabulous hair,
119
305260
2000
да му се обратите на овој психолог со неверојатна фризура
05:07
and you'd say,
120
307260
2000
и да го прашате
05:09
"Steve, you're an expert on the irregular verbs.
121
309260
3000
„Стив, ти си експерт за неправилни глаголи.
05:12
What should I do?"
122
312260
2000
Што да правам?“.
05:14
And he'd tell you, "Well most people say thrived,
123
314260
2000
А, тој ќе ви рече „Па, повеќето луѓе велат просперирав,
05:16
but some people say throve."
124
316260
3000
но некои луѓе велат напредував.“
05:19
And you also knew, more or less,
125
319260
2000
Исто така знаете, повеќе или помалку,
05:21
that if you were to go back in time 200 years
126
321260
3000
дека ако се вратите за 200 години назад во времето
05:24
and ask the following statesman with equally fabulous hair,
127
324260
3000
и го прашате овој државник со еднакво неверојатна фризура...
05:27
(Laughter)
128
327260
3000
(смеа)
05:30
"Tom, what should I say?"
129
330260
2000
„Том, што да правам?“,
05:32
He'd say, "Well, in my day, most people throve,
130
332260
2000
тој ќе ви каже „Па, во мое време, повеќето луѓе напредуваа,
05:34
but some thrived."
131
334260
3000
но некои просперираа“.
05:37
So now what I'm just going to show you is raw data.
132
337260
2000
Сега ќе ви ги покажам необработените податоци.
05:39
Two rows from this table of two billion entries.
133
339260
4000
Два реда од оваа табела со две милијарди записи.
05:43
What you're seeing is year by year frequency
134
343260
2000
Ја гледате фреквенцијата по години
05:45
of "thrived" and "throve" over time.
135
345260
3000
на „просперира“ и „напредува“ низ времето.
05:49
Now this is just two
136
349260
2000
Ова се само два реда
05:51
out of two billion rows.
137
351260
3000
од две милијарди редови.
05:54
So the entire data set
138
354260
2000
Значи, вкупниот сет на податоци
05:56
is a billion times more awesome than this slide.
139
356260
3000
е милијарди пати поневеројатен од овој слајд.
05:59
(Laughter)
140
359260
2000
(смеа)
06:01
(Applause)
141
361260
4000
(аплауз)
06:05
JM: Now there are many other pictures that are worth 500 billion words.
142
365260
2000
Постојат многу други слики кои вредат 500 милијарди зборови.
06:07
For instance, this one.
143
367260
2000
На пример, оваа.
06:09
If you just take influenza,
144
369260
2000
Да го земеме грипот.
06:11
you will see peaks at the time where you knew
145
371260
2000
Ќе видите скокови во времето кога знаете дека
06:13
big flu epidemics were killing people around the globe.
146
373260
3000
големи епидемии на грип убивале многу луѓе низ светот.
06:16
ELA: If you were not yet convinced,
147
376260
3000
Ако сè уште не сте убедени,
06:19
sea levels are rising,
148
379260
2000
нивото на морињата расте,
06:21
so is atmospheric CO2 and global temperature.
149
381260
3000
како и атмосферскиот јаглерод диоксид и глобалната температура.
06:24
JM: You might also want to have a look at this particular n-gram,
150
384260
3000
Можеби ќе сакате да го погледнете и овој ен-грам,
06:27
and that's to tell Nietzsche that God is not dead,
151
387260
3000
за да му кажете на Ниче дека Бог не е мртов,
06:30
although you might agree that he might need a better publicist.
152
390260
3000
иако можеби ќе се согласите дека му треба подобра реклама.
06:33
(Laughter)
153
393260
2000
(смеа)
06:35
ELA: You can get at some pretty abstract concepts with this sort of thing.
154
395260
3000
Можете да налетате на некои прилично апстрактни концепти.
06:38
For instance, let me tell you the history
155
398260
2000
На пример, да ви ја кажам историјата
06:40
of the year 1950.
156
400260
2000
за 1950-тата година.
06:42
Pretty much for the vast majority of history,
157
402260
2000
Претежно во минатото
06:44
no one gave a damn about 1950.
158
404260
2000
на никого не му било гајле за 1950.
06:46
In 1700, in 1800, in 1900,
159
406260
2000
Во 1700, во 1800, во 1900...
06:48
no one cared.
160
408260
3000
на никого не му било гајле.
06:52
Through the 30s and 40s,
161
412260
2000
Низ 30-тите и 40-тите
06:54
no one cared.
162
414260
2000
на никого не му било гајле.
06:56
Suddenly, in the mid-40s,
163
416260
2000
Наеднаш, во средината на 40-тите,
06:58
there started to be a buzz.
164
418260
2000
почнало нешто да се шушка.
07:00
People realized that 1950 was going to happen,
165
420260
2000
Луѓето сфатиле дека ќе се случи 1950 година
07:02
and it could be big.
166
422260
2000
и дека тоа може да биде доста важно.
07:04
(Laughter)
167
424260
3000
(смеа)
07:07
But nothing got people interested in 1950
168
427260
3000
Но, ништо не ги заинтересирало луѓето за 1950 година
07:10
like the year 1950.
169
430260
3000
како годината 1950.
07:13
(Laughter)
170
433260
3000
(смеа)
07:16
People were walking around obsessed.
171
436260
2000
Луѓето шетале наоколу преокупирани.
07:18
They couldn't stop talking
172
438260
2000
Не можеле да престанат да зборуваат
07:20
about all the things they did in 1950,
173
440260
3000
за сите работи кои ги направиле во 1950,
07:23
all the things they were planning to do in 1950,
174
443260
3000
за сите работи што планирале да ги направат во 1950,
07:26
all the dreams of what they wanted to accomplish in 1950.
175
446260
5000
сите соништа за она што сакале да го постигнат во 1950.
07:31
In fact, 1950 was so fascinating
176
451260
2000
Всушност, 1950 била толку фасцинантна
07:33
that for years thereafter,
177
453260
2000
што со години подоцна
07:35
people just kept talking about all the amazing things that happened,
178
455260
3000
луѓето продолжиле да зборуваат за сите неверојатни нешта што се случиле тогаш.
07:38
in '51, '52, '53.
179
458260
2000
Во '51, '52, '53...
07:40
Finally in 1954,
180
460260
2000
Конечно во 1954,
07:42
someone woke up and realized
181
462260
2000
некој се разбудил и сфатил
07:44
that 1950 had gotten somewhat passé.
182
464260
4000
дека 1950 одамна поминала.
07:48
(Laughter)
183
468260
2000
(смеа)
07:50
And just like that, the bubble burst.
184
470260
2000
И така, одеднаш, целата работа спласнала.
07:52
(Laughter)
185
472260
2000
(смеа)
07:54
And the story of 1950
186
474260
2000
Приказната за 1950 година
07:56
is the story of every year that we have on record,
187
476260
2000
е приказната за секоја година што ја имаме евидентирано,
07:58
with a little twist, because now we've got these nice charts.
188
478260
3000
со мала промена, бидејќи сега ги имаме овие убави табели.
08:01
And because we have these nice charts, we can measure things.
189
481260
3000
Па, така, можеме да ги мериме нештата.
08:04
We can say, "Well how fast does the bubble burst?"
190
484260
2000
Може да речеме „Колку брзо спласнала работата?“.
08:06
And it turns out that we can measure that very precisely.
191
486260
3000
Излезе дека многу прецизно можеме да го измериме тоа.
08:09
Equations were derived, graphs were produced,
192
489260
3000
Беа изведени равенки, беа направени графикони,
08:12
and the net result
193
492260
2000
и крајниот резултат
08:14
is that we find that the bubble bursts faster and faster
194
494260
3000
ни говори дека работите спласнуваат сè побрзо и побрзо
08:17
with each passing year.
195
497260
2000
со секоја измината година.
08:19
We are losing interest in the past more rapidly.
196
499260
5000
Сега побрзо губиме интерес за минатото.
08:24
JM: Now a little piece of career advice.
197
504260
2000
Еден мал професионален совет.
08:26
So for those of you who seek to be famous,
198
506260
2000
Оние од вас кои сакаат да бидат славни
08:28
we can learn from the 25 most famous political figures,
199
508260
2000
може да учат од 25-те најславни политички фигури,
08:30
authors, actors and so on.
200
510260
2000
автори, актери и така натаму.
08:32
So if you want to become famous early on, you should be an actor,
201
512260
3000
Ако сакате да станете славни кога сте помлади, треба да бидете актер,
08:35
because then fame starts rising by the end of your 20s --
202
515260
2000
бидејќи кај нив славата врвот го достигнува кон крајот на 20-тите години од животот.
08:37
you're still young, it's really great.
203
517260
2000
Сè уште сте млади, баш супер.
08:39
Now if you can wait a little bit, you should be an author,
204
519260
2000
Ако можете да почекате малку, тогаш треба да бидете автор,
08:41
because then you rise to very great heights,
205
521260
2000
бидејќи тогаш ќе ги достигнете најголемите височини,
08:43
like Mark Twain, for instance: extremely famous.
206
523260
2000
како Марк Твен, на пример. Тој е екстремно славен.
08:45
But if you want to reach the very top,
207
525260
2000
Но, ако сакате да дојдете до самиот врв,
08:47
you should delay gratification
208
527260
2000
тогаш треба да го одложите задоволството
08:49
and, of course, become a politician.
209
529260
2000
и, се разбира, да станете политичар.
08:51
So here you will become famous by the end of your 50s,
210
531260
2000
Тогаш ќе станете славни кон крајот од вашите 50-ти,
08:53
and become very, very famous afterward.
211
533260
2000
а потоа ќе станувате уште пославни.
08:55
So scientists also tend to get famous when they're much older.
212
535260
3000
Научниците, исто така, стануваат славни кога се многу постари.
08:58
Like for instance, biologists and physics
213
538260
2000
Како на пример, биолозите и физичарите
09:00
tend to be almost as famous as actors.
214
540260
2000
можат да бидат славни речиси како актерите.
09:02
One mistake you should not do is become a mathematician.
215
542260
3000
Но, никако не смеете да станете математичар.
09:05
(Laughter)
216
545260
2000
(смеа)
09:07
If you do that,
217
547260
2000
Ако го направите тоа,
09:09
you might think, "Oh great. I'm going to do my best work when I'm in my 20s."
218
549260
3000
ќе си мислите „Супер. Најголемите резултати ќе ги постигнам во моите 20-ти.“
09:12
But guess what, nobody will really care.
219
552260
2000
Но, никому нема да му е гајле.
09:14
(Laughter)
220
554260
3000
(смеа)
09:17
ELA: There are more sobering notes
221
557260
2000
Има и потрезвени податоци
09:19
among the n-grams.
222
559260
2000
помеѓу ен-грамите.
09:21
For instance, here's the trajectory of Marc Chagall,
223
561260
2000
На пример, еве ја траекторијата за Марк Шагал,
09:23
an artist born in 1887.
224
563260
2000
уметник роден во 1887.
09:25
And this looks like the normal trajectory of a famous person.
225
565260
3000
Ова изгледа како нормална траекторија за една славна личност.
09:28
He gets more and more and more famous,
226
568260
4000
Тој станува сè пославен.
09:32
except if you look in German.
227
572260
2000
Но, не ако барате на германски.
09:34
If you look in German, you see something completely bizarre,
228
574260
2000
Ако барате на германски, ќе видите нешто сосема бизарно,
09:36
something you pretty much never see,
229
576260
2000
нешто што ретко се гледа.
09:38
which is he becomes extremely famous
230
578260
2000
Тој станува екстремно славен,
09:40
and then all of a sudden plummets,
231
580260
2000
потоа наеднаш славата му паѓа,
09:42
going through a nadir between 1933 and 1945,
232
582260
3000
достигнувајќи најниска точка од 1933 до 1945,
09:45
before rebounding afterward.
233
585260
3000
пред пак да се врати.
09:48
And of course, what we're seeing
234
588260
2000
Се разбира, од ова гледаме
09:50
is the fact Marc Chagall was a Jewish artist
235
590260
3000
дека Марк Шагал бил еврејски уметник
09:53
in Nazi Germany.
236
593260
2000
во нацистичка Германија.
09:55
Now these signals
237
595260
2000
Овие показатели
09:57
are actually so strong
238
597260
2000
се толку силни,
09:59
that we don't need to know that someone was censored.
239
599260
3000
што не мора да знаеме дали некој бил цензуриран.
10:02
We can actually figure it out
240
602260
2000
Самите може да го откриеме тоа
10:04
using really basic signal processing.
241
604260
2000
преку просто анализирање на показателот.
10:06
Here's a simple way to do it.
242
606260
2000
Еве едноставен начин како да се направи тоа.
10:08
Well, a reasonable expectation
243
608260
2000
Разумно очекување
10:10
is that somebody's fame in a given period of time
244
610260
2000
е дека нечија слава во еден даден временски период
10:12
should be roughly the average of their fame before
245
612260
2000
треба да биде приближно колку и просекот од нивната слава
10:14
and their fame after.
246
614260
2000
пред и по тој период.
10:16
So that's sort of what we expect.
247
616260
2000
Тоа би го очекувале.
10:18
And we compare that to the fame that we observe.
248
618260
3000
Тоа ќе го споредиме со фактичката слава.
10:21
And we just divide one by the other
249
621260
2000
Едното го делиме со другото
10:23
to produce something we call a suppression index.
250
623260
2000
и добиваме т.н. индекс на супресија (потиснување).
10:25
If the suppression index is very, very, very small,
251
625260
3000
Доколку овој индекс е многу, многу мал,
10:28
then you very well might be being suppressed.
252
628260
2000
тогаш веројатно сте биле потиснати.
10:30
If it's very large, maybe you're benefiting from propaganda.
253
630260
3000
Доколку е многу голем, тогаш можеби користите пропаганда.
10:34
JM: Now you can actually look at
254
634260
2000
Можете да ја погледнете
10:36
the distribution of suppression indexes over whole populations.
255
636260
3000
дистрибуцијата на индексите на супресија низ цели популации.
10:39
So for instance, here --
256
639260
2000
На пример, овде...
10:41
this suppression index is for 5,000 people
257
641260
2000
ова е индекс на супресија за 5.000 луѓе
10:43
picked in English books where there's no known suppression --
258
643260
2000
добиен од англиските книги за кои нема супресија.
10:45
it would be like this, basically tightly centered on one.
259
645260
2000
Тој изгледа вака. Во основа, цврсто е центриран на еден.
10:47
What you expect is basically what you observe.
260
647260
2000
Го гледате тоа и што би го очекувале.
10:49
This is distribution as seen in Germany --
261
649260
2000
Оваа дистрибуција е од Германија.
10:51
very different, it's shifted to the left.
262
651260
2000
Многу е различна. Поместена е на лево.
10:53
People talked about it twice less as it should have been.
263
653260
3000
Луѓето за нив зборувале два пати помалку отколку што би требало.
10:56
But much more importantly, the distribution is much wider.
264
656260
2000
Но, што е уште поважно, дистрибуцијата е многу поширока.
10:58
There are many people who end up on the far left on this distribution
265
658260
3000
Има многу луѓе на самиот лев крај од дистрибуцијата,
11:01
who are talked about 10 times fewer than they should have been.
266
661260
3000
за кои е зборувано десет пати помалку одошто е нормално.
11:04
But then also many people on the far right
267
664260
2000
Но, има и многу луѓе на десниот крај,
11:06
who seem to benefit from propaganda.
268
666260
2000
на кои изгледа им помогнала пропаганда.
11:08
This picture is the hallmark of censorship in the book record.
269
668260
3000
Оваа слика е показател за цензурата на книгите.
11:11
ELA: So culturomics
270
671260
2000
Овој метод
11:13
is what we call this method.
271
673260
2000
го нарекуваме културомика.
11:15
It's kind of like genomics.
272
675260
2000
Сличен е на геномиката,
11:17
Except genomics is a lens on biology
273
677260
2000
со таа разлика што со геномиката ја разбираме билогијата,
11:19
through the window of the sequence of bases in the human genome.
274
679260
3000
преку базните секвенци во човечкиот геном.
11:22
Culturomics is similar.
275
682260
2000
Културомиката е слична.
11:24
It's the application of massive-scale data collection analysis
276
684260
3000
Тоа е применета анализа врз податоци од голем размер
11:27
to the study of human culture.
277
687260
2000
со цел да се проучи човечката култура.
11:29
Here, instead of through the lens of a genome,
278
689260
2000
Наместо да гледаме низ призмата на геномот,
11:31
through the lens of digitized pieces of the historical record.
279
691260
3000
овде гледаме низ призмата на дигитализираните историски податоци.
11:34
The great thing about culturomics
280
694260
2000
Она што е супер кај културомиката
11:36
is that everyone can do it.
281
696260
2000
е што секој може да ја примени.
11:38
Why can everyone do it?
282
698260
2000
Зошто?
11:40
Everyone can do it because three guys,
283
700260
2000
Затоа што тројца момци,
11:42
Jon Orwant, Matt Gray and Will Brockman over at Google,
284
702260
3000
Џон Орвант, Мет Греј и Вил Брокман од Гугл,
11:45
saw the prototype of the Ngram Viewer,
285
705260
2000
го видоа прототипот за „Ngram Viewer“
11:47
and they said, "This is so fun.
286
707260
2000
и рекоа „Ова е баш забавно.
11:49
We have to make this available for people."
287
709260
3000
Мора да го направиме достапно за луѓето.“
11:52
So in two weeks flat -- the two weeks before our paper came out --
288
712260
2000
Во период од две недели, пред да излезе нашата статија,
11:54
they coded up a version of the Ngram Viewer for the general public.
289
714260
3000
тие направија верзија на „Ngram Viewer“ наменета за широката јавност.
11:57
And so you too can type in any word or phrase that you're interested in
290
717260
3000
Па, така и вие може да напишете збор или фраза што ве интересираат
12:00
and see its n-gram immediately --
291
720260
2000
и веднаш да го видите ен-грамот за нив.
12:02
also browse examples of all the various books
292
722260
2000
Исто така, можете да ги пребарате и книгите
12:04
in which your n-gram appears.
293
724260
2000
во кои се појавува вашиот ен-грам.
12:06
JM: Now this was used over a million times on the first day,
294
726260
2000
Во само првиот ден оваа алатка беше искористена преку милион пати.
12:08
and this is really the best of all the queries.
295
728260
2000
Тоа е најдоброто од сите пребарувања.
12:10
So people want to be their best, put their best foot forward.
296
730260
3000
Луѓето сакаат да бидат најдобри што можат, да дадат сè од себе.
12:13
But it turns out in the 18th century, people didn't really care about that at all.
297
733260
3000
Но, изгледа дека во 18-тиот век на луѓето воопшто не им било гајле за тоа.
12:16
They didn't want to be their best, they wanted to be their beft.
298
736260
3000
Не сакале да бидат најдобри (beSt), туку најдобли (beFt).
12:19
So what happened is, of course, this is just a mistake.
299
739260
3000
Се разбира ова е само грешка.
12:22
It's not that strove for mediocrity,
300
742260
2000
Не се работи за стремеж кон медиокритет,
12:24
it's just that the S used to be written differently, kind of like an F.
301
744260
3000
туку тогаш буквата S се пишувала поинаку, слично на F.
12:27
Now of course, Google didn't pick this up at the time,
302
747260
3000
Гугл го немаше забележано ова
12:30
so we reported this in the science article that we wrote.
303
750260
3000
и затоа ние го спомнавме во трудот што го објавивме.
12:33
But it turns out this is just a reminder
304
753260
2000
Ова треба да биде само потсетник
12:35
that, although this is a lot of fun,
305
755260
2000
дека, иако ова е многу забавно,
12:37
when you interpret these graphs, you have to be very careful,
306
757260
2000
кога ги интерпретирате графконите мора да бидете многу внимателни
12:39
and you have to adopt the base standards in the sciences.
307
759260
3000
и мора да ги примените основните стандарди на науката.
12:42
ELA: People have been using this for all kinds of fun purposes.
308
762260
3000
Луѓето го користат ова за разни забавни цели.
12:45
(Laughter)
309
765260
7000
(смеа)
12:52
Actually, we're not going to have to talk,
310
772260
2000
Нема потреба да зборуваме.
12:54
we're just going to show you all the slides and remain silent.
311
774260
3000
Само ќе ви ги покажеме слајдовите и ќе молчиме.
12:57
This person was interested in the history of frustration.
312
777260
3000
Овде некој бил заинтересиран за историјата на фрустрацијата.
13:00
There's various types of frustration.
313
780260
3000
Има разни видови на фрустрација.
13:03
If you stub your toe, that's a one A "argh."
314
783260
3000
Ако си го удрите палецот, тоа е „уф“ со едно у.
13:06
If the planet Earth is annihilated by the Vogons
315
786260
2000
Доколку Земјата е уништена од страна на Вогоните
13:08
to make room for an interstellar bypass,
316
788260
2000
за да се изгради меѓуѕвездена обиколница,
13:10
that's an eight A "aaaaaaaargh."
317
790260
2000
тоа е „уф“ со осум у.
13:12
This person studies all the "arghs,"
318
792260
2000
Оваа личност ги проучувала сите видови на „уф“,
13:14
from one through eight A's.
319
794260
2000
со од една до осум букви у.
13:16
And it turns out
320
796260
2000
Се покажало дека
13:18
that the less-frequent "arghs"
321
798260
2000
поретко се користат оние „уф“
13:20
are, of course, the ones that correspond to things that are more frustrating --
322
800260
3000
кои кореспондираат на нештата што се пофрустрирачки,
13:23
except, oddly, in the early 80s.
323
803260
3000
освен, за чудо, во раните 80-ти.
13:26
We think that might have something to do with Reagan.
324
806260
2000
Мислиме дека тоа некако е поврзано со Реган.
13:28
(Laughter)
325
808260
2000
(смеа)
13:30
JM: There are many usages of this data,
326
810260
3000
Овие податоци може да се користат на разни начини,
13:33
but the bottom line is that the historical record is being digitized.
327
813260
3000
но она што е најважно е дека историските записи се дигитализираат.
13:36
Google has started to digitize 15 million books.
328
816260
2000
Гугл започна со дигитализација на 15 милиони книги.
13:38
That's 12 percent of all the books that have ever been published.
329
818260
2000
Тоа се 12 проценти од сите книги што некогаш биле објавени,
13:40
It's a sizable chunk of human culture.
330
820260
3000
што е значаен дел од човечката култура.
13:43
There's much more in culture: there's manuscripts, there newspapers,
331
823260
3000
Но, културата е многу повеќе: имаме ракописи, весници,
13:46
there's things that are not text, like art and paintings.
332
826260
2000
податоци кои не се текстуални, како уметноста и сликите.
13:48
These all happen to be on our computers,
333
828260
2000
Сите тие треба да се најдат на нашите компјутери,
13:50
on computers across the world.
334
830260
2000
на компјутерите низ целиот свет.
13:52
And when that happens, that will transform the way we have
335
832260
3000
Тоа ќе го смени начинот на кој
13:55
to understand our past, our present and human culture.
336
835260
2000
ги разбираме нашето минато, нашата сегашност и човечката култура.
13:57
Thank you very much.
337
837260
2000
Ви благодарам многу.
13:59
(Applause)
338
839260
3000
(аплауз)
About this website

Оваа страница ќе ве запознае со видеата на YouTube кои се корисни за учење англиски јазик. Ќе гледате часови по англиски јазик кои ги учат врвни наставници од целиот свет. Кликнете двапати на англиските преводи прикажани на секоја видео страница за да го репродуцирате видеото од таму. Преводите се движат синхронизирано со репродукцијата на видеото. Ако имате какви било коментари или барања, ве молиме контактирајте не користејќи ја оваа контакт форма.

https://forms.gle/WvT1wiN1qDtmnspy7