What we learned from 5 million books

236,259 views ・ 2011-09-20

TED


Խնդրում ենք կրկնակի սեղմել ստորև ներկայացված անգլերեն ենթագրերի վրա՝ տեսանյութը նվագարկելու համար:

Translator: Ani Latoyan Reviewer: Armenuhy Hovakimyan
00:15
Erez Lieberman Aiden: Everyone knows
0
15260
2000
Էրեզ Լիբերման Էյդն.«Բոլորը գիտեն,
00:17
that a picture is worth a thousand words.
1
17260
3000
որ մի նկարը հազարավոր բառեր արժե:
00:22
But we at Harvard
2
22260
2000
Բայց մենք Հարվարդում
00:24
were wondering if this was really true.
3
24260
3000
կասկածում էինք, արդյոք դա ճիշտ է:
00:27
(Laughter)
4
27260
2000
(Ծիծաղ)
00:29
So we assembled a team of experts,
5
29260
4000
Այդ իսկ պատճառով մենք հավաքեցինք մի խումբ փորձագետների`
00:33
spanning Harvard, MIT,
6
33260
2000
Հարվարդի համալսարանից և Մասաչուսեթսի տեխնոլոգիական ինստիտուտից,
00:35
The American Heritage Dictionary, The Encyclopedia Britannica
7
35260
3000
Ամերիկյան Ժառանգություն Բառարանի և Բրիտանիկա հանրագիտարանի անձնակազմից
00:38
and even our proud sponsors,
8
38260
2000
և նույնիսկ մեր հպարտ հովանավորներից`
00:40
the Google.
9
40260
3000
Google-ին:
00:43
And we cogitated about this
10
43260
2000
Մենք այս մասին մտածել ենք
00:45
for about four years.
11
45260
2000
ավելի քան 4 տարի:
00:47
And we came to a startling conclusion.
12
47260
5000
Եվ հանգեցինք ապշեցուցիչ մի եզրակացության:
00:52
Ladies and gentlemen, a picture is not worth a thousand words.
13
52260
3000
Տիկնայք և պարոնայք, մի նկարը հազարավոր բառ չարժե:
00:55
In fact, we found some pictures
14
55260
2000
Իրականում, մենք գտանք որոշ նկարներ,
00:57
that are worth 500 billion words.
15
57260
5000
որոնք 500 միլիարդ բառ արժեն:
01:02
Jean-Baptiste Michel: So how did we get to this conclusion?
16
62260
2000
Ժան-Բապտիստա Միշել: Ինչպե՞ս մենք եկանք այս եզրակացության:
01:04
So Erez and I were thinking about ways
17
64260
2000
Էրեզը և ես մտածում էինք այն ուղիների մասին,
01:06
to get a big picture of human culture
18
66260
2000
թե ինչպես կարող ենք գտնել մի ընդհանուր պատկեր մարդկության մշակույթի
01:08
and human history: change over time.
19
68260
3000
և պատմության մասին` փոփխված ժամանակի ընթացքում:
01:11
So many books actually have been written over the years.
20
71260
2000
Տարիներ շարունակ շատ գրքեր են գրվել:
01:13
So we were thinking, well the best way to learn from them
21
73260
2000
Եվ մենք կարծում էինք, որ դրանց ուսումնասիրելու ամենալավ եղանակը
01:15
is to read all of these millions of books.
22
75260
2000
այդ միլիոնավոր գրքերը կարդալն է:
01:17
Now of course, if there's a scale for how awesome that is,
23
77260
3000
Իհարկե, եթե լիներ այդ հրաշքը գնահատելու սանդղակ,
01:20
that has to rank extremely, extremely high.
24
80260
3000
այն չափազանց արագ, չափազանց բարձր աճ կունենար:
01:23
Now the problem is there's an X-axis for that,
25
83260
2000
Այժմ խնդիրն այն է, որ դրա համար ունենք X-երի առանցքը,
01:25
which is the practical axis.
26
85260
2000
որը պրակտիկայի առանցք է:
01:27
This is very, very low.
27
87260
2000
Սա շատ, շատ ցածր է:
01:29
(Applause)
28
89260
3000
(Ծափահարություններ)
01:32
Now people tend to use an alternative approach,
29
92260
3000
Այսօր մարդիկ հակված են օգտագործել այլընտրանքային մոտեցում,
01:35
which is to take a few sources and read them very carefully.
30
95260
2000
այն է, վերցնել մի քանի աղբյուրներ և շատ ուշադիր կարդալ դրանք:
01:37
This is extremely practical, but not so awesome.
31
97260
2000
Սա չափազանց գործնական է, բայց ոչ այդքան ապշեցուցիչ:
01:39
What you really want to do
32
99260
3000
Այն, ինչ իրականում ցանկանում եք`
01:42
is to get to the awesome yet practical part of this space.
33
102260
3000
հասնել այս գործընթացի ոչ միայն գործնական, այլ նաև ապշեցուցիչ մասին:
01:45
So it turns out there was a company across the river called Google
34
105260
3000
Փաստորեն, պարզ է դառնում, որ գետի մյուս ափին Google անունով մի ընկերություն կա,
01:48
who had started a digitization project a few years back
35
108260
2000
որ դեռ մի քանի տարի առաջ էր սկսել թվայնացման ծրագիրը,
01:50
that might just enable this approach.
36
110260
2000
որը պարզապես հնարավորություն է տալիս անել դա:
01:52
They have digitized millions of books.
37
112260
2000
Նրանք թվայնացրեցին միլիոնավոր գրքեր:
01:54
So what that means is, one could use computational methods
38
114260
3000
Սա նշանակում է, որ կարելի էր օգտագործել հաշվարկման մեթոդներ`
01:57
to read all of the books in a click of a button.
39
117260
2000
բոլոր գրքերը կարդալու համար` կոճակի մի սեղմումով:
01:59
That's very practical and extremely awesome.
40
119260
3000
Սա իրոք շատ պրակտիկ է և չափազանց ապշեցուցիչ:
02:03
ELA: Let me tell you a little bit about where books come from.
41
123260
2000
Էրեզ: Թույլ տվեք ձեզ մի փոքր պատմեմ գրքերի ստեղծման մասին:
02:05
Since time immemorial, there have been authors.
42
125260
3000
Անհիշելի ժամանակներից կային գրողներ:
02:08
These authors have been striving to write books.
43
128260
3000
Այս գրողները ձգտում էին գրքեր գրել:
02:11
And this became considerably easier
44
131260
2000
Սա Էապես ավելի հեշտացավ
02:13
with the development of the printing press some centuries ago.
45
133260
2000
մի քանի դար առաջ տպագրահաստոցի առաջացումից հետո:
02:15
Since then, the authors have won
46
135260
3000
Դրանից հետո գրողները հաղթեցին.
02:18
on 129 million distinct occasions,
47
138260
2000
129 միլիոն գրքերի
02:20
publishing books.
48
140260
2000
հրատարակման դեպք գրանցվեց:
02:22
Now if those books are not lost to history,
49
142260
2000
Եվ եթե այդ գրքերը պատմության մեջ չեն կորել,
02:24
then they are somewhere in a library,
50
144260
2000
ուրեմն դրանք գրադարաններում ինչ-որ տեղ են պահվում,
02:26
and many of those books have been getting retrieved from the libraries
51
146260
3000
այս գրքերից շատերը գրադարաններից ետ վերցվեցին
02:29
and digitized by Google,
52
149260
2000
և թվայնացվեցին Google-ի կողմից,
02:31
which has scanned 15 million books to date.
53
151260
2000
որն այսօրվա դրությամբ 15 միլիոն գիրք է սկանավորել:
02:33
Now when Google digitizes a book, they put it into a really nice format.
54
153260
3000
Երբ Google-ը թվայնացնում է գրքերը, դրանք իսկապես լավ ձևաչափով են դասակարգվում:
02:36
Now we've got the data, plus we have metadata.
55
156260
2000
Հիմա մենք ունենք տվյալների բազա, դրան գումարած նաև մեթատվյալների բազա:
02:38
We have information about things like where was it published,
56
158260
3000
Մենք գիտենք, թե որտեղ են գրքերը հրատարակվել,
02:41
who was the author, when was it published.
57
161260
2000
ով է հեղինակը, երբ է այն հրատարակվել:
02:43
And what we do is go through all of those records
58
163260
3000
Եվ մենք ուսումնասիրեցինք այդ բոլոր գրառումները`
02:46
and exclude everything that's not the highest quality data.
59
166260
4000
բացառելով բոլոր ոչ բարձրորակ տվյալները:
02:50
What we're left with
60
170260
2000
Այն ինչ մեզ մնաց
02:52
is a collection of five million books,
61
172260
3000
հինգ միլիոն գրքերի հավաքածուն է,
02:55
500 billion words,
62
175260
3000
500 մլրդ բառ,
02:58
a string of characters a thousand times longer
63
178260
2000
հազար անգամ ավելի շատ տարրերով,
03:00
than the human genome --
64
180260
3000
քան մարդու գեներում են,
03:03
a text which, when written out,
65
183260
2000
եթե գրի առնենք այս տեքստը,
03:05
would stretch from here to the Moon and back
66
185260
2000
ապա այն կունենա դեպի լուսին և ետ ճանապարհի երկարությունը
03:07
10 times over --
67
187260
2000
բազմապատկած 10 անգամ,
03:09
a veritable shard of our cultural genome.
68
189260
4000
մշակութային գենի իրական մասնիկ:
03:13
Of course what we did
69
193260
2000
Իհարկե այն, ինչ մենք արեցինք,
03:15
when faced with such outrageous hyperbole ...
70
195260
3000
երբ դեմ առ դեմ կանգնեցին հիպերբոլայի առջև ...
03:18
(Laughter)
71
198260
2000
(Ծիծաղ)
03:20
was what any self-respecting researchers
72
200260
3000
այն էր, ինչ կաներ յուրաքանչյուր
03:23
would have done.
73
203260
3000
իրեն հարգող գիտնական:
03:26
We took a page out of XKCD,
74
206260
2000
Մենք վերցրեցինք XKCD-ից մի էջ
03:28
and we said, "Stand back.
75
208260
2000
և ասացինք. «Ետ քաշվեք:
03:30
We're going to try science."
76
210260
2000
Մենք պատրաստվում ենք գիտությամբ զբաղվել»:
03:32
(Laughter)
77
212260
2000
(Ծիծաղ)
03:34
JM: Now of course, we were thinking,
78
214260
2000
ԺՄ: Իհարկե մենք մտածում էինք,
03:36
well let's just first put the data out there
79
216260
2000
որ առաջնային նպատակը տվյալները հասանելի դարձնել
03:38
for people to do science to it.
80
218260
2000
այն մարդկանց համար, ով գիտությամբ է զբաղվում:
03:40
Now we're thinking, what data can we release?
81
220260
2000
Հիմա մենք մտածում ենք, թե ո՞ր տվյալները կարող ենք թողարկել:
03:42
Well of course, you want to take the books
82
222260
2000
Իհարկե, ցանկություն է առաջանում վերցնել
03:44
and release the full text of these five million books.
83
224260
2000
և միանգամից թողարկել այդ 5 միլիոն գրքերի ամբողջական տեքստերը:
03:46
Now Google, and Jon Orwant in particular,
84
226260
2000
Google-ը, մասնավորապես Ջոն Օրվանթը,
03:48
told us a little equation that we should learn.
85
228260
2000
մեզ մի փոքրիկ հավասարում սովորեցրեց:
03:50
So you have five million, that is, five million authors
86
230260
3000
Այսպիով, դուք ունեք 5 միլիոն, այսինքն` 5 միլիոն գրող,
03:53
and five million plaintiffs is a massive lawsuit.
87
233260
3000
իսկ հինգ միլիոն հայցվորները հավասար են զանգվածային դատական գործի:
03:56
So, although that would be really, really awesome,
88
236260
2000
Այսպես, թեև դա իրոք չափազանց ապշեցուցիչ է,
03:58
again, that's extremely, extremely impractical.
89
238260
3000
մեկ է, այն չափազանց, ծայրահեղ ոչ պրակտիկ է:
04:01
(Laughter)
90
241260
2000
(Ծիծաղ)
04:03
Now again, we kind of caved in,
91
243260
2000
Կարծես մենք զիջում ենք,
04:05
and we did the very practical approach, which was a bit less awesome.
92
245260
3000
և գործին շատ գործնական մոտեցում ցուցաբերեցինք, չնայած մի փոքր պակաս ապշեցուցիչ կերպով:
04:08
We said, well instead of releasing the full text,
93
248260
2000
Մենք ասացինք, որ ամբողջական տեքստը հրապարակելու փոխարեն,
04:10
we're going to release statistics about the books.
94
250260
2000
մենք կհրապարակենք գրքերի մասին վիճակագրությունը:
04:12
So take for instance "A gleam of happiness."
95
252260
2000
Վերցնենք օրինակ, «A gleam of happiness»-ը:
04:14
It's four words; we call that a four-gram.
96
254260
2000
այս բառերը մենք անվանում ենք 4-գրամ
04:16
We're going to tell you how many times a particular four-gram
97
256260
2000
Մենք պատրաստվում ենք ձեզ ցույց տալ, թե քանի անգամ է այս 4-գրամը
04:18
appeared in books in 1801, 1802, 1803,
98
258260
2000
հայտնվել 1801, 1802, 1803 թթ. գրքերում,
04:20
all the way up to 2008.
99
260260
2000
և այսպես մինչև 2008 թ.:
04:22
That gives us a time series
100
262260
2000
Սա մեզ կտա ժամանակային շարքերի հաճախականությունը,
04:24
of how frequently this particular sentence was used over time.
101
264260
2000
թե տվյալ նախադասությունը քանի անգամ է կրկնվել ժամանակի ընթացքում:
04:26
We do that for all the words and phrases that appear in those books,
102
266260
3000
Մենք դա արեցին այն բոլոր բառերի և բառակապակցությունների հետ, որ կային այդ գրքերում
04:29
and that gives us a big table of two billion lines
103
269260
3000
և դա մեզ տվեց 2 միլիարդ տողանի մի մեծ աղյուսակ,
04:32
that tell us about the way culture has been changing.
104
272260
2000
որոնք մեզ հուշում են, թե ինչպիսի փոփոխությունների է ենթարկվել մշակույթը:
04:34
ELA: So those two billion lines,
105
274260
2000
ԷԼԷ: Այսպես, այդ 2 միլիարդ տողերին
04:36
we call them two billion n-grams.
106
276260
2000
մենք անվանում ենք n-գրամ:
04:38
What do they tell us?
107
278260
2000
Ի՞նչ են դրանք մեզ ասում:
04:40
Well the individual n-grams measure cultural trends.
108
280260
2000
Առանձին n-գրամերը չափում են մշակութային տենդենցները:
04:42
Let me give you an example.
109
282260
2000
Թույլ տվեք բերեմ հետևյալ օրինակը:
04:44
Let's suppose that I am thriving,
110
284260
2000
Ենթադրենք, ես հարստացել եմ,
04:46
then tomorrow I want to tell you about how well I did.
111
286260
2000
իսկ վաղը ուզում եմ ձեզ ասել իմ կարգավիճակի մասին:
04:48
And so I might say, "Yesterday, I throve."
112
288260
3000
Այսպիսով, ես պետք է ասեմ. «Երեկ ես բարգավաճեցի (throve)»:
04:51
Alternatively, I could say, "Yesterday, I thrived."
113
291260
3000
Այլ կերպ ես կարող եմ ասել. «Երեկ ես բարգավաճեցի (thrived)»:
04:54
Well which one should I use?
114
294260
3000
Դե, ո՞ր մեկը պետք է օգտագործեմ:
04:57
How to know?
115
297260
2000
Ինչպե՞ս պարզել դա:
04:59
As of about six months ago,
116
299260
2000
Ավելի քան վեց ամիս առաջ
05:01
the state of the art in this field
117
301260
2000
այս ոլորտում արվեստի կարգավիճակը
05:03
is that you would, for instance,
118
303260
2000
այնպիսին էր, որ կարելի էր, օրինակ,
05:05
go up to the following psychologist with fabulous hair,
119
305260
2000
մոտենալ այս գեղեցիկ վարսահարդարմամբ հոգեբանին,
05:07
and you'd say,
120
307260
2000
և հարցնել.
05:09
"Steve, you're an expert on the irregular verbs.
121
309260
3000
«Սթիվ, դուք անկանոն բայերի մասնագետ եք:
05:12
What should I do?"
122
312260
2000
Ի՞նչ անեմ»:
05:14
And he'd tell you, "Well most people say thrived,
123
314260
2000
Եվ նա ձեզ կասի. «Դե, շատերը ասում են բարգավաճեցի (thrived),
05:16
but some people say throve."
124
316260
3000
բայց ոմանք էլ ասում են բարգավաճեցի (throve)»:
05:19
And you also knew, more or less,
125
319260
2000
Բայց դուք նաև քիչ թե շատ գիտեք,
05:21
that if you were to go back in time 200 years
126
321260
3000
որ եթե 200 տարով հետ գնայիք ժամանակի մեջ
05:24
and ask the following statesman with equally fabulous hair,
127
324260
3000
և հարցնեիք այս քաղաքական գործիչին` նույնպես գեղեցիկ վարսահարդարմամբ.
05:27
(Laughter)
128
327260
3000
(Ծիծաղ)
05:30
"Tom, what should I say?"
129
330260
2000
«Թոմ, ի՞նչ պետք է ասեմ»:
05:32
He'd say, "Well, in my day, most people throve,
130
332260
2000
Նա կպատասխաներ. «Այժմ, մարդկանց մեծ մասը օգտագործում է բարգավաճեցի (throve),
05:34
but some thrived."
131
334260
3000
իսկ ոմանք էլ բարգավաճեցի (thrived)»:
05:37
So now what I'm just going to show you is raw data.
132
337260
2000
Այնպես որ, այն ինչ հիմա պատրաստվում եմ ձեզ ցույց տալ պարզապես չմշակված տվյալներ են:
05:39
Two rows from this table of two billion entries.
133
339260
4000
Այս երկու միլիարդ գրառումներով աղյուսակից 2 տող:
05:43
What you're seeing is year by year frequency
134
343260
2000
Այն, ինչ դուք տեսնում եք
05:45
of "thrived" and "throve" over time.
135
345260
3000
«thrived» և «throve»-ի ժամանակի րնթացքում կատարված տարեկան պարբերականն է:
05:49
Now this is just two
136
349260
2000
Իսկ սա ընդամենը երկու բառ է
05:51
out of two billion rows.
137
351260
3000
երկու միլիարդ բառերի շարքից:
05:54
So the entire data set
138
354260
2000
Այնպես որ, ամբողջ տվյալների համախումբը
05:56
is a billion times more awesome than this slide.
139
356260
3000
միլիարդ անգամ ավելի ապշեցուցիչ է, քան այս սլայդը:
05:59
(Laughter)
140
359260
2000
(Ծիծաղ)
06:01
(Applause)
141
361260
4000
(Ծափահարություններ)
06:05
JM: Now there are many other pictures that are worth 500 billion words.
142
365260
2000
ԺՄ: Կան նաև շատ այլ նկարներ, որ 500 միլիարդ բառ արժեն:
06:07
For instance, this one.
143
367260
2000
Օրինակ, այս մեկը:
06:09
If you just take influenza,
144
369260
2000
Եթե դուք հարբուխով հիվանդանաք,
06:11
you will see peaks at the time where you knew
145
371260
2000
կարող եք տեսնել գագաթնակետային վիճակները այն ժամանակ, երբ դուք գիտեիք, որ
06:13
big flu epidemics were killing people around the globe.
146
373260
3000
մեծ գրիպի համաճարակի ընթացքում ամբողջ աշխարհում մարդիկ մահանում էին:
06:16
ELA: If you were not yet convinced,
147
376260
3000
ԷԼԷ. Դուք դեռ չեք համոզվել,
06:19
sea levels are rising,
148
379260
2000
որ ծովի մակարդակը բարձրանում է,
06:21
so is atmospheric CO2 and global temperature.
149
381260
3000
այսպես, ինչպես մթնոլորտայն ածխաթթու գազն ու գլոբալ ջերմաստիճանը
06:24
JM: You might also want to have a look at this particular n-gram,
150
384260
3000
ԺՄ: Դուք նաև կարող եք տեսնել այս որոշակի n-գրամը,
06:27
and that's to tell Nietzsche that God is not dead,
151
387260
3000
իսկ Նիցշեն ասել է, որ Աստված մահացած չէ,
06:30
although you might agree that he might need a better publicist.
152
390260
3000
չնայած կարելի է համաձայնվել, որ նա լավագույն հրապարակախոսի կարիքն ունի:
06:33
(Laughter)
153
393260
2000
(Ծիծաղ)
06:35
ELA: You can get at some pretty abstract concepts with this sort of thing.
154
395260
3000
ԷԼԷ: Այս գործիքի օգնությամբ դուք կարող եք ձեռք բերել բավականին աբստրակտ հասկացություններ:
06:38
For instance, let me tell you the history
155
398260
2000
Օրինակ, թույլ տվեք ձեզ պատմեմ մի պատմություն,
06:40
of the year 1950.
156
400260
2000
որ տեղի է ունեցել 1950 թ-ին:
06:42
Pretty much for the vast majority of history,
157
402260
2000
Պատմության գերակշիռ մասում,
06:44
no one gave a damn about 1950.
158
404260
2000
1950 թ-ը ոչ ոքի չի հետաքրքրել:
06:46
In 1700, in 1800, in 1900,
159
406260
2000
1700-ին 1800-ին 1800-ին
06:48
no one cared.
160
408260
3000
ոչ ոքի դա պետք չէր:
06:52
Through the 30s and 40s,
161
412260
2000
Երեսունականներին և քառասունականներին
06:54
no one cared.
162
414260
2000
նույնպես ոչ ոք չէր մտածում դրա մասին:
06:56
Suddenly, in the mid-40s,
163
416260
2000
Հանկարծակի քառասունականների կեսերին
06:58
there started to be a buzz.
164
418260
2000
ինչ-որ հետաքրքրություն առաջ եկավ:
07:00
People realized that 1950 was going to happen,
165
420260
2000
Մարդիկ հասկացան, որ 1950 թ. մոտենում է,
07:02
and it could be big.
166
422260
2000
և դա կարող է ահռելի իրադարձություն լինել:
07:04
(Laughter)
167
424260
3000
(Ծիծաղ)
07:07
But nothing got people interested in 1950
168
427260
3000
Սակայն ոչինչ չստիպեց մարդկանց հետաքրքրվել 1950 թ-ով այնքան,
07:10
like the year 1950.
169
430260
3000
որքան հենց ինքը` 1950-ը:
07:13
(Laughter)
170
433260
3000
(Ծիծաղ)
07:16
People were walking around obsessed.
171
436260
2000
Մարդիկ խենթացել էին:
07:18
They couldn't stop talking
172
438260
2000
Նրանք անկարող էին լռել
07:20
about all the things they did in 1950,
173
440260
3000
այն ամենի մասին, ինչ արել էին 1950 թ-ին,
07:23
all the things they were planning to do in 1950,
174
443260
3000
այն բոլոր բաների մասին, ինչ նրանք պլանավորում էին անել 1950 թ-ին,
07:26
all the dreams of what they wanted to accomplish in 1950.
175
446260
5000
այն բոլոր երազանքների մասին, ինչ նրանք ցանկանում էին իրականացնել 1950 թ-ին:
07:31
In fact, 1950 was so fascinating
176
451260
2000
Արդյունքում, 1950-ը այնքան հրաշալի էր,
07:33
that for years thereafter,
177
453260
2000
որ տարիներ անց,
07:35
people just kept talking about all the amazing things that happened,
178
455260
3000
մարդիկ շարունակում էին խոսել բոլոր զարմանալի բաների մասին, որ տեղի էր ունեցել,
07:38
in '51, '52, '53.
179
458260
2000
'51-ին, '52-ին, '53-ին:
07:40
Finally in 1954,
180
460260
2000
Վերջապես 1954 թ-ին
07:42
someone woke up and realized
181
462260
2000
ինչ-որ մեկը մի օր արթնացավ և հասկացավ,
07:44
that 1950 had gotten somewhat passé.
182
464260
4000
որ 1950թ. արդեն հնացել է:
07:48
(Laughter)
183
468260
2000
(Ծիծաղ)
07:50
And just like that, the bubble burst.
184
470260
2000
Հենց այնպես, ինչպես փուչիկն է պայթում:
07:52
(Laughter)
185
472260
2000
(Ծիծաղ)
07:54
And the story of 1950
186
474260
2000
Իսկ 1950-ի պատմությունը
07:56
is the story of every year that we have on record,
187
476260
2000
կրկնվում է յուրաքանչյուր տարվա համար, որի մասին մենք ունենք տեղեկություններ,
07:58
with a little twist, because now we've got these nice charts.
188
478260
3000
որոշակի շեղումով, քանի որ հիմա մենք ունենք այս գեղեցիկ գծապատկերները:
08:01
And because we have these nice charts, we can measure things.
189
481260
3000
Շնորհիվ այս հրաշալի գծապատկերների, մենք կարող ենք չափել շատ բաներ:
08:04
We can say, "Well how fast does the bubble burst?"
190
484260
2000
Կարող ենք ասել. «Դե, ին՞չ արագությամբ կարող է փուչիկը պայթել»:
08:06
And it turns out that we can measure that very precisely.
191
486260
3000
Պարզվում է, որ մենք կարող ենք դա ճշտորեն չափել:
08:09
Equations were derived, graphs were produced,
192
489260
3000
Հավասարումները դուրս էին գրվել, գրաֆիկները գծագրվել էին,
08:12
and the net result
193
492260
2000
և արդյունքն այն է, որ
08:14
is that we find that the bubble bursts faster and faster
194
494260
3000
փուչիկները պայթում են ավելի ու ավելի արագ
08:17
with each passing year.
195
497260
2000
յուրաքանչյուր հաջորդ տարում:
08:19
We are losing interest in the past more rapidly.
196
499260
5000
Մենք շատ արագ ենք կորցնում մեր հատաքրքրությունն անցյալի նկատմամբ:
08:24
JM: Now a little piece of career advice.
197
504260
2000
ԺՄ: Իսկ հիմա մի փոքր խորհուրդ կարիերայի վերաբերյալ:
08:26
So for those of you who seek to be famous,
198
506260
2000
Ձեզանից յուրաքանչյուրի համար, ով ձգտում է հայտնի դառնալ,
08:28
we can learn from the 25 most famous political figures,
199
508260
2000
կարող է սովորել 25ից ավելի հայտնի քաղաքական գործիչներից,
08:30
authors, actors and so on.
200
510260
2000
գրողներից, դերասաններից և այլն:
08:32
So if you want to become famous early on, you should be an actor,
201
512260
3000
Եթե դուք ցանկանում եք վաղ տարիքում հայտնի դառնալ, դուք կարող եք դերասան դառնալ,
08:35
because then fame starts rising by the end of your 20s --
202
515260
2000
քանի որ այդ համբավը սկսում է մեծանալ, երբ դուք դեռ 20 տարեկան եք.
08:37
you're still young, it's really great.
203
517260
2000
դուք դեռ երիտասարդ եք և դա հրաշալի է:
08:39
Now if you can wait a little bit, you should be an author,
204
519260
2000
Եթե կարող եք մի փոքր սպասել, դուք կարող եք գրող դառնալ,
08:41
because then you rise to very great heights,
205
521260
2000
քանի որ այդ ժամանակ դուք կհասնեք մեծ բարձունքների,
08:43
like Mark Twain, for instance: extremely famous.
206
523260
2000
ինչպես, օրինակ Մարկ Տվենը, չափազանց հայտնի է:
08:45
But if you want to reach the very top,
207
525260
2000
Բայց եթե դուք ուզում եք հասնել փառքի գագաթնակետին,
08:47
you should delay gratification
208
527260
2000
դուք պետք է հրաժարվեք հաճույքերից
08:49
and, of course, become a politician.
209
529260
2000
և, իհարկե, դառնաք քաղաքագետ:
08:51
So here you will become famous by the end of your 50s,
210
531260
2000
Այս դեպքում դուք հայտնի կլինեք, երբ 50 տարեկան դառնաք,
08:53
and become very, very famous afterward.
211
533260
2000
և շատ, չափազանց հայտնի կլինեք:
08:55
So scientists also tend to get famous when they're much older.
212
535260
3000
Գիտնականները նույնպես հայտնի են դառնում, երբ արդեն շատ ծեր են:
08:58
Like for instance, biologists and physics
213
538260
2000
Օրինակ, կենսաբաններն ու ֆիզիկոսները
09:00
tend to be almost as famous as actors.
214
540260
2000
այնքան հայտնի են, որքան դերասանները:
09:02
One mistake you should not do is become a mathematician.
215
542260
3000
Սխալը, որ պետք չէ թույլ տալ` մաթեմատիկոս դառնալն է:
09:05
(Laughter)
216
545260
2000
(Ծիծաղ)
09:07
If you do that,
217
547260
2000
Այս դեպքում
09:09
you might think, "Oh great. I'm going to do my best work when I'm in my 20s."
218
549260
3000
կարելի է ենթադրել. «Հինալի է, ես իմ ամենալավ աշխատանքը հայտնագործել եմ, երբ ընդամենը 20 տարեկան էի»:
09:12
But guess what, nobody will really care.
219
552260
2000
Բայց գիտեք ինչ, ոչ ոքի դա պետք չէ:
09:14
(Laughter)
220
554260
3000
(Ծիծաղ)
09:17
ELA: There are more sobering notes
221
557260
2000
ԷԼԷ: n-գրամերը շատ ավելի սթափեցնող
09:19
among the n-grams.
222
559260
2000
հատկություններ ունեն:
09:21
For instance, here's the trajectory of Marc Chagall,
223
561260
2000
Օրինակ` ահա Մարկ Շագալի հետագիծը,
09:23
an artist born in 1887.
224
563260
2000
նկարիչ, որ ծնվել է 1887-ին:
09:25
And this looks like the normal trajectory of a famous person.
225
565260
3000
Նա ունի հայտնի մարդու սովորական ուղի:
09:28
He gets more and more and more famous,
226
568260
4000
Նա ավելի և ավելի հայտնի է դառնում,
09:32
except if you look in German.
227
572260
2000
բացառությամբ գերմանախոսների շրջանում,
09:34
If you look in German, you see something completely bizarre,
228
574260
2000
Եթե գերմաներեն լեզվին նայենք, ապա կտեսնենք մի անհնարին բան,
09:36
something you pretty much never see,
229
576260
2000
մի բան, որ հազվադեպ եք տեսնում,
09:38
which is he becomes extremely famous
230
578260
2000
նա դառնում է չափազանց հայտնի,
09:40
and then all of a sudden plummets,
231
580260
2000
այնուհետև, միանգամից նվազում է
09:42
going through a nadir between 1933 and 1945,
232
582260
3000
անցնելով 1933-ի և 1945-ի մրջև գտնվող ծայրահեղ անկման շրջանով,
09:45
before rebounding afterward.
233
585260
3000
շատ ավելի հետ ընկրկելու համար:
09:48
And of course, what we're seeing
234
588260
2000
Իհարկե, այստեղ մենք տեսնում ենք
09:50
is the fact Marc Chagall was a Jewish artist
235
590260
3000
այն փաստը, որ Մարկ Շագալը հրեա նկարիչ էր
09:53
in Nazi Germany.
236
593260
2000
Նացիստական Գերմանիայում:
09:55
Now these signals
237
595260
2000
Այս ազդանշանները
09:57
are actually so strong
238
597260
2000
իրականում այնքան ուժեղ են,
09:59
that we don't need to know that someone was censored.
239
599260
3000
որ մեզ պետք չէ իմանալ, որ ինչ-որ մեկը գրաքննվել է:
10:02
We can actually figure it out
240
602260
2000
Մենք կարող ենք դա հասկանալ`
10:04
using really basic signal processing.
241
604260
2000
օգտագործելով ազդանշանների ամենապարզ վերլուծությունը:
10:06
Here's a simple way to do it.
242
606260
2000
Ահա դա անելու ամենապարզ եղանակը:
10:08
Well, a reasonable expectation
243
608260
2000
Խելամիտ է ենթադրել այն,
10:10
is that somebody's fame in a given period of time
244
610260
2000
որ ինչ-ոչ մեկի փառքը տվյալ ժամանակահատվածում
10:12
should be roughly the average of their fame before
245
612260
2000
պետք է հավասար լինի մինչև նրան և նրանից հետո եղած
10:14
and their fame after.
246
614260
2000
փառքերի միջինին:
10:16
So that's sort of what we expect.
247
616260
2000
Այսինքն, սա հենց այն էր, ինչ մենք սպասում էինք:
10:18
And we compare that to the fame that we observe.
248
618260
3000
Եվ դա մենք կհամեմատենք այն բանի հետ, ինչ հետազոտում ենք:
10:21
And we just divide one by the other
249
621260
2000
Այնուհետև դրանք հարաբերում ենք իրար,
10:23
to produce something we call a suppression index.
250
623260
2000
որպեսզի ստանանք այն, ինչ կոչում ենք ընկճման ինդեքս:
10:25
If the suppression index is very, very, very small,
251
625260
3000
Եթե ընկճման ինդեքսը շատ, շատ, շատ փոքր է,
10:28
then you very well might be being suppressed.
252
628260
2000
ապա հավանականություն կա, որ ձեզ ընկճում են:
10:30
If it's very large, maybe you're benefiting from propaganda.
253
630260
3000
Եթե դա մեծ է, ապա ձեզ, հավանաբար, պրոպագանդում են:
10:34
JM: Now you can actually look at
254
634260
2000
ԺՄ: Իսկ այժմ կարող ենք նայել
10:36
the distribution of suppression indexes over whole populations.
255
636260
3000
ամբողջ բնակչության նկատմամբ ընկճման ինդեքսների բաշխմանը:
10:39
So for instance, here --
256
639260
2000
Օրինակ այստեղ,
10:41
this suppression index is for 5,000 people
257
641260
2000
այս ընկճման ինդեքսը 5000 մարդու համար է`
10:43
picked in English books where there's no known suppression --
258
643260
2000
ընտրված անգլալեզու գրքերից, որտեղ ցենզուրան բացակայում է.
10:45
it would be like this, basically tightly centered on one.
259
645260
2000
դա մոտավորապես այսքան է, կետրոնացված մեկի վրա:
10:47
What you expect is basically what you observe.
260
647260
2000
Այն ինչ դուք սպասում եք, համընկնում է դիտարկումի հետ
10:49
This is distribution as seen in Germany --
261
649260
2000
Այս բաշխումը կատարվել է Գերմանիայում`
10:51
very different, it's shifted to the left.
262
651260
2000
սա լրիվ տարբեր է, փոխանցված դեպի ձախ:
10:53
People talked about it twice less as it should have been.
263
653260
3000
Մարդիկ դրա մասին խոսել են 2 անգամ ավելի քիչ, քան պետք էր:
10:56
But much more importantly, the distribution is much wider.
264
656260
2000
Սակայն այն, ինչ անհրաժեշտ է, ավելի լայն բաշխումն է:
10:58
There are many people who end up on the far left on this distribution
265
658260
3000
Շատ մարդկանց մասին, ովքեր հայտնվում են այս բաշխման ձախ կողմում,
11:01
who are talked about 10 times fewer than they should have been.
266
661260
3000
խոսում են 10 անգամ ավելի քիչ, քան պետք է:
11:04
But then also many people on the far right
267
664260
2000
Իսկ աջ կողմում գտնվող շատ մարդիկ
11:06
who seem to benefit from propaganda.
268
666260
2000
քաղում են պրոպագանդայի պտուղները:
11:08
This picture is the hallmark of censorship in the book record.
269
668260
3000
Այս նկարը գրքի պատմության ցենզուրայի կնիքն է:
11:11
ELA: So culturomics
270
671260
2000
ԷԼԷ: մենք սա անվանում ենք
11:13
is what we call this method.
271
673260
2000
կուլտուրոմիքսի մեթոդ:
11:15
It's kind of like genomics.
272
675260
2000
Սա գենոմիքսի պես բան է:
11:17
Except genomics is a lens on biology
273
677260
2000
Միայն թե գենոմիքսը կենսաբանության ոսպնյակն է հանդիսանում,
11:19
through the window of the sequence of bases in the human genome.
274
679260
3000
մարդու գենի հիմքի հաջորդականության պատուհանից դուրս:
11:22
Culturomics is similar.
275
682260
2000
Կուլտուրոմիքսը նման է սրան:
11:24
It's the application of massive-scale data collection analysis
276
684260
3000
Սա չափազանց մեծ մասշտաբի տվյալների հավաքականի վերլուծության օգտագործումն է`
11:27
to the study of human culture.
277
687260
2000
մարդկության մշակույթը ուսումնասիրելու համար:
11:29
Here, instead of through the lens of a genome,
278
689260
2000
Սակայն, ի հակադրություն սրան, գենի ոսպնյակը
11:31
through the lens of digitized pieces of the historical record.
279
691260
3000
մենք տենում ենք պատմության թվայնացված մասերի ոսպնյակի միջոցով:
11:34
The great thing about culturomics
280
694260
2000
Կուլտուրոմիքսի դրական կողմն այն է,
11:36
is that everyone can do it.
281
696260
2000
որ բոլորը կարող են օգտագործել դա:
11:38
Why can everyone do it?
282
698260
2000
Իսկ ինչո՞ւ բոլորը կարող են դա անել:
11:40
Everyone can do it because three guys,
283
700260
2000
Բոլորը կարող են անել դա, քանի որ 3 հոգի`
11:42
Jon Orwant, Matt Gray and Will Brockman over at Google,
284
702260
3000
Ջոն Օրվանթը, Մետտ Գրեյը և Ուիլ Բրոքմանը Google-ից`
11:45
saw the prototype of the Ngram Viewer,
285
705260
2000
տեսնելով Ngram Viewer-ը,
11:47
and they said, "This is so fun.
286
707260
2000
ասացին. «Սա շատ զվարճալի բան է:
11:49
We have to make this available for people."
287
709260
3000
Մենք պետք է սա բոլորի համար հասնելի դարձնենք»:
11:52
So in two weeks flat -- the two weeks before our paper came out --
288
712260
2000
Ուղիղ երկու շաբաթում, մեր հոդվածի հրատարակումից ընդամենը 2 շաբաթ առաջ,
11:54
they coded up a version of the Ngram Viewer for the general public.
289
714260
3000
նրանք ծրագրավորեցին Ngram Viewer ամբողջ հասարակության համար:
11:57
And so you too can type in any word or phrase that you're interested in
290
717260
3000
Հիմա դուք էլ կարող եք հավաքել ցանկացած բառ կամ նախադասություն, որ ձեզ հետաքրքրում է,
12:00
and see its n-gram immediately --
291
720260
2000
և անմիջապես տեսնել դրա n-գրամը,
12:02
also browse examples of all the various books
292
722260
2000
ներառյալ դրանց օրինակները բազմաթիվ այլ գրքերից,
12:04
in which your n-gram appears.
293
724260
2000
որտեղ հանդիպում ենք n-գրամ:
12:06
JM: Now this was used over a million times on the first day,
294
726260
2000
ԺՄ: Հենց առաջին իսկ օրը դա միլիոն անգամ օգտագործվեց,
12:08
and this is really the best of all the queries.
295
728260
2000
և սա հարցումներից ամենալավն է:
12:10
So people want to be their best, put their best foot forward.
296
730260
3000
Մարդիկ ցանկանում են իրենց ամենալավ կողմը ցույց տալ:
12:13
But it turns out in the 18th century, people didn't really care about that at all.
297
733260
3000
Սակայն պարզ է դառնում, որ 18-րդ դարում դա ընդհանրապես մարդկանց չի հետաքրքրել:
12:16
They didn't want to be their best, they wanted to be their beft.
298
736260
3000
Նրանք չեն ցանկանում իրենց ամենալավ (best) կողմը ցույց տալ, նրանք ցանկանում էին իրենց ամենալաֆ (beft) կողմը ցույց տալ:
12:19
So what happened is, of course, this is just a mistake.
299
739260
3000
Իհարկե,այն ինչ պատահեց, ուղղակի սխալ էր:
12:22
It's not that strove for mediocrity,
300
742260
2000
Դա միջակության ձգտում չէ,
12:24
it's just that the S used to be written differently, kind of like an F.
301
744260
3000
ուղղակի 'Վ' տառը գրվել է այլ կերպ, մի փոքր նման 'Ֆ' տառին:
12:27
Now of course, Google didn't pick this up at the time,
302
747260
3000
Իհարկե այն ժամանակ Google-ը ուշադրություն չդարձրեց դրան,
12:30
so we reported this in the science article that we wrote.
303
750260
3000
այդ պատճառով մենք դա մեր հոդվածում օգտագործեցինք:
12:33
But it turns out this is just a reminder
304
753260
2000
Սակայն պարզ դարձավ, որ սա միայն հիշեցում է,
12:35
that, although this is a lot of fun,
305
755260
2000
որ չնայաց դա զվարճալի է,
12:37
when you interpret these graphs, you have to be very careful,
306
757260
2000
այս գրաֆիկները մեկնաբանելիս, պետք է շատ զգույշ լինել,
12:39
and you have to adopt the base standards in the sciences.
307
759260
3000
և անհրաժեշտ է օգտագործել գիտության լավագույն ​​չափանիշները:
12:42
ELA: People have been using this for all kinds of fun purposes.
308
762260
3000
ԷԼԷ: Մարդիկ ինչ ձևով ասես, որ չեն օգտագործել դա:
12:45
(Laughter)
309
765260
7000
(Ծիծաղ)
12:52
Actually, we're not going to have to talk,
310
772260
2000
Իրականում, ոչինչ պետք չէ ասել,
12:54
we're just going to show you all the slides and remain silent.
311
774260
3000
մենք ցույց կտանք սլայդերը անձայն:
12:57
This person was interested in the history of frustration.
312
777260
3000
Այս մարդուն հետաքրքրել է բացականչությունների պատմությունը:
13:00
There's various types of frustration.
313
780260
3000
Բացականչությունների տարբեր ձևեր կան:
13:03
If you stub your toe, that's a one A "argh."
314
783260
3000
Եթե հարվածել եք ձեր ոտքի բութ մաինը, դա «Ախ» է մեկ Ա-ով:
13:06
If the planet Earth is annihilated by the Vogons
315
786260
2000
Եթե Երկիր մոլորակը ոչնչացվում է Վոգոնների կողմից,
13:08
to make room for an interstellar bypass,
316
788260
2000
որպեսզի տեղ ազատվի միջտիեզերական շրջանցումների համար,
13:10
that's an eight A "aaaaaaaargh."
317
790260
2000
ապա դա «Աաաաաաաախ» է ութ Ա-ով
13:12
This person studies all the "arghs,"
318
792260
2000
Այս մարդը ուսումնասիրել է բոլոր «Ախերը»`
13:14
from one through eight A's.
319
794260
2000
մեկից մինչև ութ Ա պարունակող:
13:16
And it turns out
320
796260
2000
Եվ պարզվում է,
13:18
that the less-frequent "arghs"
321
798260
2000
որ ավելի հազվադեպ «Ախերը»,
13:20
are, of course, the ones that correspond to things that are more frustrating --
322
800260
3000
իհարկե, առավել վախեցնող բաների հետ են կապված.
13:23
except, oddly, in the early 80s.
323
803260
3000
բացառությամբ, ինչը շատ տարօրինակ է, 80-ականների սկզբի:
13:26
We think that might have something to do with Reagan.
324
806260
2000
Միգուցե, Ռեյգանը ինչ-որ կապ ունի սրա հետ:
13:28
(Laughter)
325
808260
2000
(Ծիծաղ)
13:30
JM: There are many usages of this data,
326
810260
3000
ԺՄ: Այս տվյալները կարելի է տարբեր կերպ օգտագործել,
13:33
but the bottom line is that the historical record is being digitized.
327
813260
3000
սակայն խնդրիը պատմական թվայնացման մեջ չէ:
13:36
Google has started to digitize 15 million books.
328
816260
2000
Google-ը սկսել է թվայնացնել 15 միլիոն գիրք:
13:38
That's 12 percent of all the books that have ever been published.
329
818260
2000
Դա երբևէ հրատարակված գրքերի 12 տոկոսն է կազմում:
13:40
It's a sizable chunk of human culture.
330
820260
3000
Դա մարդկույթան մշակույթի զգալի մասն է կազմում:
13:43
There's much more in culture: there's manuscripts, there newspapers,
331
823260
3000
Սակայն մշակույթը իր մեջ շատ ավելին է պարունակում. ձեռագրեր, թերթեր,
13:46
there's things that are not text, like art and paintings.
332
826260
2000
ոչ տեքստային բաներ, ինչպիսին է, օրինակ, արվեստը և նկարչությունը:
13:48
These all happen to be on our computers,
333
828260
2000
Այս ամենը կարող է հայտնվել մեր համակարգիչներում,
13:50
on computers across the world.
334
830260
2000
աշխարհի բոլոր համակարգիչներում:
13:52
And when that happens, that will transform the way we have
335
832260
3000
Եվ երբ սա պատահի, այն կվերափոխի մեր անցյալը, ներկան
13:55
to understand our past, our present and human culture.
336
835260
2000
և մարդկության ապագան ընկալելու մեր պատկերացումները:
13:57
Thank you very much.
337
837260
2000
Շատ շնորհակալություն:
13:59
(Applause)
338
839260
3000
(Ծափահարություններ)
Այս կայքի մասին

Այս կայքը ձեզ կներկայացնի YouTube տեսանյութեր, որոնք օգտակար են անգլերեն սովորելու համար: Դուք կտեսնեք անգլերենի դասեր, որոնք դասավանդում են բարձրակարգ ուսուցիչներ ամբողջ աշխարհից: Կրկնակի սեղմեք յուրաքանչյուր տեսանյութի էջում ցուցադրված անգլերեն ենթագրերի վրա՝ այնտեղից տեսանյութը նվագարկելու համար: Ենթագրերը պտտվում են տեսանյութի նվագարկման հետ համաժամանակյա: Եթե ունեք որևէ մեկնաբանություն կամ հարցում, խնդրում ենք կապվել մեզ հետ՝ օգտագործելով այս կոնտակտային ձևը:

https://forms.gle/WvT1wiN1qDtmnspy7