What we learned from 5 million books

از 5 میلیون کتاب چه چیزی یادگرفتیم

236,062 views

2011-09-20 ・ TED


New videos

What we learned from 5 million books

از 5 میلیون کتاب چه چیزی یادگرفتیم

236,062 views ・ 2011-09-20

TED


لطفا برای پخش فیلم روی زیرنویس انگلیسی زیر دوبار کلیک کنید.

Translator: Mehdi Yaghoubi Reviewer: Bidel Akbari
00:15
Erez Lieberman Aiden: Everyone knows
0
15260
2000
اریز لیبرمن آیدن: همه می دانند که
00:17
that a picture is worth a thousand words.
1
17260
3000
یک تصویر به اندازه هزاران کلمه ارزش دارد.
00:22
But we at Harvard
2
22260
2000
اما ما در هاروارد
00:24
were wondering if this was really true.
3
24260
3000
می خواستیم به درستی آن پی ببریم.
00:27
(Laughter)
4
27260
2000
(خنده حضار)
00:29
So we assembled a team of experts,
5
29260
4000
برای همین تیمی از متخصصان تشکیل دادیم،
00:33
spanning Harvard, MIT,
6
33260
2000
از هاروارد و ام آی تی گرفته
00:35
The American Heritage Dictionary, The Encyclopedia Britannica
7
35260
3000
تا دیکشنری امریکن هریتیج، دایره المعارف بریتانیکا
00:38
and even our proud sponsors,
8
38260
2000
و حتی حامی مالی عظیممان،
00:40
the Google.
9
40260
3000
گوگل.
00:43
And we cogitated about this
10
43260
2000
و در حدود 4 سال
00:45
for about four years.
11
45260
2000
در مورد آن فکر کردیم.
00:47
And we came to a startling conclusion.
12
47260
5000
و به نتیجه تکان دهنده ایی رسیدیم.
00:52
Ladies and gentlemen, a picture is not worth a thousand words.
13
52260
3000
خانمها و آقایان تصویر به اندازه هزاران کلمه ارزش ندارد.
00:55
In fact, we found some pictures
14
55260
2000
در حقیقت تصاویری پیدا کردیم که
00:57
that are worth 500 billion words.
15
57260
5000
500 میلیون کلمه ارزش داشتند.
01:02
Jean-Baptiste Michel: So how did we get to this conclusion?
16
62260
2000
ژان باپتیست میشل: چگونه به این نتیجه رسیدیم؟
01:04
So Erez and I were thinking about ways
17
64260
2000
من و اروز به روشهایی فکر می کردیم تا
01:06
to get a big picture of human culture
18
66260
2000
به تصویر بزرگی از فرهنگ و تاریخ انسان
01:08
and human history: change over time.
19
68260
3000
دست یابیم: تغییر در طول زمان.
01:11
So many books actually have been written over the years.
20
71260
2000
کتابهایی زیادی در طول تاریخ نوشته شده است.
01:13
So we were thinking, well the best way to learn from them
21
73260
2000
فکر کردیم بهترین راه آموختن از آنها
01:15
is to read all of these millions of books.
22
75260
2000
خواندن تمام این چند میلیون کتاب است.
01:17
Now of course, if there's a scale for how awesome that is,
23
77260
3000
البته اگه مقیاسی باشد که بتوان بزرگی آنرا اندازه گرفت،
01:20
that has to rank extremely, extremely high.
24
80260
3000
بی نهایت، بی نهایت زیاد است.
01:23
Now the problem is there's an X-axis for that,
25
83260
2000
مشکل این بود که یک محور ایکس وجود دارد،
01:25
which is the practical axis.
26
85260
2000
و آن محور کاربردی است.
01:27
This is very, very low.
27
87260
2000
که بسیار، بسیار پایین است.
01:29
(Applause)
28
89260
3000
(تشویق)
01:32
Now people tend to use an alternative approach,
29
92260
3000
امروزه مردم از یک روش جایگزین استفاده میکنند،
01:35
which is to take a few sources and read them very carefully.
30
95260
2000
چند منبع تهیه می کنند وآنرا با دقت می خوانند.
01:37
This is extremely practical, but not so awesome.
31
97260
2000
کاملا عملی است اما چندان عالی نیست.
01:39
What you really want to do
32
99260
3000
کاری که می خواهید کنید این است که
01:42
is to get to the awesome yet practical part of this space.
33
102260
3000
بهترین و در عین حال عملی ترین نتیجه را از این فضا بدست بیاورید.
01:45
So it turns out there was a company across the river called Google
34
105260
3000
معلوم شد شرکتی آنطرف رودخانه وجود دارد بنام گوگل
01:48
who had started a digitization project a few years back
35
108260
2000
که از سالها پیش یک پروژه دیجیتالی کردن را شروع کرده
01:50
that might just enable this approach.
36
110260
2000
که ممکن است این رویکرد را ممکن سازد.
01:52
They have digitized millions of books.
37
112260
2000
میلیونها کتاب را دیجیتالی کرده اند.
01:54
So what that means is, one could use computational methods
38
114260
3000
یعنی اینکه یکنفر می تواند با روشهای محاسباتی
01:57
to read all of the books in a click of a button.
39
117260
2000
همه کتابها را به یک کلیک بخواند.
01:59
That's very practical and extremely awesome.
40
119260
3000
بسیار عملی و عالی است.
02:03
ELA: Let me tell you a little bit about where books come from.
41
123260
2000
الا: اجازه دهید توضیح دهم این کتابها از کجا می آیند.
02:05
Since time immemorial, there have been authors.
42
125260
3000
از زمانهای قدیم کسانی بودن که نویسنده بودند.
02:08
These authors have been striving to write books.
43
128260
3000
این نویسندگان شیفته نوشتن کتاب بودند.
02:11
And this became considerably easier
44
131260
2000
و این کار با توسعه فرایند چاپ
02:13
with the development of the printing press some centuries ago.
45
133260
2000
از قرنها پیش آسانتر شد.
02:15
Since then, the authors have won
46
135260
3000
از آن به بعد نویسندگان
02:18
on 129 million distinct occasions,
47
138260
2000
129 میلیون کتاب در موضوعات مختلف را
02:20
publishing books.
48
140260
2000
منتشر کردند.
02:22
Now if those books are not lost to history,
49
142260
2000
اگر این کتابها در تاریخ گم نمی شدند،
02:24
then they are somewhere in a library,
50
144260
2000
جایی در کتابخانه بودند،
02:26
and many of those books have been getting retrieved from the libraries
51
146260
3000
و بسیاری از این کتابها از کتابخانه ها جمع آوری شدند
02:29
and digitized by Google,
52
149260
2000
و توسط گوگل دیجیتالی شدند،
02:31
which has scanned 15 million books to date.
53
151260
2000
که تا کنون 15 میلیون کتاب را اسکن کرده است.
02:33
Now when Google digitizes a book, they put it into a really nice format.
54
153260
3000
وقتی گوگل کتاب را اسکن می کند آنرا به فرمت جالبی در می آورد.
02:36
Now we've got the data, plus we have metadata.
55
156260
2000
علاوه بر اطلاعات اصلی، اطلاعات جنبی را هم داریم.
02:38
We have information about things like where was it published,
56
158260
3000
ما اطلاعاتی راجع به اینکه مثلا کجا این کتاب منتشر شده است،
02:41
who was the author, when was it published.
57
161260
2000
نویسنده کتاب کی بوده و چه وقت نوشته شده داریم.
02:43
And what we do is go through all of those records
58
163260
3000
و کاری که ما باید بکنیم این است که همه این رکوردها را مرور کنیم
02:46
and exclude everything that's not the highest quality data.
59
166260
4000
و هر چیزی که ارزش مناسب اطلاعاتی ندارد نادیده بگیریم.
02:50
What we're left with
60
170260
2000
چیزی که برای ما باقی ماند
02:52
is a collection of five million books,
61
172260
3000
مجموعه ای از پنج میلیون کتاب است،
02:55
500 billion words,
62
175260
3000
500 میلیارد کلمه،
02:58
a string of characters a thousand times longer
63
178260
2000
رشته کاراکترهایی هزاران برابر بزرگتر از
03:00
than the human genome --
64
180260
3000
ژنوم انسان--
03:03
a text which, when written out,
65
183260
2000
متنی که اگر نوشته بشود،
03:05
would stretch from here to the Moon and back
66
185260
2000
10 برابر فاصله رفت و برگشت از اینجا تا ماه کشیده خواهد شد.
03:07
10 times over --
67
187260
2000
10 برابر فاصله رفت و برگشت از اینجا تا ماه کشیده خواهد شد.
03:09
a veritable shard of our cultural genome.
68
189260
4000
پاره حقیقتی از ژنوم فرهنگی ما.
03:13
Of course what we did
69
193260
2000
البته ما وقتی با چنین
03:15
when faced with such outrageous hyperbole ...
70
195260
3000
حجم بی نهایت بزرگی مواجه شدیم...
03:18
(Laughter)
71
198260
2000
(خنده حضار)
03:20
was what any self-respecting researchers
72
200260
3000
کاری کردیم که هر محقق قابل احترامی
03:23
would have done.
73
203260
3000
انجام می داد.
03:26
We took a page out of XKCD,
74
206260
2000
صفحه ای از XKCD خارج کردیم و
03:28
and we said, "Stand back.
75
208260
2000
گفتیم، "کنار باستید. ما روش میخواهیم روش علمی رو امتحان کنیم."
03:30
We're going to try science."
76
210260
2000
گفتیم، "کنار باستید. ما روش میخواهیم روش علمی رو امتحان کنیم."
03:32
(Laughter)
77
212260
2000
(خنده حضار)
03:34
JM: Now of course, we were thinking,
78
214260
2000
جی ام: در آن زمان فکر می کردیم،
03:36
well let's just first put the data out there
79
216260
2000
بسیار خوب، بیایید اطلاعات را در دسترس افرادی قرار دهیم
03:38
for people to do science to it.
80
218260
2000
که با آن کار علمی می کنند.
03:40
Now we're thinking, what data can we release?
81
220260
2000
و فکر کردیم چه نوع اطلاعاتی میتوانیم ارائه کنیم؟
03:42
Well of course, you want to take the books
82
222260
2000
البته می خواهید که
03:44
and release the full text of these five million books.
83
224260
2000
تمام متن این پنج میلیون کتاب را استخراج کنید.
03:46
Now Google, and Jon Orwant in particular,
84
226260
2000
اکنون گوگل و به ویژه اورانت،
03:48
told us a little equation that we should learn.
85
228260
2000
به ما معادله کوچکی گفتند که باید یاد بگیریم.
03:50
So you have five million, that is, five million authors
86
230260
3000
ازآنجایی که 5 میلیون کتاب داریم پس 5 میلیون نویسنده داریم
03:53
and five million plaintiffs is a massive lawsuit.
87
233260
3000
و 5 میلیون شاکی که دعوای دادگاهی عظیمی است.
03:56
So, although that would be really, really awesome,
88
236260
2000
اگرچه بسیار بسیار عجیب است،
03:58
again, that's extremely, extremely impractical.
89
238260
3000
خیلی خیلی غیرممکن است.
04:01
(Laughter)
90
241260
2000
(خنده حضار)
04:03
Now again, we kind of caved in,
91
243260
2000
ما کاوش کردیم،
04:05
and we did the very practical approach, which was a bit less awesome.
92
245260
3000
و ما روش خیلی کاربردی ای را انجام دادیم، که کمتر جالب بود.
04:08
We said, well instead of releasing the full text,
93
248260
2000
گفتیم بجای انتشار متن کلی کتاب،
04:10
we're going to release statistics about the books.
94
250260
2000
ما میخواهیم اطلاعات آماری راجع به کتابها منتشر کنیم.
04:12
So take for instance "A gleam of happiness."
95
252260
2000
مثلا کتاب "بارقه ای از امید" را برای مثال در نظر بگیرید
04:14
It's four words; we call that a four-gram.
96
254260
2000
که چهار کلمه است، آنرا 4 تایی نامیدیم.
04:16
We're going to tell you how many times a particular four-gram
97
256260
2000
به شما خواهیم گفت چندبار یک چهارتایی خاص
04:18
appeared in books in 1801, 1802, 1803,
98
258260
2000
در سالهای1801، 1802، 1803
04:20
all the way up to 2008.
99
260260
2000
تا 2008 در کتابها بکار رفته.
04:22
That gives us a time series
100
262260
2000
این روش به ما یک سری زمانی
04:24
of how frequently this particular sentence was used over time.
101
264260
2000
از اینکه این جمله در طول زمان چقدر تکرار شده به ما می دهد.
04:26
We do that for all the words and phrases that appear in those books,
102
266260
3000
این کار را برای تمام کلمات و عباراتی که در کتابها بکار رفته بود انجام دادیم،
04:29
and that gives us a big table of two billion lines
103
269260
3000
و جدولی به بزرگی 2 میلیارد خط داد
04:32
that tell us about the way culture has been changing.
104
272260
2000
که به ما نحوه تغییر فرهنگ را می گوید.
04:34
ELA: So those two billion lines,
105
274260
2000
الا: از اینرو آن دو میلیارد خط،
04:36
we call them two billion n-grams.
106
276260
2000
را دومیلیارد ان-گرم می نامیم.
04:38
What do they tell us?
107
278260
2000
به ما چه می گویند؟
04:40
Well the individual n-grams measure cultural trends.
108
280260
2000
هر کدام از این ان-گرمها روند فرهنگی ما را می سنجند.
04:42
Let me give you an example.
109
282260
2000
اجازه دهید مثالی بزنم.
04:44
Let's suppose that I am thriving,
110
284260
2000
فرض کنید من در حال پیشرفت هستم،
04:46
then tomorrow I want to tell you about how well I did.
111
286260
2000
و فردا به شما خواهم گفت چقدر خوب کار کردم.
04:48
And so I might say, "Yesterday, I throve."
112
288260
3000
و ممکن است بگویم "دیروز من پیشرفتم"
04:51
Alternatively, I could say, "Yesterday, I thrived."
113
291260
3000
همچنین، می توانیم بگویم، دیروز پیشرفت کردم"
04:54
Well which one should I use?
114
294260
3000
کدام را باید بکار ببرم؟
04:57
How to know?
115
297260
2000
چطوری بفهمم؟
04:59
As of about six months ago,
116
299260
2000
حدود شش ماه پیش،
05:01
the state of the art in this field
117
301260
2000
بهترین کار در این زمینه
05:03
is that you would, for instance,
118
303260
2000
اینطور بود که مثلا با موهای عجیب
05:05
go up to the following psychologist with fabulous hair,
119
305260
2000
پیش روانشناس بروید
05:07
and you'd say,
120
307260
2000
و بگویید،
05:09
"Steve, you're an expert on the irregular verbs.
121
309260
3000
استیو، تو متخصص افعال بی قاعده ایی.
05:12
What should I do?"
122
312260
2000
چکار کنم؟
05:14
And he'd tell you, "Well most people say thrived,
123
314260
2000
و او به شما می گفت، خوب اغلب مردم می گویند پیشرفت کردم،
05:16
but some people say throve."
124
316260
3000
اما بعضی ها می گویند پیشرفتم.
05:19
And you also knew, more or less,
125
319260
2000
و کم و بیش می دانید،
05:21
that if you were to go back in time 200 years
126
321260
3000
که اگر به 200 سال پیش برگردید
05:24
and ask the following statesman with equally fabulous hair,
127
324260
3000
و این جمله را با موهای عجیب بپرسید،
05:27
(Laughter)
128
327260
3000
(خنده حضار)
05:30
"Tom, what should I say?"
129
330260
2000
"تام، چی باید بگم؟"
05:32
He'd say, "Well, in my day, most people throve,
130
332260
2000
می گفت ، "خوب در روزگار من مردم پیش میرفتند،
05:34
but some thrived."
131
334260
3000
اما بعضی ها پیشرفت میکردند"
05:37
So now what I'm just going to show you is raw data.
132
337260
2000
چیزی که به شما نشان خواهم داد اطلاعات خام هستند.
05:39
Two rows from this table of two billion entries.
133
339260
4000
دو ردیف از این جدول دومیلیارد ردیفی.
05:43
What you're seeing is year by year frequency
134
343260
2000
چیزی که می بینید تکرار سال به سال
05:45
of "thrived" and "throve" over time.
135
345260
3000
"پیشرفت کردن" و "پیشرفتن" در طول زمان است.
05:49
Now this is just two
136
349260
2000
و این تاره دو ردیف
05:51
out of two billion rows.
137
351260
3000
از دو میلیارد ردیف است.
05:54
So the entire data set
138
354260
2000
بنابراین مجموعه کل اطلاعات
05:56
is a billion times more awesome than this slide.
139
356260
3000
یک میلیارد بار شگفت انگیز تر از این اسلاید است.
05:59
(Laughter)
140
359260
2000
(خنده حضار)
06:01
(Applause)
141
361260
4000
(تشویق)
06:05
JM: Now there are many other pictures that are worth 500 billion words.
142
365260
2000
جی ام: تصاویر دیگری هم وجود دارد که 500 میلیارد کلمه می ارزند.
06:07
For instance, this one.
143
367260
2000
برای نمونه، این یکی.
06:09
If you just take influenza,
144
369260
2000
اگر آنفولانزا را در نظر بگیرید،
06:11
you will see peaks at the time where you knew
145
371260
2000
شما میتوانید در زمان هایی که میدانید آنفولانزا
06:13
big flu epidemics were killing people around the globe.
146
373260
3000
جان مردم زیادی را در سراسر جهان گرفته، اوج هایی مشاهده کنید.
06:16
ELA: If you were not yet convinced,
147
376260
3000
الا: اگر هنور متقاعد نشدید،
06:19
sea levels are rising,
148
379260
2000
سطح دریاها در حال افزایش هستند،
06:21
so is atmospheric CO2 and global temperature.
149
381260
3000
همینطور دی اسید کربن و گرمای زمین.
06:24
JM: You might also want to have a look at this particular n-gram,
150
384260
3000
جی ام: شاید بخواهید به این ان-گرم خاص نگاهی بیاندازید،
06:27
and that's to tell Nietzsche that God is not dead,
151
387260
3000
که به نیچه می گوید خدا نمرده،
06:30
although you might agree that he might need a better publicist.
152
390260
3000
اگرچه شاید موافق باشید که به تبلیغ کننده بهتری نیاز دارد.
06:33
(Laughter)
153
393260
2000
(خنده حضار)
06:35
ELA: You can get at some pretty abstract concepts with this sort of thing.
154
395260
3000
الا: می توانید مفاهیم انتزاعی زیبایی با اینگونه چیزها بدست آورید.
06:38
For instance, let me tell you the history
155
398260
2000
برای نمونه بذارید براتون تاریخ
06:40
of the year 1950.
156
400260
2000
سال 1950 را بگم.
06:42
Pretty much for the vast majority of history,
157
402260
2000
اکثر عمده تاریخ،
06:44
no one gave a damn about 1950.
158
404260
2000
کسی به 1950 توجهی نمی کند.
06:46
In 1700, in 1800, in 1900,
159
406260
2000
در سال 1700، در 1800 در 1900،
06:48
no one cared.
160
408260
3000
هیچکس اهمیت نداد.
06:52
Through the 30s and 40s,
161
412260
2000
از دهه 30 و 40،
06:54
no one cared.
162
414260
2000
هیچکس اهمیت نداد.
06:56
Suddenly, in the mid-40s,
163
416260
2000
ناگهان در اواسط دهه 40،
06:58
there started to be a buzz.
164
418260
2000
یه صدایی شروع شد.
07:00
People realized that 1950 was going to happen,
165
420260
2000
مردم متوجه شدند که سال 1950 داره میرسه،
07:02
and it could be big.
166
422260
2000
و این می تونه اتفاق خیلی بزرگی باشه.
07:04
(Laughter)
167
424260
3000
(خنده حضار)
07:07
But nothing got people interested in 1950
168
427260
3000
اما هیچی چیز 1950 برای مردم جذاب نبود
07:10
like the year 1950.
169
430260
3000
همانند سال 1950.
07:13
(Laughter)
170
433260
3000
(خنده حضار)
07:16
People were walking around obsessed.
171
436260
2000
مردم با وسواس به این طرف و آنطرف می رفتند.
07:18
They couldn't stop talking
172
438260
2000
نمی تونستند جلوی صحبت کردنشان را بگیرند
07:20
about all the things they did in 1950,
173
440260
3000
درباره کارهایی که در سال 1950 انجام داده بودند،
07:23
all the things they were planning to do in 1950,
174
443260
3000
و چیزهایی که قصد داشتند در سال 1950 انجام دهند،
07:26
all the dreams of what they wanted to accomplish in 1950.
175
446260
5000
تمام ارزوهایی که می خواستند در سال 1950 برآورده کنند.
07:31
In fact, 1950 was so fascinating
176
451260
2000
در حقیقت، سال 1950 چنان جذاب بود
07:33
that for years thereafter,
177
453260
2000
که سالها بعد از آن،
07:35
people just kept talking about all the amazing things that happened,
178
455260
3000
مردم فقط به صحبت در مورد تمام اتفاقاتی که افتاده بود صحبت کردند،
07:38
in '51, '52, '53.
179
458260
2000
در 51، 52، 53.
07:40
Finally in 1954,
180
460260
2000
و در سرانجام در 1954،
07:42
someone woke up and realized
181
462260
2000
یکی فهمید که
07:44
that 1950 had gotten somewhat passé.
182
464260
4000
سال 1950 تمام شده.
07:48
(Laughter)
183
468260
2000
(خنده حضار)
07:50
And just like that, the bubble burst.
184
470260
2000
و اینگونه، حباب ترکید.
07:52
(Laughter)
185
472260
2000
(خنده حضار)
07:54
And the story of 1950
186
474260
2000
و داستان 1950
07:56
is the story of every year that we have on record,
187
476260
2000
داستان هرسالی است که ثبت می کنیم،
07:58
with a little twist, because now we've got these nice charts.
188
478260
3000
با کمی تغییر چون ما این جدول های زیبا را داریم.
08:01
And because we have these nice charts, we can measure things.
189
481260
3000
و چون این جدولهای زیبا را داریم، می توانیم اتفاقات را اندازه گیری کنیم.
08:04
We can say, "Well how fast does the bubble burst?"
190
484260
2000
می توانم بگویم، "با چه سرعتی حباب ترکید؟"
08:06
And it turns out that we can measure that very precisely.
191
486260
3000
و مشخص شد که می توانیم آنرا با دقت اندازه گیری کنیم.
08:09
Equations were derived, graphs were produced,
192
489260
3000
معادلات بدست آمد و گراف ها رسم شد،
08:12
and the net result
193
492260
2000
و نتیجه نهایی
08:14
is that we find that the bubble bursts faster and faster
194
494260
3000
چیزی شد که فهمیدیم حباب سریعتر و سریعتر می ترکد
08:17
with each passing year.
195
497260
2000
هر سالی که می گذرد.
08:19
We are losing interest in the past more rapidly.
196
499260
5000
علاقه خود را به گذشته با سرعت بیشتری از دست می دهیم.
08:24
JM: Now a little piece of career advice.
197
504260
2000
جی ام: اکنون کمی نصیحت شغلی.
08:26
So for those of you who seek to be famous,
198
506260
2000
آنهایی که به دنبال شهرت هستند،
08:28
we can learn from the 25 most famous political figures,
199
508260
2000
می توانیم از 25 شخصیت مشهور سیاسی یادبگیریم،
08:30
authors, actors and so on.
200
510260
2000
نویسندگان، هنرپیشه ها و غیره.
08:32
So if you want to become famous early on, you should be an actor,
201
512260
3000
اگر می خواهید خیلی زود مشهور بشید باید هنرپیشه شوید،
08:35
because then fame starts rising by the end of your 20s --
202
515260
2000
چون شهرت از پایان دهه 20 شما شروع می شود--
08:37
you're still young, it's really great.
203
517260
2000
هنوز جوان هستید و این خیلی عالیه.
08:39
Now if you can wait a little bit, you should be an author,
204
519260
2000
اگر کمی صبر داشته باشید باید نویسنده شوید،
08:41
because then you rise to very great heights,
205
521260
2000
چون به جاهای بالایی خواهید رسید،
08:43
like Mark Twain, for instance: extremely famous.
206
523260
2000
مانند مارک تواین بسیار مشهور.
08:45
But if you want to reach the very top,
207
525260
2000
اما اگر می خواهید به جای بالا برسید،
08:47
you should delay gratification
208
527260
2000
باید لذت را به تاخیر بیاندازید
08:49
and, of course, become a politician.
209
529260
2000
و البته سیاستمدار شوید.
08:51
So here you will become famous by the end of your 50s,
210
531260
2000
و اینجاست که تا پایان دهه 50 زندگی خود مشهور می شوید،
08:53
and become very, very famous afterward.
211
533260
2000
و بعد از آن بسیار بسیار مشهور خواهید شد.
08:55
So scientists also tend to get famous when they're much older.
212
535260
3000
دانشمندان هم وقتی مسن تر شدن مشهور می شوند.
08:58
Like for instance, biologists and physics
213
538260
2000
مانند بیولوژیست ها و فیزیکدانها
09:00
tend to be almost as famous as actors.
214
540260
2000
تقریبا به اندازه هنرپیشه ها مشهورند.
09:02
One mistake you should not do is become a mathematician.
215
542260
3000
نباید اشتباه کنید و ریاضی دان شوید.
09:05
(Laughter)
216
545260
2000
(خنده حضار)
09:07
If you do that,
217
547260
2000
اگر اینکار را کنید،
09:09
you might think, "Oh great. I'm going to do my best work when I'm in my 20s."
218
549260
3000
ممکن است فکر کنید "عالیه، من وقتی 20 سالم شد بهترین کارم را ارائه می کنم"
09:12
But guess what, nobody will really care.
219
552260
2000
اما می توانید حدس بزنید، هیچکسی توجهی نخواهد کرد.
09:14
(Laughter)
220
554260
3000
(خده حضار)
09:17
ELA: There are more sobering notes
221
557260
2000
بیشتر نوشته های
09:19
among the n-grams.
222
559260
2000
ان-گرم جدی هستند.
09:21
For instance, here's the trajectory of Marc Chagall,
223
561260
2000
مثلا این خط سیر مارک شاگال است،
09:23
an artist born in 1887.
224
563260
2000
هنرمندی که در سال 1887 بدنیا آمد.
09:25
And this looks like the normal trajectory of a famous person.
225
565260
3000
همانند مسیر رایج یک شخص مشهور به نظر می رسد.
09:28
He gets more and more and more famous,
226
568260
4000
او مشهورتر، مشهورتر و مشهورتر می شود،
09:32
except if you look in German.
227
572260
2000
بجز وقتی به آلمان نگاه کنید.
09:34
If you look in German, you see something completely bizarre,
228
574260
2000
اگر به آلمان نگاه کنید چیز کاملا عجیبی می بینید،
09:36
something you pretty much never see,
229
576260
2000
چیزی که تا حالا هرگز ندیدید،
09:38
which is he becomes extremely famous
230
578260
2000
اینکه بسیار مشهور می شود
09:40
and then all of a sudden plummets,
231
580260
2000
و ناگهان سقوط می کند،
09:42
going through a nadir between 1933 and 1945,
232
582260
3000
و بین سالهای 1933 و 1945 می بینیم که در پایین ترین سطح قرار دارد،
09:45
before rebounding afterward.
233
585260
3000
قبل از اینکه دوباره شروع به بدست آوردن محبوبیت کند.
09:48
And of course, what we're seeing
234
588260
2000
البته چیزی که می بینیم
09:50
is the fact Marc Chagall was a Jewish artist
235
590260
3000
این است که مارک شاگال یک هنرمند یهودی بود
09:53
in Nazi Germany.
236
593260
2000
در آلمان نازی.
09:55
Now these signals
237
595260
2000
اکنون این علائم
09:57
are actually so strong
238
597260
2000
چنان قوی هستند که
09:59
that we don't need to know that someone was censored.
239
599260
3000
که لازم نیست بدانیم کسی سانسور شده است.
10:02
We can actually figure it out
240
602260
2000
می توانیم به آن پی ببریم
10:04
using really basic signal processing.
241
604260
2000
معمولا با استفاده از فرآیند سیگنال ساده.
10:06
Here's a simple way to do it.
242
606260
2000
یک راه ساده آن اینجاست.
10:08
Well, a reasonable expectation
243
608260
2000
خوب، یک انتظار معقول
10:10
is that somebody's fame in a given period of time
244
610260
2000
اینکه شهرت فردی در یک دوره زمانی
10:12
should be roughly the average of their fame before
245
612260
2000
باید تقریبا به اندازه میانگین شهرتش در گذشته
10:14
and their fame after.
246
614260
2000
و بعد از آن مدت باشد.
10:16
So that's sort of what we expect.
247
616260
2000
و این چیزی است که انتظار داریم.
10:18
And we compare that to the fame that we observe.
248
618260
3000
و آنرا با شهرتی که می بینیم مقایسه می کنیم.
10:21
And we just divide one by the other
249
621260
2000
و فقط یکی را بر دیگری تقسیم می کنیم
10:23
to produce something we call a suppression index.
250
623260
2000
تا چیزی ایجاد کنیم که آنرا شاخص سرکوب می نامیم.
10:25
If the suppression index is very, very, very small,
251
625260
3000
اگر شاخص سرکوب خیلی، خیلی، خیلی کوچک باشد،
10:28
then you very well might be being suppressed.
252
628260
2000
ممکن است به راحتی سرکوب شده باشید.
10:30
If it's very large, maybe you're benefiting from propaganda.
253
630260
3000
اگر بزرگ باشد، شاید از پروپاگاندا ذی نفع هستید.
10:34
JM: Now you can actually look at
254
634260
2000
جی ام: اکنون می توانید شاخص های
10:36
the distribution of suppression indexes over whole populations.
255
636260
3000
توزیع سرکوب در کل جمعیت را ببینید.
10:39
So for instance, here --
256
639260
2000
برای نمونه، اینجا --
10:41
this suppression index is for 5,000 people
257
641260
2000
این شاخص سرکوب برای 5000 نفر است
10:43
picked in English books where there's no known suppression --
258
643260
2000
از کتابهای انگلیسی انتخاب شده اند جایی که سرکوب مشهودی وجود ندارد--
10:45
it would be like this, basically tightly centered on one.
259
645260
2000
شبیه این خواهد بود، اساسا محکم روی کسی متمرکز است.
10:47
What you expect is basically what you observe.
260
647260
2000
چیزی که انتظار دارید چیزی است که می بینید.
10:49
This is distribution as seen in Germany --
261
649260
2000
این توزیعی است که در آلمان دیده می شود--
10:51
very different, it's shifted to the left.
262
651260
2000
خیلی متفاوت، به سمت چپ متمایل است.
10:53
People talked about it twice less as it should have been.
263
653260
3000
مردم دوبرابر از آنچه که باید کمتر صحبت می کنند.
10:56
But much more importantly, the distribution is much wider.
264
656260
2000
اما چیزی که مهمتر است، توزیع وسیع تر است.
10:58
There are many people who end up on the far left on this distribution
265
658260
3000
مردم بسیاری هستند که در انتهای سمت چپ این توزیع هستند
11:01
who are talked about 10 times fewer than they should have been.
266
661260
3000
مردمی که 10 بار کمتر از آنچه باید باشد کمتر صحبت می کنند.
11:04
But then also many people on the far right
267
664260
2000
اما از طرف دیگر مردمی هستند
11:06
who seem to benefit from propaganda.
268
666260
2000
از این پروپاگاندا ذی نفع هستند.
11:08
This picture is the hallmark of censorship in the book record.
269
668260
3000
این تصویر نمایانگر سانسور در کتاب است.
11:11
ELA: So culturomics
270
671260
2000
الا: کالترومیکس
11:13
is what we call this method.
271
673260
2000
اسمی است که ما روی این متد گذاشته ایم.
11:15
It's kind of like genomics.
272
675260
2000
نوعی ژن شناسی است.
11:17
Except genomics is a lens on biology
273
677260
2000
فرقشان این است که لنز ژنومیکس روی بیولوژی است
11:19
through the window of the sequence of bases in the human genome.
274
679260
3000
از پنجره ترتیب ژنوم انسانی.
11:22
Culturomics is similar.
275
682260
2000
کالترومیکس شبیه آن است.
11:24
It's the application of massive-scale data collection analysis
276
684260
3000
برنامه تحلیل اطلاعات در مقیاس عظیم است
11:27
to the study of human culture.
277
687260
2000
برای مطالعه فرهنگ انسان.
11:29
Here, instead of through the lens of a genome,
278
689260
2000
اینجا، بجای نگاه از عدسی ژنوم،
11:31
through the lens of digitized pieces of the historical record.
279
691260
3000
از لنزهای قطعات دیجیتالی شده ثبت تاریخی دیده می شود.
11:34
The great thing about culturomics
280
694260
2000
نکته بزرگ در مورد کالترومیکس
11:36
is that everyone can do it.
281
696260
2000
این است که هر کسی می تواند آنرا انجام دهد.
11:38
Why can everyone do it?
282
698260
2000
چرا هر کسی می تواند انجام دهد؟
11:40
Everyone can do it because three guys,
283
700260
2000
هر کسی می تواند انجام دهد چون سه نفر
11:42
Jon Orwant, Matt Gray and Will Brockman over at Google,
284
702260
3000
جان اوروانت، مت گری و بیل بروکمن در گوگل،
11:45
saw the prototype of the Ngram Viewer,
285
705260
2000
نمونه ای از بیینده انگرم را دیدند،
11:47
and they said, "This is so fun.
286
707260
2000
و گفتند، " بسیار جالب است.
11:49
We have to make this available for people."
287
709260
3000
باید این را در دسترس مردم قرار دهیم."
11:52
So in two weeks flat -- the two weeks before our paper came out --
288
712260
2000
در عرض دو هفته - دو هفته قبل از اینکه مقاله ما منتشر شود --
11:54
they coded up a version of the Ngram Viewer for the general public.
289
714260
3000
نسخه ای از بیننده انگرم را برای استفاده عمومی کدگذاری کردند.
11:57
And so you too can type in any word or phrase that you're interested in
290
717260
3000
و شما می توانید هر کلمه یا عبارتی که دوست دارید را تایپ کنید
12:00
and see its n-gram immediately --
291
720260
2000
و ان-گرم آن را سریع پیدا کنید--
12:02
also browse examples of all the various books
292
722260
2000
همچنین نمونه هایی از کتاب های مختلف را مرور کنید
12:04
in which your n-gram appears.
293
724260
2000
در ان-گرم شما که ظاهر می شود.
12:06
JM: Now this was used over a million times on the first day,
294
726260
2000
جی ام: در روز اول میلیون ها بار استفاده شد،
12:08
and this is really the best of all the queries.
295
728260
2000
و واقعا بهترین تمام جستجوهاست.
12:10
So people want to be their best, put their best foot forward.
296
730260
3000
مردم می خواهند بهترین باشند، با بهترین قدم شروع کنند.
12:13
But it turns out in the 18th century, people didn't really care about that at all.
297
733260
3000
اما در قرن 18 معلوم شد، مردم اصلا به آن توجهی نمی کردند.
12:16
They didn't want to be their best, they wanted to be their beft.
298
736260
3000
نمی خواستند بهترین باشند، می خواستند به نفعشان باشد.
12:19
So what happened is, of course, this is just a mistake.
299
739260
3000
چه اتفاقی افتاد، البته، این کاملا اشتباه است.
12:22
It's not that strove for mediocrity,
300
742260
2000
تلاش برای حد متوسط هم نبود،
12:24
it's just that the S used to be written differently, kind of like an F.
301
744260
3000
فقط مانند متفاوت نوشتن S بود، یا چیزی شبیه F.
12:27
Now of course, Google didn't pick this up at the time,
302
747260
3000
حالا البته که گوگل آنرا در آن زمان انتخاب نکرد،
12:30
so we reported this in the science article that we wrote.
303
750260
3000
برای همین در مقاله علمی که نوشتیم آنرا گزارش کردیم.
12:33
But it turns out this is just a reminder
304
753260
2000
معلوم شد فقط یادآوری است
12:35
that, although this is a lot of fun,
305
755260
2000
اگرچه بسیار جالب است،
12:37
when you interpret these graphs, you have to be very careful,
306
757260
2000
وقتی این گرافها را تفسیر می کنید باید بسیار دقت کنید،
12:39
and you have to adopt the base standards in the sciences.
307
759260
3000
و باید استانداردهای پایه را در علوم رعایت کنید.
12:42
ELA: People have been using this for all kinds of fun purposes.
308
762260
3000
الا: مردم از این برای انواع مقاصد تفریحی استفاده کردند.
12:45
(Laughter)
309
765260
7000
(خنده حضار)
12:52
Actually, we're not going to have to talk,
310
772260
2000
در واقع، دیگر صحبت نخواهیم کرد،
12:54
we're just going to show you all the slides and remain silent.
311
774260
3000
به شما اسلایدها را نشان می دهیم و ساکت خواهیم ماند.
12:57
This person was interested in the history of frustration.
312
777260
3000
این شخص یه تاریخ افسردگی علاقمند است.
13:00
There's various types of frustration.
313
780260
3000
انواع نا امیدی وجود دارد.
13:03
If you stub your toe, that's a one A "argh."
314
783260
3000
اگر انگشت شصت تون به جایی بخوره ، یک آ "آخ" است.
13:06
If the planet Earth is annihilated by the Vogons
315
786260
2000
اگر سیاره زمین توسط وگونها نابود بشه
13:08
to make room for an interstellar bypass,
316
788260
2000
تا جایی برای عبور از ستاره ها باز بشه،
13:10
that's an eight A "aaaaaaaargh."
317
790260
2000
8 تا آ"آآآآآآآآخ" است.
13:12
This person studies all the "arghs,"
318
792260
2000
این شخص همه"آخ ها" را مطالعه کرده است.
13:14
from one through eight A's.
319
794260
2000
از یک تا هشت آ.
13:16
And it turns out
320
796260
2000
و متوجه شد
13:18
that the less-frequent "arghs"
321
798260
2000
"آخ" های کمتر رایجتر
13:20
are, of course, the ones that correspond to things that are more frustrating --
322
800260
3000
آنهایی هستند که مربوط به چیزهای افسرده کننده است--
13:23
except, oddly, in the early 80s.
323
803260
3000
بجز، بطور عجیبی، در اوائل قرن 80.
13:26
We think that might have something to do with Reagan.
324
806260
2000
ما فکر کردیم احتمال داره که این ربطی به ریگان داشته باشه.
13:28
(Laughter)
325
808260
2000
(خنده حضار)
13:30
JM: There are many usages of this data,
326
810260
3000
جی ام: کاربردهای متعددی برای این اطلاعات وجود دارد،
13:33
but the bottom line is that the historical record is being digitized.
327
813260
3000
اما دلیل اصلی دیجیتالی کردن برای ثبت تاریخی است.
13:36
Google has started to digitize 15 million books.
328
816260
2000
گوگل دیجیتالی کردن 15 میلیون کتاب را شروع کرده است.
13:38
That's 12 percent of all the books that have ever been published.
329
818260
2000
12 درصد کتابهایی که منتشر شده است.
13:40
It's a sizable chunk of human culture.
330
820260
3000
بخش عظیمی از فرهنگ بشری است.
13:43
There's much more in culture: there's manuscripts, there newspapers,
331
823260
3000
چیزهای فرهنگی بیشتری وجود دارد: دست نوشته ها، روزنامه ها،
13:46
there's things that are not text, like art and paintings.
332
826260
2000
چیزهایی که نوشتنی نیستند، مانند هنر و نقاشی.
13:48
These all happen to be on our computers,
333
828260
2000
همه اینها در کامپیوتر ما قرار دارند،
13:50
on computers across the world.
334
830260
2000
در تمام کامپیوترهای سراسر دنیا.
13:52
And when that happens, that will transform the way we have
335
832260
3000
و وقتی اتفاق بیافتد، مسیری که داریم را تغییر خواهد داد
13:55
to understand our past, our present and human culture.
336
835260
2000
تا گذشته و حال و فرهنگ بشری را بفهمیم.
13:57
Thank you very much.
337
837260
2000
بسیار سپاسگذارم.
13:59
(Applause)
338
839260
3000
(تشویق)
درباره این وب سایت

این سایت ویدیوهای یوتیوب را به شما معرفی می کند که برای یادگیری زبان انگلیسی مفید هستند. دروس انگلیسی را خواهید دید که توسط معلمان درجه یک از سراسر جهان تدریس می شود. روی زیرنویس انگلیسی نمایش داده شده در هر صفحه ویدیو دوبار کلیک کنید تا ویدیو از آنجا پخش شود. زیرنویس‌ها با پخش ویدیو همگام می‌شوند. اگر نظر یا درخواستی دارید، لطفا با استفاده از این فرم تماس با ما تماس بگیرید.

https://forms.gle/WvT1wiN1qDtmnspy7