What we learned from 5 million books

236,151 views ・ 2011-09-20

TED


يرجى النقر نقرًا مزدوجًا فوق الترجمة الإنجليزية أدناه لتشغيل الفيديو.

المترجم: khalid marbou المدقّق: Faisal Jeber
00:15
Erez Lieberman Aiden: Everyone knows
0
15260
2000
إيريز ليبرمان ايدن: الجميع يعرف
00:17
that a picture is worth a thousand words.
1
17260
3000
أن الصورة تعادل الف كلمة.
00:22
But we at Harvard
2
22260
2000
لكننا في هارفارد
00:24
were wondering if this was really true.
3
24260
3000
تساءلنا ما إذا كان ذلك بالفعل صحيحا.
00:27
(Laughter)
4
27260
2000
(ضحك)
00:29
So we assembled a team of experts,
5
29260
4000
وبالتالي جمعنا فريقا من الخبراء،
00:33
spanning Harvard, MIT,
6
33260
2000
يمتدون في هارفارد وMIT
00:35
The American Heritage Dictionary, The Encyclopedia Britannica
7
35260
3000
قاموس التراث الأمريكي، موسوعة بريتانيكا
00:38
and even our proud sponsors,
8
38260
2000
وحتى رعاتنا الذين نفتخر بهم،
00:40
the Google.
9
40260
3000
غوغل.
00:43
And we cogitated about this
10
43260
2000
ودبرنا هذا
00:45
for about four years.
11
45260
2000
لحوالي أربع سنوات.
00:47
And we came to a startling conclusion.
12
47260
5000
ووصلنا إلى استنتاج مبدئي،
00:52
Ladies and gentlemen, a picture is not worth a thousand words.
13
52260
3000
سيداتي سادتي، الصورة لا تعادل الف كلمة.
00:55
In fact, we found some pictures
14
55260
2000
في الحقيقة، وجدنا بعض الصور
00:57
that are worth 500 billion words.
15
57260
5000
التي تقدر بأكثر من 500 مليار كلمة.
01:02
Jean-Baptiste Michel: So how did we get to this conclusion?
16
62260
2000
جان باتيست ميشال: إذن كيف وصلنا إلى هذا الاستنتاج؟
01:04
So Erez and I were thinking about ways
17
64260
2000
إذن أنا وإريز كنا نفكر في طرق
01:06
to get a big picture of human culture
18
66260
2000
للحصول على صورة كبيرة للثقافة الإنسانية
01:08
and human history: change over time.
19
68260
3000
والتاريخ البشري: تغيرها عبر الزمن.
01:11
So many books actually have been written over the years.
20
71260
2000
وهكذا الكثير من الكتب تم تأليفها على مدى السنوات.
01:13
So we were thinking, well the best way to learn from them
21
73260
2000
وبالتالي كنا نفكر، حسنا أفضل طريقة للاستفادة منها
01:15
is to read all of these millions of books.
22
75260
2000
هو قراءة كل هذه الملايين من الكتب.
01:17
Now of course, if there's a scale for how awesome that is,
23
77260
3000
الآن بالطبع، إن كان هناك مقياس لمدى روعة ذلك،
01:20
that has to rank extremely, extremely high.
24
80260
3000
كان هذا ليصنف عاليا وعاليا للغاية.
01:23
Now the problem is there's an X-axis for that,
25
83260
2000
الآن المشكل هو أن هناك محور أفاصيل لذلك،
01:25
which is the practical axis.
26
85260
2000
والذي هو محور العملية.
01:27
This is very, very low.
27
87260
2000
هذا متدن متدن للغاية.
01:29
(Applause)
28
89260
3000
(تصفيق)
01:32
Now people tend to use an alternative approach,
29
92260
3000
الآن الناس يميلون إلى استخدام مقاربة بديلة،
01:35
which is to take a few sources and read them very carefully.
30
95260
2000
والتي هي أخذ بضعة مصادر وقرائتها بعناية.
01:37
This is extremely practical, but not so awesome.
31
97260
2000
هذا عملي للغاية، لكن ليس بتلك الروعة.
01:39
What you really want to do
32
99260
3000
ما تريد فعله حقا
01:42
is to get to the awesome yet practical part of this space.
33
102260
3000
هو أخذ الجزء الرائع والعملي كذلك من هذا الفضاء.
01:45
So it turns out there was a company across the river called Google
34
105260
3000
وقد اتضح أن هناك شركة على الجانب الآخر من النهر تدعى غوغل
01:48
who had started a digitization project a few years back
35
108260
2000
والتي بدأت مشروع رقمنة قبل بضع سنوات
01:50
that might just enable this approach.
36
110260
2000
من شأنه أن يسمح بهذه المقاربة.
01:52
They have digitized millions of books.
37
112260
2000
قاموا برقمنة ملايين الكتب.
01:54
So what that means is, one could use computational methods
38
114260
3000
وبالتالي ما يعنيه ذلك هو، قد يستخدم المرء طرقا حوسبية
01:57
to read all of the books in a click of a button.
39
117260
2000
لقراءة كل الكتب بضغطة زر.
01:59
That's very practical and extremely awesome.
40
119260
3000
هذا في غاية العملية والروعة.
02:03
ELA: Let me tell you a little bit about where books come from.
41
123260
2000
إ. ل. أ: دعوني أخبركم قليلا من أين تأتي الكتب.
02:05
Since time immemorial, there have been authors.
42
125260
3000
منذ قديم الزمن، تواجد كتّاب.
02:08
These authors have been striving to write books.
43
128260
3000
هؤلاء الكتّاب كانوا يسعون لتأليف كتب.
02:11
And this became considerably easier
44
131260
2000
وقد صار ذلك سهلا جدا
02:13
with the development of the printing press some centuries ago.
45
133260
2000
مع تطور الصحافة المطبوعة قبل بضعة قرون.
02:15
Since then, the authors have won
46
135260
3000
منذ ذلك الوقت، استطاع الكتاب
02:18
on 129 million distinct occasions,
47
138260
2000
على مدى 129 مليون مناسبة متميزة،
02:20
publishing books.
48
140260
2000
من نشر الكتب.
02:22
Now if those books are not lost to history,
49
142260
2000
الآن إن لم تكن تلك الكتب مفقودة في التاريخ،
02:24
then they are somewhere in a library,
50
144260
2000
فإنها في مكان ما في مكتبة،
02:26
and many of those books have been getting retrieved from the libraries
51
146260
3000
والكثير من تلك الكتب يتم استرجاعها من المكتبات
02:29
and digitized by Google,
52
149260
2000
ورقمنتها من قبل غوغل،
02:31
which has scanned 15 million books to date.
53
151260
2000
والذين قاموا بمسح 15 مليون كتاب لحد الساعة.
02:33
Now when Google digitizes a book, they put it into a really nice format.
54
153260
3000
الآن حين يقوم غوغل برقمنة كتاب، يضعونه في شكل أنيق للغاية.
02:36
Now we've got the data, plus we have metadata.
55
156260
2000
الآن لدينا البيانات بالإضافة إلى البيانات الوصفية.
02:38
We have information about things like where was it published,
56
158260
3000
لدينا معلومات حول أمور مثل أين تم نشره،
02:41
who was the author, when was it published.
57
161260
2000
من كان المؤلف، متى تم نشره.
02:43
And what we do is go through all of those records
58
163260
3000
وما نقوم به هو القراء من خلال كل هذه السجلات
02:46
and exclude everything that's not the highest quality data.
59
166260
4000
وإلغاء كل البيانات التي ليست ذات جودة عالية.
02:50
What we're left with
60
170260
2000
ما يتبقى لنا
02:52
is a collection of five million books,
61
172260
3000
هو مجموعة من خمسة ملايين كتاب،
02:55
500 billion words,
62
175260
3000
500 مليار كلمة،
02:58
a string of characters a thousand times longer
63
178260
2000
سلسلة من الأحرف أطول بألف مرة
03:00
than the human genome --
64
180260
3000
من الجينوم البشري --
03:03
a text which, when written out,
65
183260
2000
نص إن تمت كتابته،
03:05
would stretch from here to the Moon and back
66
185260
2000
سيمتد من هنا إلى القمر وعودة
03:07
10 times over --
67
187260
2000
10 مرات متوالية --
03:09
a veritable shard of our cultural genome.
68
189260
4000
قشرة حقيقية لجينومنا الثقافي.
03:13
Of course what we did
69
193260
2000
ما قمنا به بالطبع
03:15
when faced with such outrageous hyperbole ...
70
195260
3000
حين واجهنا تلك المبالغة الفظيعة ..
03:18
(Laughter)
71
198260
2000
(ضحك)
03:20
was what any self-respecting researchers
72
200260
3000
هو ماكان أي باحث يحترم نفسه
03:23
would have done.
73
203260
3000
ليقوم به.
03:26
We took a page out of XKCD,
74
206260
2000
أخذنا صفحة من إكس كي سي دي،
03:28
and we said, "Stand back.
75
208260
2000
وقلنا، "ارجع للوراء.
03:30
We're going to try science."
76
210260
2000
سنجرب العلم."
03:32
(Laughter)
77
212260
2000
(ضحك)
03:34
JM: Now of course, we were thinking,
78
214260
2000
ج. م: الآن بالطبع، كنا نفكر،
03:36
well let's just first put the data out there
79
216260
2000
حسنا، دعونا أولا نضع البيانات فقط هناك
03:38
for people to do science to it.
80
218260
2000
حتى يمارس عليها الناس العلم.
03:40
Now we're thinking, what data can we release?
81
220260
2000
الآن كنا نفكر، ما نوع البيانات التي قد نصدرها؟
03:42
Well of course, you want to take the books
82
222260
2000
حسنا بالطبع، تريد أخذ كل الكتب
03:44
and release the full text of these five million books.
83
224260
2000
ونشر النص الكامل لتلك الخمس ملايين كتاب.
03:46
Now Google, and Jon Orwant in particular,
84
226260
2000
الآن غوغل، وجون أوروانت تحديدا،
03:48
told us a little equation that we should learn.
85
228260
2000
أخبرونا عن معادلة صغيرة علينا تعلمها.
03:50
So you have five million, that is, five million authors
86
230260
3000
حسنا لديكم خمس ملايين، هذا يعني، خمس ملايين كاتب
03:53
and five million plaintiffs is a massive lawsuit.
87
233260
3000
وخمس ملايين مدعي هي دعوى قضائية هائلة.
03:56
So, although that would be really, really awesome,
88
236260
2000
إذن، على الرغم من أن هذا كان ليكون رائعا للغاية،
03:58
again, that's extremely, extremely impractical.
89
238260
3000
مجددا، إنه غير عملي للغاية.
04:01
(Laughter)
90
241260
2000
(ضحك)
04:03
Now again, we kind of caved in,
91
243260
2000
الآن مجددا، أذعنا نوعا ما،
04:05
and we did the very practical approach, which was a bit less awesome.
92
245260
3000
وأنجزنا المقاربة العملية جدا، والتي لم تكن بتلك الروعة.
04:08
We said, well instead of releasing the full text,
93
248260
2000
قلنا، حسنا بدل نشر النصوص الكاملة،
04:10
we're going to release statistics about the books.
94
250260
2000
سنقوم بنشر إحصائيات حول الكتب.
04:12
So take for instance "A gleam of happiness."
95
252260
2000
إذن على سبيل المثال "بصيص من السعادة."
04:14
It's four words; we call that a four-gram.
96
254260
2000
إنها أربع كلمات؛ نسمي ذلك أربعة-غرام
04:16
We're going to tell you how many times a particular four-gram
97
256260
2000
سنقوم باخباركم بعدد المرات التي ظهرت فيها أربعة-غرام معينة
04:18
appeared in books in 1801, 1802, 1803,
98
258260
2000
في الكتب في 1801، 1802، 1803،
04:20
all the way up to 2008.
99
260260
2000
على طول الطريق إلى 2008.
04:22
That gives us a time series
100
262260
2000
ذلك يعطينا تسلسلا زمنيا
04:24
of how frequently this particular sentence was used over time.
101
264260
2000
حول مدى تردد استخدام هذه الجملة المعينة مع مرور الزمن.
04:26
We do that for all the words and phrases that appear in those books,
102
266260
3000
نقوم بذلك لكل الكلمات والجمل التي تظهر في تلك الكتب،
04:29
and that gives us a big table of two billion lines
103
269260
3000
وذلك يعطينا جدولا ضخما من ملياري سطر
04:32
that tell us about the way culture has been changing.
104
272260
2000
يخبرنا حول الطريقة التي تتغير بها الثقافة.
04:34
ELA: So those two billion lines,
105
274260
2000
إ. ل. أ: وبالتالي هذان الملياران،
04:36
we call them two billion n-grams.
106
276260
2000
نسميهما ملياري ن-غرام.
04:38
What do they tell us?
107
278260
2000
ما الذي تخبرنا؟
04:40
Well the individual n-grams measure cultural trends.
108
280260
2000
حسنا ال: ن-غرام المفردة تقيس الاتجاهات الثقافية.
04:42
Let me give you an example.
109
282260
2000
دعوني أعطيكم مثالا.
04:44
Let's suppose that I am thriving,
110
284260
2000
دعونا نفترض أنني في ازدهار،
04:46
then tomorrow I want to tell you about how well I did.
111
286260
2000
ثم أردت إخباركم في الغد كيف أبليت حسنا.
04:48
And so I might say, "Yesterday, I throve."
112
288260
3000
وبالتالي قد أقول، "البارحة قد نجحت."
04:51
Alternatively, I could say, "Yesterday, I thrived."
113
291260
3000
كبديل، يمكنني القول، "البارحة، ازدهرت."
04:54
Well which one should I use?
114
294260
3000
حسنا أي واحدة يمكنني استخدامها؟
04:57
How to know?
115
297260
2000
كيف أعرف؟
04:59
As of about six months ago,
116
299260
2000
قبل ستة أشهر من الآن،
05:01
the state of the art in this field
117
301260
2000
أعلى تقدم تقني في المجال
05:03
is that you would, for instance,
118
303260
2000
كان أن تقوم، على سبيل المثال،
05:05
go up to the following psychologist with fabulous hair,
119
305260
2000
بالذهاب إلى عالم نفساني بشعر رائع،
05:07
and you'd say,
120
307260
2000
وتقول،
05:09
"Steve, you're an expert on the irregular verbs.
121
309260
3000
"ستيف، أنت خبير في الأفعال غير النظامية.
05:12
What should I do?"
122
312260
2000
ما الذي يجدر بي فعله؟"
05:14
And he'd tell you, "Well most people say thrived,
123
314260
2000
وسيقول لك، "حسنا معظم الناس يقولون نجحت،
05:16
but some people say throve."
124
316260
3000
لكن بعضهم يقول ازدهرت."
05:19
And you also knew, more or less,
125
319260
2000
وتعلم كذلك، أكثر أو أقل،
05:21
that if you were to go back in time 200 years
126
321260
3000
أنه إن عدت 200 سنة إلى الوراء
05:24
and ask the following statesman with equally fabulous hair,
127
324260
3000
وسألت رجل دولة بنفس الشعر الرائع،
05:27
(Laughter)
128
327260
3000
(ضحك)
05:30
"Tom, what should I say?"
129
330260
2000
"توم، ما الذي يجدر بي قوله؟"
05:32
He'd say, "Well, in my day, most people throve,
130
332260
2000
سيقول، "حسنا، في وقتنا، معظم الناس يزدهرون،
05:34
but some thrived."
131
334260
3000
لكن بعضعهم ينجحون."
05:37
So now what I'm just going to show you is raw data.
132
337260
2000
وبالتالي الآن ما سأعرضهم عليهم هو بينات خام.
05:39
Two rows from this table of two billion entries.
133
339260
4000
صفان من هذا جدول ملياري مدخلة.
05:43
What you're seeing is year by year frequency
134
343260
2000
ما ترونه هو تردد سنة بسنة
05:45
of "thrived" and "throve" over time.
135
345260
3000
لـ "نجح" و"ازدهر" على مرور الزمن.
05:49
Now this is just two
136
349260
2000
الآن هذه فقط اثنتان
05:51
out of two billion rows.
137
351260
3000
من ملياري صف.
05:54
So the entire data set
138
354260
2000
وبالتالي مجموع البيانات الكلية
05:56
is a billion times more awesome than this slide.
139
356260
3000
هي مليار مرة أكثر روعة من هذه الشريحة.
05:59
(Laughter)
140
359260
2000
(ضحك)
06:01
(Applause)
141
361260
4000
(تصفيق)
06:05
JM: Now there are many other pictures that are worth 500 billion words.
142
365260
2000
ج. م: الآن هناك الكثير من الصور الأخرى التي تعادل 500 مليار كلمة.
06:07
For instance, this one.
143
367260
2000
على سبيل المثال، هذه.
06:09
If you just take influenza,
144
369260
2000
إن أخذتم الإنفلونزا
06:11
you will see peaks at the time where you knew
145
371260
2000
سترون ذرى في الأوقات التي تعرفون
06:13
big flu epidemics were killing people around the globe.
146
373260
3000
كانت تقتل فيه أوبئة الأنفلونزا الكبرى الناس في جميع أنحاء العالم.
06:16
ELA: If you were not yet convinced,
147
376260
3000
إ. ل. أ: إن لم تكونوا بعد مقتنعين،
06:19
sea levels are rising,
148
379260
2000
مستويات البحر ترتفع،
06:21
so is atmospheric CO2 and global temperature.
149
381260
3000
وكذلك ثنائي أكسيد الكربون في الجو والحرارة العالمية.
06:24
JM: You might also want to have a look at this particular n-gram,
150
384260
3000
ج. م: سترغبون كذلك في إلقاء نظرة على هذا الـ ن-غرام بذاته،
06:27
and that's to tell Nietzsche that God is not dead,
151
387260
3000
وذلك لإخبار نيتشه أن الإله ليس ميتا،
06:30
although you might agree that he might need a better publicist.
152
390260
3000
على الرغم من أنه قد يحتاج وكيلا إعلاميا أفضل.
06:33
(Laughter)
153
393260
2000
(ضحك)
06:35
ELA: You can get at some pretty abstract concepts with this sort of thing.
154
395260
3000
إ. ل. أ: يمكنكم الحصول على بعض المفاهيم المجردة بهذا الشيء.
06:38
For instance, let me tell you the history
155
398260
2000
على سبيل المثال، دعوني أخبركم عن تاريخ
06:40
of the year 1950.
156
400260
2000
السنة 1950.
06:42
Pretty much for the vast majority of history,
157
402260
2000
للغالبية العظمى من التاريخ،
06:44
no one gave a damn about 1950.
158
404260
2000
لم يهتم أحد في حدود 1950.
06:46
In 1700, in 1800, in 1900,
159
406260
2000
في 1700 في 1800 في 1900،
06:48
no one cared.
160
408260
3000
لم يهتم أحد.
06:52
Through the 30s and 40s,
161
412260
2000
خلال الثلاثينيات والأربعينيات،
06:54
no one cared.
162
414260
2000
لم يهتم أحد.
06:56
Suddenly, in the mid-40s,
163
416260
2000
وفجأة، في منتصف الأربعينيات،
06:58
there started to be a buzz.
164
418260
2000
بدأت تحدث ضجة.
07:00
People realized that 1950 was going to happen,
165
420260
2000
بدأ الناس يدركون أن 1950 قادمة،
07:02
and it could be big.
166
422260
2000
وقد تكون عظيمة.
07:04
(Laughter)
167
424260
3000
(ضحك)
07:07
But nothing got people interested in 1950
168
427260
3000
لكن لا شيء جعل الناس أكثر اهتماما بـ 1950
07:10
like the year 1950.
169
430260
3000
مثل السنة 1950.
07:13
(Laughter)
170
433260
3000
(ضحك)
07:16
People were walking around obsessed.
171
436260
2000
كان الناس يمشون مهووسين.
07:18
They couldn't stop talking
172
438260
2000
لم يستطيعوا التوقف عن الكلام
07:20
about all the things they did in 1950,
173
440260
3000
حول ما قاموا به في 1950،
07:23
all the things they were planning to do in 1950,
174
443260
3000
كل ما كانوا يخططون له في 1950،
07:26
all the dreams of what they wanted to accomplish in 1950.
175
446260
5000
كل الأحلام حول ما أرادوا إنجازه في 1950.
07:31
In fact, 1950 was so fascinating
176
451260
2000
في الواقع، 1950 كان آسرا لدرجة
07:33
that for years thereafter,
177
453260
2000
أنه في السنوات اللاحقة،
07:35
people just kept talking about all the amazing things that happened,
178
455260
3000
بقي الناس يتحدثون حول كل الأمور الرائعة التي حدثت،
07:38
in '51, '52, '53.
179
458260
2000
في 51 و 52 و53.
07:40
Finally in 1954,
180
460260
2000
وأخير في 1954،
07:42
someone woke up and realized
181
462260
2000
أحدهم استيقظ وأدرك
07:44
that 1950 had gotten somewhat passé.
182
464260
4000
أن 1950 قد انقضت.
07:48
(Laughter)
183
468260
2000
(ضحك)
07:50
And just like that, the bubble burst.
184
470260
2000
وبكل بساطة، انفجرت الفقاعة.
07:52
(Laughter)
185
472260
2000
(ضحك)
07:54
And the story of 1950
186
474260
2000
وقصة 1950
07:56
is the story of every year that we have on record,
187
476260
2000
هي قصة كل سنة لدينا في السجلات،
07:58
with a little twist, because now we've got these nice charts.
188
478260
3000
بالتفاف بسيط، لأنه لدينا الآن هذه المبيانات الجميلة.
08:01
And because we have these nice charts, we can measure things.
189
481260
3000
ولأنه لدينا مبيانات جميلة، يمكننا قياس الأشياء.
08:04
We can say, "Well how fast does the bubble burst?"
190
484260
2000
يمكننا القول، "حسنا ما مدى سرعة انفجار الفقاعة؟"
08:06
And it turns out that we can measure that very precisely.
191
486260
3000
وقد اتضح أنه يمكننا قياس ذلك بدقة بالغة.
08:09
Equations were derived, graphs were produced,
192
489260
3000
تم اشتقاق معادلات، وإنتاج رسوم بيانية،
08:12
and the net result
193
492260
2000
والنتيجة الخام
08:14
is that we find that the bubble bursts faster and faster
194
494260
3000
هي أنه وجدنا أن الفقاعة تنفجر بسرعة أكثر فأكثر
08:17
with each passing year.
195
497260
2000
مع مرور كل سنة.
08:19
We are losing interest in the past more rapidly.
196
499260
5000
نحن نفقد اهتمامنا بالماضي بشكل أكثر سرعة.
08:24
JM: Now a little piece of career advice.
197
504260
2000
ج. م: الآن نصيحة مهنية بسيطة.
08:26
So for those of you who seek to be famous,
198
506260
2000
وبالتالي لمن يريد منكم أن يشتهر،
08:28
we can learn from the 25 most famous political figures,
199
508260
2000
يمكننا الاستفادة من الشخصيات السياسية الـ 25 الأكثر شهرة،
08:30
authors, actors and so on.
200
510260
2000
والكتاب والممثلين وما إلى ذلك.
08:32
So if you want to become famous early on, you should be an actor,
201
512260
3000
وبالتالي إذا ما أردت أن تصبح مشهورا لاحقا، يجدر بك أن تصير ممثلا،
08:35
because then fame starts rising by the end of your 20s --
202
515260
2000
لأن الشهرة تبدأ بالزيادة في نهاية العشرينيات --
08:37
you're still young, it's really great.
203
517260
2000
لا تزال يافعا، ذلك عظيم للغاية.
08:39
Now if you can wait a little bit, you should be an author,
204
519260
2000
الآن إن أمكنك الانتظار قليلا، يجدر بك أن تصير كاتبا،
08:41
because then you rise to very great heights,
205
521260
2000
لأنه آنذاك ترتفع إلى مستويات عظيمة،
08:43
like Mark Twain, for instance: extremely famous.
206
523260
2000
مثل مارك توين، على سبيل المثال: في غاية الشهرة.
08:45
But if you want to reach the very top,
207
525260
2000
لكن إن أردت أن تصل إلى أعلى القمة،
08:47
you should delay gratification
208
527260
2000
يجدر بك أن تؤجل المتعة،
08:49
and, of course, become a politician.
209
529260
2000
وتصير سياسيا بالطبع.
08:51
So here you will become famous by the end of your 50s,
210
531260
2000
وبالتالي هنا ستصير مشهورا في نهاية خمسينياتك،
08:53
and become very, very famous afterward.
211
533260
2000
وستصير مشهورا للغاية بعد ذلك.
08:55
So scientists also tend to get famous when they're much older.
212
535260
3000
والعلماء كذلك يميلون إلى أن يصيروا مشهورين حين يكونون أكبر بكثير.
08:58
Like for instance, biologists and physics
213
538260
2000
على سبيل المثال، الأحيائيون والفيزيائيون
09:00
tend to be almost as famous as actors.
214
540260
2000
يصيرون بقدر شهرة الممثلين.
09:02
One mistake you should not do is become a mathematician.
215
542260
3000
خطأ واحد لا يجدر بكم الوقوع فيه هو أن تصيروا رياضياتيين.
09:05
(Laughter)
216
545260
2000
(ضحك)
09:07
If you do that,
217
547260
2000
إن قمتم بذلك،
09:09
you might think, "Oh great. I'm going to do my best work when I'm in my 20s."
218
549260
3000
قد تعتقدون، "أوه عظيم. سأقوم بأعظم أعمالي في العشرينيات من عمري"
09:12
But guess what, nobody will really care.
219
552260
2000
لكن خمنوا ماذا، لا أحد في الواقع يهتم.
09:14
(Laughter)
220
554260
3000
(ضحك)
09:17
ELA: There are more sobering notes
221
557260
2000
إ. ل. أ: هناك ملاحظات حكيمة أخرى
09:19
among the n-grams.
222
559260
2000
فيما بين الـ ن-غرام.
09:21
For instance, here's the trajectory of Marc Chagall,
223
561260
2000
على سبيل المثال، هنا تجدون مسار مارك شاغال،
09:23
an artist born in 1887.
224
563260
2000
فنان ولد سنة 1887.
09:25
And this looks like the normal trajectory of a famous person.
225
565260
3000
ويبدو هذا مثل مسار شخص مشهور عادي.
09:28
He gets more and more and more famous,
226
568260
4000
يصير أكثر وأكثر شهرة،
09:32
except if you look in German.
227
572260
2000
باستثناء إن بحثتم بالألمانية.
09:34
If you look in German, you see something completely bizarre,
228
574260
2000
إن بحثتم بالألمانية، ترون شيئا غريبا للغاية،
09:36
something you pretty much never see,
229
576260
2000
شيئا لا ترونه أبدا،
09:38
which is he becomes extremely famous
230
578260
2000
وهو أن تصير مشهورا للغاية
09:40
and then all of a sudden plummets,
231
580260
2000
ثم وفجأة،
09:42
going through a nadir between 1933 and 1945,
232
582260
3000
يصل الحضيض ما بين 1933 و1945،
09:45
before rebounding afterward.
233
585260
3000
قبل أن يرتد مجددا لاحقا.
09:48
And of course, what we're seeing
234
588260
2000
وبالطبع، ما ترونه
09:50
is the fact Marc Chagall was a Jewish artist
235
590260
3000
هو حقيقة كون مارك شاغال فنانا يهوديا
09:53
in Nazi Germany.
236
593260
2000
في ألمانيا النازية.
09:55
Now these signals
237
595260
2000
الآن هذه الإشارات
09:57
are actually so strong
238
597260
2000
هي في الواقع قوية للغاية
09:59
that we don't need to know that someone was censored.
239
599260
3000
لدرجة أنه لا تحتاج إلى معرفة أن أحدهم كان تحت الرقابة.
10:02
We can actually figure it out
240
602260
2000
يمكننا في الواقع إستنتاج ذلك
10:04
using really basic signal processing.
241
604260
2000
باستخدام معالجة إشارات أساسية.
10:06
Here's a simple way to do it.
242
606260
2000
هنا طريقة بسيطة للقيام بذلك.
10:08
Well, a reasonable expectation
243
608260
2000
حسنا، توقع منطقي
10:10
is that somebody's fame in a given period of time
244
610260
2000
هو أن شهرة أحدهم في فترة زمنية معينة
10:12
should be roughly the average of their fame before
245
612260
2000
يجب أن تكون تقريبا معدل شهرتهم قبل
10:14
and their fame after.
246
614260
2000
وبعد الاشتهار.
10:16
So that's sort of what we expect.
247
616260
2000
وبالتالي ذلك نوع مما نتوقعه.
10:18
And we compare that to the fame that we observe.
248
618260
3000
ونقارن ذلك بالشهرة التي نلاحظها.
10:21
And we just divide one by the other
249
621260
2000
ونقسم واحدا بالآخر
10:23
to produce something we call a suppression index.
250
623260
2000
لإنتاج شيء نسميه مؤشر القمع.
10:25
If the suppression index is very, very, very small,
251
625260
3000
إن كان مؤشر القمع صغيرا جدا للغاية،
10:28
then you very well might be being suppressed.
252
628260
2000
بعد ذلك قد تكون أنت ذاتك تحت القمع.
10:30
If it's very large, maybe you're benefiting from propaganda.
253
630260
3000
إن كان كبيرا للغاية، ربما تكون مستفيدا من بروباغاندا.
10:34
JM: Now you can actually look at
254
634260
2000
ج. م: الآن يمكنكم فعلا أن تنظروا
10:36
the distribution of suppression indexes over whole populations.
255
636260
3000
توزيع مؤشرات القمع على لمجموع السكان.
10:39
So for instance, here --
256
639260
2000
لذا على سبيل المثال، هنا --
10:41
this suppression index is for 5,000 people
257
641260
2000
مؤشر القمع هذا هو لـ 5000 شخص
10:43
picked in English books where there's no known suppression --
258
643260
2000
تم اختيارهم من كتب إنجليزية حيث لا يوجد هناك قمع --
10:45
it would be like this, basically tightly centered on one.
259
645260
2000
سيكون شيئا مثل هذا، سيكون أساسا متركزا بإحكام.
10:47
What you expect is basically what you observe.
260
647260
2000
ما تتوقعونه هو ما يمكنكم ملاحظته أساسا.
10:49
This is distribution as seen in Germany --
261
649260
2000
هذا التوزيع كما يرى في ألمانيا --
10:51
very different, it's shifted to the left.
262
651260
2000
مختلف كثيرا، إنه محول قليلا لليسار.
10:53
People talked about it twice less as it should have been.
263
653260
3000
تحدث عنه الناس مرتين أقل مما يجب أن يكون.
10:56
But much more importantly, the distribution is much wider.
264
656260
2000
لكن المهم جدا، التوزيع أقل وسعا.
10:58
There are many people who end up on the far left on this distribution
265
658260
3000
هناك الكثير من الناس ينتهون في أقصى يسار التوزيع
11:01
who are talked about 10 times fewer than they should have been.
266
661260
3000
تم الحديث عنهم حوالي 10 مرات أقل مما يجب أن يكون.
11:04
But then also many people on the far right
267
664260
2000
لكن كذلك الكثير من الناس على أقصى اليسار
11:06
who seem to benefit from propaganda.
268
666260
2000
يبدو أنهم استفادوا من البروباغندا.
11:08
This picture is the hallmark of censorship in the book record.
269
668260
3000
هذه الصورة هي السمة المميزة للرقابة في سجل الكتب.
11:11
ELA: So culturomics
270
671260
2000
إ. ل. أ: الكلتروميكس
11:13
is what we call this method.
271
673260
2000
هي ما نسمي هذه الطريقة.
11:15
It's kind of like genomics.
272
675260
2000
إنها نوع ما مثل الجينوميات.
11:17
Except genomics is a lens on biology
273
677260
2000
باستثناء أن الجينوما هي عدسات على البيولوجيا
11:19
through the window of the sequence of bases in the human genome.
274
679260
3000
من خلال نافذة تسلسل القواعد في الجينوم البشري.
11:22
Culturomics is similar.
275
682260
2000
الكلتروميكس أمر مشابه.
11:24
It's the application of massive-scale data collection analysis
276
684260
3000
إنه تطبيق تحليل لمجموعة البيانات الهائلة الحجم
11:27
to the study of human culture.
277
687260
2000
لدراسة الثقافة البشرية.
11:29
Here, instead of through the lens of a genome,
278
689260
2000
هنا، على سبيل المثال من خلال عدسات الجينوم،
11:31
through the lens of digitized pieces of the historical record.
279
691260
3000
من خلال عدسات السجل التاريخي المرقمن.
11:34
The great thing about culturomics
280
694260
2000
الأمر العظيم بخصوص الكلتروميكس
11:36
is that everyone can do it.
281
696260
2000
هو أن الجميع يمكنه القيام بذلك.
11:38
Why can everyone do it?
282
698260
2000
لماذا يمكن للجميع القيام بذلك؟
11:40
Everyone can do it because three guys,
283
700260
2000
الجميع يمكنه القيام بذلك لأن ثلاثة أشخاص،
11:42
Jon Orwant, Matt Gray and Will Brockman over at Google,
284
702260
3000
جون أوروانت ومات غراي وويل بروكمان في غوغل،
11:45
saw the prototype of the Ngram Viewer,
285
705260
2000
رأوا النموذج الأولي لعارض ن-غرام،
11:47
and they said, "This is so fun.
286
707260
2000
فقالوا، "هذا في غاية المتعة.
11:49
We have to make this available for people."
287
709260
3000
علينا جعل هذا متوفرا للناس."
11:52
So in two weeks flat -- the two weeks before our paper came out --
288
712260
2000
وبالتالي في أسبوعين بالتمام -- الأسبوعان قبل صدور ورقتنا البحثية --
11:54
they coded up a version of the Ngram Viewer for the general public.
289
714260
3000
قاموا ببرمجة نسخة من عارض ن-غرام من أجل الاستخدام العام.
11:57
And so you too can type in any word or phrase that you're interested in
290
717260
3000
وبالتالي يمكنكم كذلك أن تكتبوا أي كلمة أو جملة تهتمون بها
12:00
and see its n-gram immediately --
291
720260
2000
ورؤية الـ ن-غرام مباشرة --
12:02
also browse examples of all the various books
292
722260
2000
كذلك تصفح أمثلة من مختلف الكتب
12:04
in which your n-gram appears.
293
724260
2000
حيث تظهر ن-غرام.
12:06
JM: Now this was used over a million times on the first day,
294
726260
2000
ج. م: الآن تم استخدام هذا أكثر من مليون مرة في اليوم الأول،
12:08
and this is really the best of all the queries.
295
728260
2000
وهذه بالفعل أفضل كل تلك الاستعلامات.
12:10
So people want to be their best, put their best foot forward.
296
730260
3000
وبالتالي أراد الناس وضع قدمهم الأفضل إلى الأمام.
12:13
But it turns out in the 18th century, people didn't really care about that at all.
297
733260
3000
لكن اتضح أنه في القرن الـ 18، لم يهتم الناس بذلك على الإطلاق.
12:16
They didn't want to be their best, they wanted to be their beft.
298
736260
3000
لم يريدوا أن يكونوا الأفضل، أرادوا أن يكونوا الأفدل.
12:19
So what happened is, of course, this is just a mistake.
299
739260
3000
وبالتالي ما حصل هو، بالطبع، هذا كان مجرد خطأ.
12:22
It's not that strove for mediocrity,
300
742260
2000
ليس ذلك السعي نحو التوسط،
12:24
it's just that the S used to be written differently, kind of like an F.
301
744260
3000
إنه فقط حقيقة كون الحرف ض كان يكتب بشكل مختلف، نوعا ما مثل د.
12:27
Now of course, Google didn't pick this up at the time,
302
747260
3000
الآن بالطبع، غوغل لم يلاحظ ذلك آنذاك،
12:30
so we reported this in the science article that we wrote.
303
750260
3000
وبالتالي أبلغنا عن ذلك في المقال العلمي الذي كتبناه.
12:33
But it turns out this is just a reminder
304
753260
2000
لكن اتضح أن ذلك هو فقط تذكير
12:35
that, although this is a lot of fun,
305
755260
2000
أنه، على الرغم من أنه ممتع جدا،
12:37
when you interpret these graphs, you have to be very careful,
306
757260
2000
حين تفسر تلك الرسوم البيانية، عليك أن تكون حذرا للغاية،
12:39
and you have to adopt the base standards in the sciences.
307
759260
3000
وعليك أن تعتمد المعايير الأساسية للعلوم.
12:42
ELA: People have been using this for all kinds of fun purposes.
308
762260
3000
إ. ل. أ: الناس كانوا يستخدمون جميع أنواع أغراض المتعة.
12:45
(Laughter)
309
765260
7000
(ضحك)
12:52
Actually, we're not going to have to talk,
310
772260
2000
في الواقع، ليس علينا الكلام،
12:54
we're just going to show you all the slides and remain silent.
311
774260
3000
سنقوم فقط بعرض بقية الشرائح والبقاء صامتين.
12:57
This person was interested in the history of frustration.
312
777260
3000
هذا الشخص كان مهتما بتاريخ الإحباط.
13:00
There's various types of frustration.
313
780260
3000
هنا هذه الأنواع المختلفة من الإحباط.
13:03
If you stub your toe, that's a one A "argh."
314
783260
3000
إن صدمت اصبع قدمك، تلك آ "أرغ."
13:06
If the planet Earth is annihilated by the Vogons
315
786260
2000
إن كان كوكب الأرض أبيد من طرف الفوغونات
13:08
to make room for an interstellar bypass,
316
788260
2000
لإفساح المكان لممر بين-نجمي،
13:10
that's an eight A "aaaaaaaargh."
317
790260
2000
تلك 8 آهات "آآآآآآآآرغ."
13:12
This person studies all the "arghs,"
318
792260
2000
هذا الشخص درس كل هذه ال"آرغ".
13:14
from one through eight A's.
319
794260
2000
من واحد إلى ثمانية آهات.
13:16
And it turns out
320
796260
2000
وقد اتضح
13:18
that the less-frequent "arghs"
321
798260
2000
أن أقل الآهات استخداما
13:20
are, of course, the ones that correspond to things that are more frustrating --
322
800260
3000
هي بالطبع تلك التي ترتبط بالأشياء الأكثر احباطا
13:23
except, oddly, in the early 80s.
323
803260
3000
باستثناء، وبشكل غريب، في بداية الثمانينيات.
13:26
We think that might have something to do with Reagan.
324
806260
2000
نعتقد أن لذلك علاقة بريغان.
13:28
(Laughter)
325
808260
2000
(ضحك)
13:30
JM: There are many usages of this data,
326
810260
3000
ج. م: هناك الكثير من الاستخدامات لهذه البيانات،
13:33
but the bottom line is that the historical record is being digitized.
327
813260
3000
لكن الخلاصة أن السجلات التاريخية تتم رقمنتها.
13:36
Google has started to digitize 15 million books.
328
816260
2000
غوغل قد بدأ يرقمن 15 مليون كتاب.
13:38
That's 12 percent of all the books that have ever been published.
329
818260
2000
ذلك 12 في المئة من كل الكتب التي نشرت من قبل.
13:40
It's a sizable chunk of human culture.
330
820260
3000
إنه قسم لا بأس به من الثقافة البشرية.
13:43
There's much more in culture: there's manuscripts, there newspapers,
331
823260
3000
هناك ما هو أكثر بكثير في الثقافة: هناك المخطوطات، الجرائد،
13:46
there's things that are not text, like art and paintings.
332
826260
2000
هناك الأشياء التي ليست كتابة، مثل الفن والرسومات.
13:48
These all happen to be on our computers,
333
828260
2000
كل هذا يصادف تواجده في حواسيبنا،
13:50
on computers across the world.
334
830260
2000
في حواسيب في جميع أنحاء العالم.
13:52
And when that happens, that will transform the way we have
335
832260
3000
وحين يحدث ذلك، سيغير ذلك الطريقة التي
13:55
to understand our past, our present and human culture.
336
835260
2000
نفهم بها ماضينا، وحاضرنا والثقافة البشرية.
13:57
Thank you very much.
337
837260
2000
شكرا جزيلا لكم.
13:59
(Applause)
338
839260
3000
(تصفيق)
حول هذا الموقع

سيقدم لك هذا الموقع مقاطع فيديو YouTube المفيدة لتعلم اللغة الإنجليزية. سترى دروس اللغة الإنجليزية التي يتم تدريسها من قبل مدرسين من الدرجة الأولى من جميع أنحاء العالم. انقر نقرًا مزدوجًا فوق الترجمة الإنجليزية المعروضة على كل صفحة فيديو لتشغيل الفيديو من هناك. يتم تمرير الترجمات بالتزامن مع تشغيل الفيديو. إذا كان لديك أي تعليقات أو طلبات ، يرجى الاتصال بنا باستخدام نموذج الاتصال هذا.

https://forms.gle/WvT1wiN1qDtmnspy7