What we learned from 5 million books

236,151 views ・ 2011-09-20

TED


אנא לחץ פעמיים על הכתוביות באנגלית למטה כדי להפעיל את הסרטון.

מתרגם: Yubal Masalker מבקר: Sigal Tifferet
00:15
Erez Lieberman Aiden: Everyone knows
0
15260
2000
ארז ליברמן איידן: כולם יודעים
00:17
that a picture is worth a thousand words.
1
17260
3000
שתמונה שווה אלף מילים.
00:22
But we at Harvard
2
22260
2000
אבל אנחנו בהרווארד
00:24
were wondering if this was really true.
3
24260
3000
תהינו אם זה באמת נכון.
00:27
(Laughter)
4
27260
2000
(צחוק)
00:29
So we assembled a team of experts,
5
29260
4000
לכן הרכבנו צוות של מומחים
00:33
spanning Harvard, MIT,
6
33260
2000
שמגיעים מהרווארד, MIT,
00:35
The American Heritage Dictionary, The Encyclopedia Britannica
7
35260
3000
המילון למורשת אמריקאית, אנציקלופדיה בריטניקה
00:38
and even our proud sponsors,
8
38260
2000
ואפילו מנותני החסות
00:40
the Google.
9
40260
3000
הגאים שלנו, גוגל.
00:43
And we cogitated about this
10
43260
2000
הרהרנו בזה
00:45
for about four years.
11
45260
2000
במשך כארבע שנים
00:47
And we came to a startling conclusion.
12
47260
5000
והגענו למסקנה מדהימה.
00:52
Ladies and gentlemen, a picture is not worth a thousand words.
13
52260
3000
גבירותיי ורבותיי, תמונה אינה שווה אלף מילים.
00:55
In fact, we found some pictures
14
55260
2000
בעצם, מצאנו כמה תמונות
00:57
that are worth 500 billion words.
15
57260
5000
השוות 500 מיליארד מילים.
01:02
Jean-Baptiste Michel: So how did we get to this conclusion?
16
62260
2000
ג'ין-בפטיסט מישל: כיצד הגענו למסקנה זו?
01:04
So Erez and I were thinking about ways
17
64260
2000
ארז ואני חשבנו על דרכים
01:06
to get a big picture of human culture
18
66260
2000
לקבלת תמונה כוללת של תרבות
01:08
and human history: change over time.
19
68260
3000
והיסטוריה אנושית: של שינוי לאורך זמן.
01:11
So many books actually have been written over the years.
20
71260
2000
כל-כך הרבה ספרים נכתבו במהלך השנים.
01:13
So we were thinking, well the best way to learn from them
21
73260
2000
לכן חשבנו שהדרך הכי טובה ללמוד מהם
01:15
is to read all of these millions of books.
22
75260
2000
היא לקרוא את כל מיליוני הספרים.
01:17
Now of course, if there's a scale for how awesome that is,
23
77260
3000
כמובן שאם יש מדד לעד כמה שזה מרשים,
01:20
that has to rank extremely, extremely high.
24
80260
3000
יש למקם אותו מאוד, מאוד גבוה.
01:23
Now the problem is there's an X-axis for that,
25
83260
2000
הבעיה היא שקיים גם ציר X,
01:25
which is the practical axis.
26
85260
2000
שהוא ציר התכליתיות במקרה זה,
01:27
This is very, very low.
27
87260
2000
שעל-פיו זה מאוד, מאוד נמוך.
01:29
(Applause)
28
89260
3000
(מחיאות כפיים)
01:32
Now people tend to use an alternative approach,
29
92260
3000
אנשים נוטים להשתמש בגישה אלטרנטיבית,
01:35
which is to take a few sources and read them very carefully.
30
95260
2000
שזה לקחת כמה מקורות ולקרוא אותם בתשומת לב.
01:37
This is extremely practical, but not so awesome.
31
97260
2000
זה מאוד מעשי אבל לא מרשים.
01:39
What you really want to do
32
99260
3000
מה שבאמת צריך לעשות
01:42
is to get to the awesome yet practical part of this space.
33
102260
3000
זה להיכנס לחלק המרשים אבל גם המעשי של סביבה זו.
01:45
So it turns out there was a company across the river called Google
34
105260
3000
מתברר שיש חברה מעבר לנהר שנקראת גוגל
01:48
who had started a digitization project a few years back
35
108260
2000
שהחלה במיזם דיגיטליזציה לפני כמה שנים
01:50
that might just enable this approach.
36
110260
2000
העשוי לאפשר את יישומה של גישה זו.
01:52
They have digitized millions of books.
37
112260
2000
הם ביצעו דיגיטליזציה למיליוני ספרים.
01:54
So what that means is, one could use computational methods
38
114260
3000
זה אומר שניתן לנצל שיטות ממוחשבות
01:57
to read all of the books in a click of a button.
39
117260
2000
כדי לקרוא את כל הספרים בלחיצת כפתור.
01:59
That's very practical and extremely awesome.
40
119260
3000
זה מאוד מעשי וגם מרשים ביותר.
02:03
ELA: Let me tell you a little bit about where books come from.
41
123260
2000
א.ל.א.: אספר לכם קצת מאיפה הספרים מגיעים.
02:05
Since time immemorial, there have been authors.
42
125260
3000
מאז זמנים קדומים, היו כבר מיליוני סופרים.
02:08
These authors have been striving to write books.
43
128260
3000
סופרים אלה שאפו לכתוב ספרים.
02:11
And this became considerably easier
44
131260
2000
וזה הפך לקל משמעותית
02:13
with the development of the printing press some centuries ago.
45
133260
2000
עם התפתחות הדפוס לפני מספר מאות שנים.
02:15
Since then, the authors have won
46
135260
3000
מאז, הסופרים זכו לפרסם ספרים
02:18
on 129 million distinct occasions,
47
138260
2000
129 מיליון
02:20
publishing books.
48
140260
2000
פעמים.
02:22
Now if those books are not lost to history,
49
142260
2000
אם כל אותם הספרים לא הלכו לאיבוד
02:24
then they are somewhere in a library,
50
144260
2000
במהלך ההיסטוריה, הם נמצאים בספריות,
02:26
and many of those books have been getting retrieved from the libraries
51
146260
3000
ורבים מבין הספרים האלה נשלפים מהספריות
02:29
and digitized by Google,
52
149260
2000
ועוברים דיגיטליזציה אצל גוגל,
02:31
which has scanned 15 million books to date.
53
151260
2000
אשר סרקה עד כה 15 מיליון ספרים.
02:33
Now when Google digitizes a book, they put it into a really nice format.
54
153260
3000
כאשר בגוגל עושים דיגיטליזציה לספר, הם מעבירים אותו לפורמט באמת יפה.
02:36
Now we've got the data, plus we have metadata.
55
156260
2000
יש לנו נתונים ובנוסף יש לנו נתונים על מאפייני הנתונים.
02:38
We have information about things like where was it published,
56
158260
3000
יש לנו מידע על דברים כגון היכן זה פורסם,
02:41
who was the author, when was it published.
57
161260
2000
מי היה המחבר, מתי זה פורסם.
02:43
And what we do is go through all of those records
58
163260
3000
ומה שאנו עושים זה לעבור על כל הרשומות האלו
02:46
and exclude everything that's not the highest quality data.
59
166260
4000
ולוותר על כל הנתונים שאינם מהאיכות הכי גבוהה.
02:50
What we're left with
60
170260
2000
מה שנשאר זה
02:52
is a collection of five million books,
61
172260
3000
אוסף של 5 מיליון ספרים,
02:55
500 billion words,
62
175260
3000
500 מיליארד מילים,
02:58
a string of characters a thousand times longer
63
178260
2000
מחרוזת של אותיות הארוכה פי אלף
03:00
than the human genome --
64
180260
3000
מהחומר התורשתי האנושי --
03:03
a text which, when written out,
65
183260
2000
טקסט שאם ייכתב,
03:05
would stretch from here to the Moon and back
66
185260
2000
יגיע מכאן לירח ובחזרה
03:07
10 times over --
67
187260
2000
10 פעמים ויותר --
03:09
a veritable shard of our cultural genome.
68
189260
4000
זהו פלח משמעותי מהתורשה התרבותית שלנו.
03:13
Of course what we did
69
193260
2000
ברור שמה שעשינו
03:15
when faced with such outrageous hyperbole ...
70
195260
3000
כאשר נתקלנו בהיפרבולה שערורייתית כזו --
03:18
(Laughter)
71
198260
2000
(צחוק)
03:20
was what any self-respecting researchers
72
200260
3000
היה מה שכל חוקר המכבד את עצמו
03:23
would have done.
73
203260
3000
היה עושה.
03:26
We took a page out of XKCD,
74
206260
2000
לקחנו דף מתוך קטע קומי ברשת,
03:28
and we said, "Stand back.
75
208260
2000
ואמרנו, "תתרחקי מאיתנו.
03:30
We're going to try science."
76
210260
2000
אנו הולכים להיעזר במדע."
03:32
(Laughter)
77
212260
2000
(צחוק)
03:34
JM: Now of course, we were thinking,
78
214260
2000
ג'.מ.: טוב, ברור שחשבנו
03:36
well let's just first put the data out there
79
216260
2000
שאולי נחשוף את הנתונים לאנשים
03:38
for people to do science to it.
80
218260
2000
כדי שיעשו עליהם מחקרים מדעיים.
03:40
Now we're thinking, what data can we release?
81
220260
2000
התחלנו לחשוב איזה נתונים לשחרר.
03:42
Well of course, you want to take the books
82
222260
2000
האמת שהיינו רוצים לשחרר
03:44
and release the full text of these five million books.
83
224260
2000
את מלוא הטקסט של כל 5 מיליון הספרים.
03:46
Now Google, and Jon Orwant in particular,
84
226260
2000
אבל גוגל, ובעיקר ג'ון אורוונט,
03:48
told us a little equation that we should learn.
85
228260
2000
סיפרו לנו שעלינו ללמוד משוואה אחת.
03:50
So you have five million, that is, five million authors
86
230260
3000
אם יש לכם 5 מיליון, זה אומר 5 מיליון סופרים
03:53
and five million plaintiffs is a massive lawsuit.
87
233260
3000
ו-5 מיליון תביעות משפטיות שזה ממש המון.
03:56
So, although that would be really, really awesome,
88
236260
2000
כך שגם אם זה יהיה ממש, ממש מרשים,
03:58
again, that's extremely, extremely impractical.
89
238260
3000
שוב, זה מאוד, מאוד לא מעשי.
04:01
(Laughter)
90
241260
2000
(צחוק)
04:03
Now again, we kind of caved in,
91
243260
2000
ואנו שוב ויתרנו,
04:05
and we did the very practical approach, which was a bit less awesome.
92
245260
3000
ואימצנו את הגישה המאוד מעשית, שהיתה קצת פחות מרשימה.
04:08
We said, well instead of releasing the full text,
93
248260
2000
אמרנו, במקום לשחרר את מלוא הטקסט,
04:10
we're going to release statistics about the books.
94
250260
2000
נשחרר סטטיסטיקות על הספרים.
04:12
So take for instance "A gleam of happiness."
95
252260
2000
ניקח לדוגמא "קורטוב של אושר".
04:14
It's four words; we call that a four-gram.
96
254260
2000
אלו הן ארבע מילים (באנגלית); נקרא לזה משקל-ארבע.
04:16
We're going to tell you how many times a particular four-gram
97
256260
2000
נספר לכם כמה פעמים משקל-ארבע מסויים
04:18
appeared in books in 1801, 1802, 1803,
98
258260
2000
הופיע בספרים ב-1801, 1802, 1803,
04:20
all the way up to 2008.
99
260260
2000
עד 2008.
04:22
That gives us a time series
100
262260
2000
זה נותן לנו מרווחי זמן של תדירות השימוש
04:24
of how frequently this particular sentence was used over time.
101
264260
2000
בביטוי מסויים זה לאורך תקופה.
04:26
We do that for all the words and phrases that appear in those books,
102
266260
3000
אנו עושים זאת לכל המילים והביטויים אשר מופיעים בספרים הללו,
04:29
and that gives us a big table of two billion lines
103
269260
3000
וזה נותן לנו טבלה גדולה של שני מיליארד שורות
04:32
that tell us about the way culture has been changing.
104
272260
2000
המספרות לנו על הדרך בה תרבות משתנה.
04:34
ELA: So those two billion lines,
105
274260
2000
א.ל.א.: שני מיליארד השורות הללו,
04:36
we call them two billion n-grams.
106
276260
2000
אנו מכנים אותן שני מיליארד משקלי-n.
04:38
What do they tell us?
107
278260
2000
מה הן מספרות לנו?
04:40
Well the individual n-grams measure cultural trends.
108
280260
2000
כל משקל-n לכשעצמו מודד מגמות תרבותיות.
04:42
Let me give you an example.
109
282260
2000
אתן לכם דוגמא.
04:44
Let's suppose that I am thriving,
110
284260
2000
נניח שאני מצליח במשהו,
04:46
then tomorrow I want to tell you about how well I did.
111
286260
2000
לכן מחר ברצוני לספר לכם על ההצלחה שלי.
04:48
And so I might say, "Yesterday, I throve."
112
288260
3000
אני עשוי לומר, "אתמול, הצלחתי (I throve)."
04:51
Alternatively, I could say, "Yesterday, I thrived."
113
291260
3000
או לחילופין, אתמול, הצלחתי (I thrived)".
04:54
Well which one should I use?
114
294260
3000
במה עליי להשתמש?
04:57
How to know?
115
297260
2000
כיצד יודעים?
04:59
As of about six months ago,
116
299260
2000
עד לפני 6 חודשים,
05:01
the state of the art in this field
117
301260
2000
המצב העדכני בתחום זה היה
05:03
is that you would, for instance,
118
303260
2000
שהולכים, לדוגמא,
05:05
go up to the following psychologist with fabulous hair,
119
305260
2000
לפסיכולוג כזה עם שיער מדהים,
05:07
and you'd say,
120
307260
2000
ואומרים,
05:09
"Steve, you're an expert on the irregular verbs.
121
309260
3000
"סטיב, אתה מומחה בפעלים חריגים.
05:12
What should I do?"
122
312260
2000
מה עליי לעשות?"
05:14
And he'd tell you, "Well most people say thrived,
123
314260
2000
והוא היה עונה, "רוב האנשים אומרים thrived,
05:16
but some people say throve."
124
316260
3000
אבל כמה אומרים throve"
05:19
And you also knew, more or less,
125
319260
2000
גם אתם יודעים, פחות או יותר,
05:21
that if you were to go back in time 200 years
126
321260
3000
שאם הייתם חוזרים 200 שנה אחורה
05:24
and ask the following statesman with equally fabulous hair,
127
324260
3000
ושואלים את המדינאי הזה שגם לו יש שיער מדהים,
05:27
(Laughter)
128
327260
3000
(צחוק)
05:30
"Tom, what should I say?"
129
330260
2000
"טום, מה עליי להגיד?"
05:32
He'd say, "Well, in my day, most people throve,
130
332260
2000
הוא היה עונה, "בזמני, רוב האנשים השתמשו ב-throve,
05:34
but some thrived."
131
334260
3000
אבל כמה ב-thrived".
05:37
So now what I'm just going to show you is raw data.
132
337260
2000
כעת מה שאראה לכם זה נתונים גולמיים.
05:39
Two rows from this table of two billion entries.
133
339260
4000
שתי שורות מטבלה זו של 2 מיליארד שורות.
05:43
What you're seeing is year by year frequency
134
343260
2000
מה שרואים זו התדירות, שנה אחר שנה,
05:45
of "thrived" and "throve" over time.
135
345260
3000
של "thrived" מול "throve" לאורך זמן.
05:49
Now this is just two
136
349260
2000
אלו רק שתי שורות
05:51
out of two billion rows.
137
351260
3000
מתוך 2 מיליארד שורות.
05:54
So the entire data set
138
354260
2000
כך שכל מערך הנתונים
05:56
is a billion times more awesome than this slide.
139
356260
3000
מרשים פי מיליארד מאשר שקופית זו.
05:59
(Laughter)
140
359260
2000
(צחוק)
06:01
(Applause)
141
361260
4000
(מחיאות כפיים)
06:05
JM: Now there are many other pictures that are worth 500 billion words.
142
365260
2000
ג'.מ: ישנן הרבה תמונות אחרות
06:07
For instance, this one.
143
367260
2000
השוות 500 מיליארד מילים. למשל זו.
06:09
If you just take influenza,
144
369260
2000
אם ניקח את שפעת,
06:11
you will see peaks at the time where you knew
145
371260
2000
נראה שיאים בזמנים שאנו יודעים
06:13
big flu epidemics were killing people around the globe.
146
373260
3000
שבהם מגיפות השפעת חיסלו אנשים בכל העולם.
06:16
ELA: If you were not yet convinced,
147
376260
3000
א.ל.א.: אם עדיין לא השתכנעתם,
06:19
sea levels are rising,
148
379260
2000
פני-הים עולים,
06:21
so is atmospheric CO2 and global temperature.
149
381260
3000
כך גם דו-תחמוצת הפחמן באויר והטמפרטורה הממוצעת.
06:24
JM: You might also want to have a look at this particular n-gram,
150
384260
3000
ג'.מ.: אולי גם תרצו לראות את משקל-n המסויים הזה,
06:27
and that's to tell Nietzsche that God is not dead,
151
387260
3000
וזה כדי לספר לניטשה שאלוהים לא מת,
06:30
although you might agree that he might need a better publicist.
152
390260
3000
אף על-פי שתסכימו אולי שהוא זקוק ליחצ"ן יותר טוב.
06:33
(Laughter)
153
393260
2000
(צחוק)
06:35
ELA: You can get at some pretty abstract concepts with this sort of thing.
154
395260
3000
א.ל.א.: ניתן להגיע לכמה תפיסות מופשטות מדבר כזה.
06:38
For instance, let me tell you the history
155
398260
2000
לדוגמא, אספר לכם על ההיסטוריה
06:40
of the year 1950.
156
400260
2000
של שנת 1950.
06:42
Pretty much for the vast majority of history,
157
402260
2000
לאורך רוב ההיסטוריה בקירוב,
06:44
no one gave a damn about 1950.
158
404260
2000
אף אחד לא שם על שנת 1950.
06:46
In 1700, in 1800, in 1900,
159
406260
2000
ב-1700, ב-1800, ב-1900,
06:48
no one cared.
160
408260
3000
לאף אחד לא היה אכפת.
06:52
Through the 30s and 40s,
161
412260
2000
לאורך שנות ה-30 וה-40,
06:54
no one cared.
162
414260
2000
לאף אחד לא היה אכפת.
06:56
Suddenly, in the mid-40s,
163
416260
2000
פתאום, באמצע שנות ה-40,
06:58
there started to be a buzz.
164
418260
2000
התחיל הבאז.
07:00
People realized that 1950 was going to happen,
165
420260
2000
אנשים גילו ש-1950 עומדת להגיע,
07:02
and it could be big.
166
422260
2000
והיא יכולה להיות דבר גדול.
07:04
(Laughter)
167
424260
3000
(צחוק)
07:07
But nothing got people interested in 1950
168
427260
3000
אבל שום דבר לא גרם להם להתעניין ב-1950
07:10
like the year 1950.
169
430260
3000
כמו השנה 1950 עצמה.
07:13
(Laughter)
170
433260
3000
(צחוק)
07:16
People were walking around obsessed.
171
436260
2000
אנשים התהלכו עם אובססיה בתוכם.
07:18
They couldn't stop talking
172
438260
2000
הם לא יכלו להפסיק לדבר
07:20
about all the things they did in 1950,
173
440260
3000
על כל הדברים שהם עשו ב-1950,
07:23
all the things they were planning to do in 1950,
174
443260
3000
כל הדברים שהם תיכננו לעשות ב-1950,
07:26
all the dreams of what they wanted to accomplish in 1950.
175
446260
5000
כל החלומות שהם רצו להגשים ב-1950.
07:31
In fact, 1950 was so fascinating
176
451260
2000
למעשה, 1950 היתה כה מרתקת
07:33
that for years thereafter,
177
453260
2000
שבשנים שלאחריה,
07:35
people just kept talking about all the amazing things that happened,
178
455260
3000
אנשים פשוט המשיכו לדבר על כל הדברים המדהימים שקרו,
07:38
in '51, '52, '53.
179
458260
2000
ב-51, 52, 53.
07:40
Finally in 1954,
180
460260
2000
לבסוף ב-1954,
07:42
someone woke up and realized
181
462260
2000
מישהו התעורר ושם לב
07:44
that 1950 had gotten somewhat passé.
182
464260
4000
ש-1950 איכשהו עבר זמנה.
07:48
(Laughter)
183
468260
2000
(צחוק)
07:50
And just like that, the bubble burst.
184
470260
2000
וככה סתם, הבלון התפוצץ.
07:52
(Laughter)
185
472260
2000
(צחוק)
07:54
And the story of 1950
186
474260
2000
וסיפורה של 1950 הוא הסיפור
07:56
is the story of every year that we have on record,
187
476260
2000
של כל שנה שיש עליה רשומות,
07:58
with a little twist, because now we've got these nice charts.
188
478260
3000
עם שינוי קטן, כי כעת יש לנו את התרשימים היפים האלה.
08:01
And because we have these nice charts, we can measure things.
189
481260
3000
ומאחר ויש לנו אותם, אנו יכולים למדוד דברים שונים.
08:04
We can say, "Well how fast does the bubble burst?"
190
484260
2000
אנו יכולים לשאול, "כמה מהר הבלון מתפוצץ?"
08:06
And it turns out that we can measure that very precisely.
191
486260
3000
מתברר שניתן למדוד זאת בדיוק מאוד גבוה.
08:09
Equations were derived, graphs were produced,
192
489260
3000
מזה נוצרו משוואות, נוצרו גרפים,
08:12
and the net result
193
492260
2000
והתוצאה הסופית היא
08:14
is that we find that the bubble bursts faster and faster
194
494260
3000
שמצאנו שהבלון מתפוצץ יותר ויותר מהר
08:17
with each passing year.
195
497260
2000
עם כל שנה שעוברת.
08:19
We are losing interest in the past more rapidly.
196
499260
5000
אנו מאבדים עניין בעבר בקצב הולך וגובר.
08:24
JM: Now a little piece of career advice.
197
504260
2000
ג'.מ.: ועכשיו עצה קטנה בנושא קריירה.
08:26
So for those of you who seek to be famous,
198
506260
2000
עבור אלה מכם ששואפים להתפרסם,
08:28
we can learn from the 25 most famous political figures,
199
508260
2000
ניתן ללמוד מ-25 הפוליטיקאים המובילים,
08:30
authors, actors and so on.
200
510260
2000
הסופרים, השחקנים ועוד.
08:32
So if you want to become famous early on, you should be an actor,
201
512260
3000
אם ברצונכם להתפרסם מוקדם, עליכם להיות שחקנים,
08:35
because then fame starts rising by the end of your 20s --
202
515260
2000
מכיוון שהפירסום מתחיל לטפס בסוף שנות ה-20 שלכם --
08:37
you're still young, it's really great.
203
517260
2000
אתם עדיין צעירים וזה נהדר.
08:39
Now if you can wait a little bit, you should be an author,
204
519260
2000
אם אתם יכולים להמתין מעט, עליכם להיות סופרים,
08:41
because then you rise to very great heights,
205
521260
2000
מאחר ואז אתם מטפסים לגבהים גדולים,
08:43
like Mark Twain, for instance: extremely famous.
206
523260
2000
כמו מרק טוויין: מאוד מפורסם.
08:45
But if you want to reach the very top,
207
525260
2000
אבל אם ברצונכם להגיע ממש לפיסגה,
08:47
you should delay gratification
208
527260
2000
עליכם לדחות סיפוקים
08:49
and, of course, become a politician.
209
529260
2000
וכמובן, להיות פוליטיקאי.
08:51
So here you will become famous by the end of your 50s,
210
531260
2000
כאן תהיו מפורסמים בסוף שנות ה-50 שלכם,
08:53
and become very, very famous afterward.
211
533260
2000
ותהיו מאוד, מאוד מפורסמים אחר-כך.
08:55
So scientists also tend to get famous when they're much older.
212
535260
3000
גם המדענים נוטים להתפרסם כאשר הם מבוגרים בהרבה.
08:58
Like for instance, biologists and physics
213
538260
2000
כמו לדוגמא, ביולוגים ופיזיקאים
09:00
tend to be almost as famous as actors.
214
540260
2000
שמקבלים פירסום כמו שחקנים.
09:02
One mistake you should not do is become a mathematician.
215
542260
3000
שגיאה אחת שעליכם להימנע ממנה זה להיות מתמטיקאי.
09:05
(Laughter)
216
545260
2000
(צחוק)
09:07
If you do that,
217
547260
2000
אם תעשו זאת,
09:09
you might think, "Oh great. I'm going to do my best work when I'm in my 20s."
218
549260
3000
אולי תחשבו, "נהדר, אגיע לשיאי בשנות ה-20 שלי."
09:12
But guess what, nobody will really care.
219
552260
2000
אבל אתם יודעים מה? לאף אחד זה לא יהיה אכפת.
09:14
(Laughter)
220
554260
3000
(צחוק)
09:17
ELA: There are more sobering notes
221
557260
2000
א.ל.א.: ישנן תובנות נוספות מאירות-עיניים
09:19
among the n-grams.
222
559260
2000
בתוך המשקלי-n.
09:21
For instance, here's the trajectory of Marc Chagall,
223
561260
2000
לדוגמא, הנה המסלול של מרק שאגל,
09:23
an artist born in 1887.
224
563260
2000
אמן יליד 1887.
09:25
And this looks like the normal trajectory of a famous person.
225
565260
3000
וזה נראה כמסלול רגיל של אדם שהתפרסם.
09:28
He gets more and more and more famous,
226
568260
4000
הוא נהיה יותר ויותר מפורסם,
09:32
except if you look in German.
227
572260
2000
אלא אם בודקים בשפה הגרמנית.
09:34
If you look in German, you see something completely bizarre,
228
574260
2000
אם בודקים בגרמנית, רואים משהו לגמרי מוזר,
09:36
something you pretty much never see,
229
576260
2000
משהו שכמעט ולא רואים,
09:38
which is he becomes extremely famous
230
578260
2000
שזה שהוא נהיה מאוד מפורסם
09:40
and then all of a sudden plummets,
231
580260
2000
ואז פתאום צולל לתחתית,
09:42
going through a nadir between 1933 and 1945,
232
582260
3000
עובר שפל בין 1933 ו-1945,
09:45
before rebounding afterward.
233
585260
3000
לפני עלייתו מחדש.
09:48
And of course, what we're seeing
234
588260
2000
ובעצם, מה שרואים זו העובדה
09:50
is the fact Marc Chagall was a Jewish artist
235
590260
3000
שמרק שאגאל היה אמן יהודי
09:53
in Nazi Germany.
236
593260
2000
בגרמניה הנאצית.
09:55
Now these signals
237
595260
2000
הסימנים האלה
09:57
are actually so strong
238
597260
2000
הם כה חזקים
09:59
that we don't need to know that someone was censored.
239
599260
3000
שאין צורך לדעת שמישהו צונזר.
10:02
We can actually figure it out
240
602260
2000
ניתן פשוט להסיק זאת
10:04
using really basic signal processing.
241
604260
2000
בעזרת עיבוד נתונים בסיסי.
10:06
Here's a simple way to do it.
242
606260
2000
הנה דרך פשוטה לעשות את זה.
10:08
Well, a reasonable expectation
243
608260
2000
סביר לצפות שמידת הפירסום
10:10
is that somebody's fame in a given period of time
244
610260
2000
של פלוני בזמן נתון תהיה
10:12
should be roughly the average of their fame before
245
612260
2000
בקירוב הממוצע של פירסומו
10:14
and their fame after.
246
614260
2000
לפני אותו זמן ופירסומו אחריו.
10:16
So that's sort of what we expect.
247
616260
2000
זה בערך מה שאנו מצפים
10:18
And we compare that to the fame that we observe.
248
618260
3000
ומשווים את התוצאה למידת הפירסום בפועל.
10:21
And we just divide one by the other
249
621260
2000
מחלקים את האחד בשני
10:23
to produce something we call a suppression index.
250
623260
2000
כדי לקבל מה שנקרא מדד דיכוי.
10:25
If the suppression index is very, very, very small,
251
625260
3000
אם מדד הדיכוי מאוד, מאוד קטן,
10:28
then you very well might be being suppressed.
252
628260
2000
זה אומר שמישהו כנראה סובל מדיכוי.
10:30
If it's very large, maybe you're benefiting from propaganda.
253
630260
3000
אם הוא מאוד גדול, אולי מישהו נהנה מתעמולה.
10:34
JM: Now you can actually look at
254
634260
2000
ג'.מ.: ניתן בעצם להסתכל על
10:36
the distribution of suppression indexes over whole populations.
255
636260
3000
פילוג מדדי הדיכוי על-פני האוכלוסייה כולה.
10:39
So for instance, here --
256
639260
2000
לדוגמא, מדד דיכוי זה
10:41
this suppression index is for 5,000 people
257
641260
2000
הוא של 5,000 אנשים
10:43
picked in English books where there's no known suppression --
258
643260
2000
הלקוח מספרים באנגליה שלא אמור להיות שם דיכוי --
10:45
it would be like this, basically tightly centered on one.
259
645260
2000
הוא ייראה כך, בגדול מרוכז סביב 1.
10:47
What you expect is basically what you observe.
260
647260
2000
מה שמצפים לו זה בערך מה שרואים כאן.
10:49
This is distribution as seen in Germany --
261
649260
2000
זה הפילוג שמתקבל בגרמניה --
10:51
very different, it's shifted to the left.
262
651260
2000
מאוד שונה, הוא מוסט שמאלה.
10:53
People talked about it twice less as it should have been.
263
653260
3000
אנשים שם דיברו כפליים פחות ממה שהיה ניתן לצפות.
10:56
But much more importantly, the distribution is much wider.
264
656260
2000
אבל יותר חשוב, הפילוג הרבה יותר רחב.
10:58
There are many people who end up on the far left on this distribution
265
658260
3000
יש הרבה אנשים הנמצאים בקצה השמאלי של פילוג זה
11:01
who are talked about 10 times fewer than they should have been.
266
661260
3000
אשר דיברו פי-10 פחות ממה שהיו "צריכים".
11:04
But then also many people on the far right
267
664260
2000
אבל יש גם הרבה אנשים בקצה הימני
11:06
who seem to benefit from propaganda.
268
666260
2000
שנראה שהם מרויחים מתעמולה.
11:08
This picture is the hallmark of censorship in the book record.
269
668260
3000
תמונה זו היא המאפיין המזהה, במסד נתוני הספרים, לצנזורה.
11:11
ELA: So culturomics
270
671260
2000
א.ל.א.: אנו מכנים שיטה זו
11:13
is what we call this method.
271
673260
2000
culturomics (חקר תורשה תרבותית).
11:15
It's kind of like genomics.
272
675260
2000
זה דומה לחקר התורשה בביולוגיה.
11:17
Except genomics is a lens on biology
273
677260
2000
חקר התורשה שם עדשה על ביולוגיה
11:19
through the window of the sequence of bases in the human genome.
274
679260
3000
דרך החלון של סדרות של רצפי בסיס בחומר התורשתי האנושי.
11:22
Culturomics is similar.
275
682260
2000
חקר תורשה תרבותית זה משהו דומה.
11:24
It's the application of massive-scale data collection analysis
276
684260
3000
זה שימוש באנליזה של איסוף נתונים בקנה-מידה ענקי
11:27
to the study of human culture.
277
687260
2000
לחקר של תרבות אנושית.
11:29
Here, instead of through the lens of a genome,
278
689260
2000
כאן, במקום להביט דרך עדשת החומר התורשתי,
11:31
through the lens of digitized pieces of the historical record.
279
691260
3000
מביטים דרך עדשה של פיסות של רשומות היסטוריות שעברו דיגיטליזציה.
11:34
The great thing about culturomics
280
694260
2000
הדבר הגדול בחקר תורשה תרבותית
11:36
is that everyone can do it.
281
696260
2000
הוא שכל אחד יכול לעשות זאת.
11:38
Why can everyone do it?
282
698260
2000
מדוע כל אחד יכול לעשות זאת?
11:40
Everyone can do it because three guys,
283
700260
2000
זה מכיוון ששלושה אנשים,
11:42
Jon Orwant, Matt Gray and Will Brockman over at Google,
284
702260
3000
ג'ון אורוונט, מאט גריי וויל ברוקמן מגוגל,
11:45
saw the prototype of the Ngram Viewer,
285
705260
2000
ראו את אב-הטיפוס של מצגת המשקל-n,
11:47
and they said, "This is so fun.
286
707260
2000
ואמרו, "זה כזה כיף.
11:49
We have to make this available for people."
287
709260
3000
עלינו להפכה לזמינה לציבור."
11:52
So in two weeks flat -- the two weeks before our paper came out --
288
712260
2000
תוך שבועיים -- שבועיים לפני שהמאמר שלנו התפרסם --
11:54
they coded up a version of the Ngram Viewer for the general public.
289
714260
3000
הם כתבו תוכנית לגירסת מצגת משקל-n בשביל כלל הציבור.
11:57
And so you too can type in any word or phrase that you're interested in
290
717260
3000
ניתן להקליד כל מילה או ביטוי שחפצים בהם
12:00
and see its n-gram immediately --
291
720260
2000
ולראות את משקל ה-n שלהם מייד --
12:02
also browse examples of all the various books
292
722260
2000
וגם להציג דוגמאות של כל הספרים המגוונים
12:04
in which your n-gram appears.
293
724260
2000
שבהם מופיע המשקל-n שבחרת.
12:06
JM: Now this was used over a million times on the first day,
294
726260
2000
ג'.מ.: נעשה בזה שימוש יותר ממיליון פעם ביום הראשון,
12:08
and this is really the best of all the queries.
295
728260
2000
וזו באמת השאילתא הטובה ביותר מכולן.
12:10
So people want to be their best, put their best foot forward.
296
730260
3000
אנשים רוצים את הטוב ביותר, להניח את הרגל היותר טובה מלפנים.
12:13
But it turns out in the 18th century, people didn't really care about that at all.
297
733260
3000
אבל מתברר שבמאה ה-18, לאנשים לא היה ממש אכפת מכל זה.
12:16
They didn't want to be their best, they wanted to be their beft.
298
736260
3000
הם לא רצו את הטוב ביותר (best), אלא את הטוב ביותר (beft).
12:19
So what happened is, of course, this is just a mistake.
299
739260
3000
לכן מה שקרה הוא, טוב, ברור שזו טעות.
12:22
It's not that strove for mediocrity,
300
742260
2000
זה לא שהם שאפו לבינוניות,
12:24
it's just that the S used to be written differently, kind of like an F.
301
744260
3000
אלא שהיו נוהגים לכתוב S בצורה שונה, בערך כמו F.
12:27
Now of course, Google didn't pick this up at the time,
302
747260
3000
גוגל לא תפסו זאת בזמנו,
12:30
so we reported this in the science article that we wrote.
303
750260
3000
לכן דיווחנו על כך במאמר המדעי שכתבנו.
12:33
But it turns out this is just a reminder
304
753260
2000
אבל מתברר שזה רק מזכיר לנו
12:35
that, although this is a lot of fun,
305
755260
2000
שלמרות שכל זה כיף גדול,
12:37
when you interpret these graphs, you have to be very careful,
306
757260
2000
כאשר מפרשים את הגרפים הללו, צריך מאוד להיזהר,
12:39
and you have to adopt the base standards in the sciences.
307
759260
3000
ושעלינו לאמץ סטנדרטים בסיסיים של מדע.
12:42
ELA: People have been using this for all kinds of fun purposes.
308
762260
3000
א.ל.א: אנשים נוהגים להשתמש בזה לכל מיני מטרות.
12:45
(Laughter)
309
765260
7000
(צחוק)
12:52
Actually, we're not going to have to talk,
310
772260
2000
בעצם, אין לנו יותר צורך לדבר,
12:54
we're just going to show you all the slides and remain silent.
311
774260
3000
אנו רק נראה לכם את כל השקופיות ונישאר דוממים.
12:57
This person was interested in the history of frustration.
312
777260
3000
אדם זה התעניין בהיסטוריית התיסכול.
13:00
There's various types of frustration.
313
780260
3000
ישנם סוגי תיסכול שונים.
13:03
If you stub your toe, that's a one A "argh."
314
783260
3000
אם נפגעים בבוהן, יש אחד "ארג".
13:06
If the planet Earth is annihilated by the Vogons
315
786260
2000
אם כדור-הארץ מושמד על-ידי הווגונים
13:08
to make room for an interstellar bypass,
316
788260
2000
כדי לפנות דרך למעבר בין-כוכבי,
13:10
that's an eight A "aaaaaaaargh."
317
790260
2000
זה שמונה א "אאאאאאאארג".
13:12
This person studies all the "arghs,"
318
792260
2000
אדם זה חוקר את כל ה"ארגים",
13:14
from one through eight A's.
319
794260
2000
מאחד עד שמונה א-ים.
13:16
And it turns out
320
796260
2000
מתברר
13:18
that the less-frequent "arghs"
321
798260
2000
שה"ארגים" הפחות נפוצים
13:20
are, of course, the ones that correspond to things that are more frustrating --
322
800260
3000
הם אלה אשר קשורים בדברים היותר מתסכלים --
13:23
except, oddly, in the early 80s.
323
803260
3000
מלבד, באופן משונה, בשנות ה-80 המוקדמות.
13:26
We think that might have something to do with Reagan.
324
806260
2000
אנו סבורים שזה עשוי להיות קשור איכשהו ברייגן.
13:28
(Laughter)
325
808260
2000
(צחוק)
13:30
JM: There are many usages of this data,
326
810260
3000
ג'.מ.: ישנם הרבה שימושים לנתונים אלה,
13:33
but the bottom line is that the historical record is being digitized.
327
813260
3000
אבל השורה התחתונה היא שרשומות היסטוריות עוברות דיגיטליזציה.
13:36
Google has started to digitize 15 million books.
328
816260
2000
גוגל החלה בדיגיטליזציה של 15 מיליון ספרים.
13:38
That's 12 percent of all the books that have ever been published.
329
818260
2000
זה 12 אחוז מכל הספרים שיצאו אי-פעם לאור.
13:40
It's a sizable chunk of human culture.
330
820260
3000
זוהי פיסה גדולה למדיי של התרבות האנושית.
13:43
There's much more in culture: there's manuscripts, there newspapers,
331
823260
3000
יש בנוסף עוד הרבה בתרבות: ישנם כתבי-יד, ישנם עיתונים,
13:46
there's things that are not text, like art and paintings.
332
826260
2000
ישנם דברים שאינם טקסטים, כמו אמנות וציורים.
13:48
These all happen to be on our computers,
333
828260
2000
כל זה אמור להיות במחשבים שלנו,
13:50
on computers across the world.
334
830260
2000
במחשבים בכל העולם.
13:52
And when that happens, that will transform the way we have
335
832260
3000
וכאשר זה יקרה, יחול שינוי באופן בו אנו מבינים את עברנו,
13:55
to understand our past, our present and human culture.
336
835260
2000
את ההווה שלנו ואת התרבות האנושית.
13:57
Thank you very much.
337
837260
2000
תודה רבה לכם.
13:59
(Applause)
338
839260
3000
(מחיאות כפיים)
על אתר זה

אתר זה יציג בפניכם סרטוני YouTube המועילים ללימוד אנגלית. תוכלו לראות שיעורי אנגלית המועברים על ידי מורים מהשורה הראשונה מרחבי העולם. לחץ פעמיים על הכתוביות באנגלית המוצגות בכל דף וידאו כדי להפעיל את הסרטון משם. הכתוביות גוללות בסנכרון עם הפעלת הווידאו. אם יש לך הערות או בקשות, אנא צור איתנו קשר באמצעות טופס יצירת קשר זה.

https://forms.gle/WvT1wiN1qDtmnspy7