What we learned from 5 million books

236,151 views ・ 2011-09-20

TED


โปรดดับเบิลคลิกที่คำบรรยายภาษาอังกฤษด้านล่างเพื่อเล่นวิดีโอ

Translator: Phatra Sae-ting Reviewer: Sritala Dhanasarnsombut
00:15
Erez Lieberman Aiden: Everyone knows
0
15260
2000
เอเรส ลีเบอร์แมน เอเด็น: ทุกท่านคงคุ้นๆ
00:17
that a picture is worth a thousand words.
1
17260
3000
กับคำกล่าวที่ว่ารูปภาพสื่อคำพูดนับพันใช่ไหมครับ
00:22
But we at Harvard
2
22260
2000
แต่สำหรับพวกเราที่ฮาร์วาร์ด
00:24
were wondering if this was really true.
3
24260
3000
กลับสงสัยว่ามันเป็นอย่างนั้นจริงรึเปล่า
00:27
(Laughter)
4
27260
2000
(หัวเราะ)
00:29
So we assembled a team of experts,
5
29260
4000
พวกเราเลยรวมทีมกลุ่มผู้เชี่ยวชาญ
00:33
spanning Harvard, MIT,
6
33260
2000
จากฮาร์วาร์ด เอ็มไอที
00:35
The American Heritage Dictionary, The Encyclopedia Britannica
7
35260
3000
พจนานุกรมอเมริกันเฮอริเทจ สารานุกรมบริตานิกา
00:38
and even our proud sponsors,
8
38260
2000
รวมไปถึงผู้สนับสนุนที่พวกเราภูมิใจ
00:40
the Google.
9
40260
3000
กูเกิล
00:43
And we cogitated about this
10
43260
2000
หลังจากที่ทีมเราพินิจพิเคราะห์
00:45
for about four years.
11
45260
2000
มาประมาณ 4 ปี
00:47
And we came to a startling conclusion.
12
47260
5000
ทุกท่านครับ พวกเราได้ข้อสรุปมาว่า
00:52
Ladies and gentlemen, a picture is not worth a thousand words.
13
52260
3000
รูปภาพหนึ่งๆ ไม่ได้สื่อคำพูดออกมาแค่หลักพันหรอกครับ
00:55
In fact, we found some pictures
14
55260
2000
เพราะพวกเราเจอบางรูป
00:57
that are worth 500 billion words.
15
57260
5000
ที่สื่อคำพูดออกมาได้เป็น 5 แสนล้านคำเลยล่ะครับ
01:02
Jean-Baptiste Michel: So how did we get to this conclusion?
16
62260
2000
ฌ็อง แบพติสต์ มิเชล: เพื่อแสดงให้ทุกท่านเห็นถึงที่มาของข้อสรุปนี้
01:04
So Erez and I were thinking about ways
17
64260
2000
อีเรสกับผมเลยได้ลองหาวิธี
01:06
to get a big picture of human culture
18
66260
2000
ที่จะศึกษาภาพรวมของวัฒนธรรม
01:08
and human history: change over time.
19
68260
3000
และประวัติศาสตร์มนุษยชาติที่เปลี่ยนแปลงไปตามกาลเวลา
01:11
So many books actually have been written over the years.
20
71260
2000
มีหนังสือไม่น้อยที่เขียนเกี่ยวกับเรื่องนี้
01:13
So we were thinking, well the best way to learn from them
21
73260
2000
พวกเราเลยเชื่อว่า วิธีที่ดีที่สุดที่จะศึกษาจากหนังสือเป็นล้านเหล่านี้
01:15
is to read all of these millions of books.
22
75260
2000
ก็คืออ่านมันทั้งหมด
01:17
Now of course, if there's a scale for how awesome that is,
23
77260
3000
ซึ่งถ้าหากมีหน่วยวัดว่าเครื่องมือนี้เจ๋งแค่ไหน
01:20
that has to rank extremely, extremely high.
24
80260
3000
แน่นอนว่ามันคงจะต้องอยู่ในระดับที่เจ๋งมากแน่ๆ
01:23
Now the problem is there's an X-axis for that,
25
83260
2000
ปัญหาอยู่ที่มันมีแกน x ถ่วงอยู่
01:25
which is the practical axis.
26
85260
2000
ซึ่งเป็นแกนที่วัดการนำไปใช้จริง
01:27
This is very, very low.
27
87260
2000
จะเห็นได้ว่ามันอยู่ต่ำมากครับ
01:29
(Applause)
28
89260
3000
(ปรบมือ)
01:32
Now people tend to use an alternative approach,
29
92260
3000
ผู้คนจึงมักจะใช้ตัวเลือกอื่น
01:35
which is to take a few sources and read them very carefully.
30
95260
2000
เช่น คัดเฉพาะข้อมูลบางแหล่งและอ่านมันอย่างระมัดระวัง
01:37
This is extremely practical, but not so awesome.
31
97260
2000
เป็นวิธีที่อยู่ในระดับนำไปใช้ได้จริงที่สูงมาก แต่ยังไม่เจ๋งพอ
01:39
What you really want to do
32
99260
3000
สิ่งที่คุณต้องการจริงๆคือ
01:42
is to get to the awesome yet practical part of this space.
33
102260
3000
ทางเลือกที่่เจ๋งและนำไปใช้ได้จริง
01:45
So it turns out there was a company across the river called Google
34
105260
3000
ซึ่งบังเอิญมากที่บริษัทตรงฝั่งแม่น้ำที่ชื่อ "กูเกิล"
01:48
who had started a digitization project a few years back
35
108260
2000
ได้ริเริ่มโครงการทำหนังสือให้เป็นรูปแบบดิจิทัลเมื่อไม่กี่ปีมานี้
01:50
that might just enable this approach.
36
110260
2000
ถือเป็นการเปิดทางให้กับทางเลือกอย่างว่า
01:52
They have digitized millions of books.
37
112260
2000
พวกเขาทำหนังสือให้เป็นรูปแบบดิจิทัลหลายล้านเล่มแล้ว
01:54
So what that means is, one could use computational methods
38
114260
3000
หมายความว่า เราสามารถใช้วิธีอย่างเดียวกับที่ใช้กับคอมพิวเตอร์
01:57
to read all of the books in a click of a button.
39
117260
2000
กดคลิ๊กที่ปลายนิ้วเพื่ออ่านหนังสือทั้งหมด
01:59
That's very practical and extremely awesome.
40
119260
3000
วิธีนี้จัดว่านำใช้ได้จริงและเจ๋งมากๆด้วย
02:03
ELA: Let me tell you a little bit about where books come from.
41
123260
2000
ELA: ทีนี้ขอผมเล่าหน่อยว่าหนังสือทั้งหลายมาจากไหน
02:05
Since time immemorial, there have been authors.
42
125260
3000
กาลครั้งหนึ่งก่อนที่พวกเราจะจำความได้ ก็มีคนเป็นนักเขียนไม่น้อยเลยทีเดียว
02:08
These authors have been striving to write books.
43
128260
3000
พวกเขาใช้ความเพียรพยายามสูงมากกว่าจะเขียนหนังสือออกมาเป็นเล่มๆ
02:11
And this became considerably easier
44
131260
2000
ทีนี้พอวิทยาการการพิมพ์เริ่มก้าวหน้า
02:13
with the development of the printing press some centuries ago.
45
133260
2000
ในไม่กี่ร้อยปีที่ผ่านมาก็ทำให้ขั้นตอนการทำหนังสือง่ายขึ้น
02:15
Since then, the authors have won
46
135260
3000
แต่นั้นมาก็ทำให้นักเขียนจากทั่วสารทิศ
02:18
on 129 million distinct occasions,
47
138260
2000
สามารถเขียนหนังสือและตีพิมพ์
02:20
publishing books.
48
140260
2000
ในแต่ละสถานที่ทั่วทุกมุมโลกได้
02:22
Now if those books are not lost to history,
49
142260
2000
จนถึงวันนี้ หากหนังสือพวกนั้นยังไม่หายไปจากประวัติศาสตร์
02:24
then they are somewhere in a library,
50
144260
2000
มันจะยังคงวางอยู่ในห้องสมุดแห่งใดแแห่งหนึ่ง
02:26
and many of those books have been getting retrieved from the libraries
51
146260
3000
ซึ่งกูเกิลได้ดำเนินการยืมหนังสือเหล่านั้นมาจากห้องสมุด
02:29
and digitized by Google,
52
149260
2000
เพื่อมาสแกนให้อยู่ในรูปแบบดิจิทัล
02:31
which has scanned 15 million books to date.
53
151260
2000
ซึ่งจนถึงวันนี้เสร็จไปกว่า 15 ล้านเล่มแล้ว
02:33
Now when Google digitizes a book, they put it into a really nice format.
54
153260
3000
โดยทีมงานได้จัดทำหนังสือให้อยู่ในรูปแบบที่ดีมาก
02:36
Now we've got the data, plus we have metadata.
55
156260
2000
ทำให้พวกเรามีข้อมูล รายละเอียดต่างๆ
02:38
We have information about things like where was it published,
56
158260
3000
เช่น ข้อมูลจำพวกสถานที่หรือวันเวลาที่ตีพิมพ์
02:41
who was the author, when was it published.
57
161260
2000
ข้อมูลผู้แต่ง
02:43
And what we do is go through all of those records
58
163260
3000
จากนั้นก็ตรวจสอบมันอย่างละเอียด
02:46
and exclude everything that's not the highest quality data.
59
166260
4000
ทำให้มันสมบูรณ์ที่สุด
02:50
What we're left with
60
170260
2000
และพวกเราก็ได้ผลงาน
02:52
is a collection of five million books,
61
172260
3000
หนังสือห้าล้านกว่่าเล่ม
02:55
500 billion words,
62
175260
3000
หรือคำห้าแสนกว่าล้านคำ
02:58
a string of characters a thousand times longer
63
178260
2000
ตัวอักษรที่เรียงกันเหล่านี้
03:00
than the human genome --
64
180260
3000
ยาวกว่าจีโนมของมนุษย์เราเป็นพันๆเท่า
03:03
a text which, when written out,
65
183260
2000
ตัวหนังสือเหล่านี้เมื่อเรียงกันแล้ว
03:05
would stretch from here to the Moon and back
66
185260
2000
อาจยาวถึงระยะทางไปกลับจากโลกถึงดวงจันทร์
03:07
10 times over --
67
187260
2000
ประมาณ 10 รอบได้
03:09
a veritable shard of our cultural genome.
68
189260
4000
นี่คือเสี้ยวหนึ่งของวัฒนธรรมมนุษย์เรา
03:13
Of course what we did
69
193260
2000
แน่นอนว่าขณะที่พวกเราเจอ
03:15
when faced with such outrageous hyperbole ...
70
195260
3000
สถานการณ์ที่ดูเกินจริงขนาดนี้
03:18
(Laughter)
71
198260
2000
(หัวเราะ)
03:20
was what any self-respecting researchers
72
200260
3000
เป็นสิ่งที่นักวิจัยที่มีความนับถือในตัวเอง
03:23
would have done.
73
203260
3000
เลือกที่จะทำ
03:26
We took a page out of XKCD,
74
206260
2000
พวกเราเหมือนการ์ตูนล้อเลียน
03:28
and we said, "Stand back.
75
208260
2000
และพูดว่า "ถอยไป
03:30
We're going to try science."
76
210260
2000
พวกเราจะใช้วิทยาศาสตร์มาพิสูจน์"
03:32
(Laughter)
77
212260
2000
(หัวเราะ)
03:34
JM: Now of course, we were thinking,
78
214260
2000
JM: ต่อมา พวกเราคิดกันว่า
03:36
well let's just first put the data out there
79
216260
2000
เอาล่ะ พวกเราแยกเรื่องข้อมูล
03:38
for people to do science to it.
80
218260
2000
ให้กับทีมทดลองทางวิทยาศาสตร์ดูแลไปก่อน
03:40
Now we're thinking, what data can we release?
81
220260
2000
และพวกเราก็วางแผนว่า ข้อมูลจำพวกไหนที่เราควรจะนำออกสู่สาธารณะ?
03:42
Well of course, you want to take the books
82
222260
2000
แน่นอนว่า เราอยากจะทำให้ทุกๆคนเข้าถึง
03:44
and release the full text of these five million books.
83
224260
2000
เนื้อหาในหนังสือทั้งหมด
03:46
Now Google, and Jon Orwant in particular,
84
226260
2000
แต่กูเกิล โดยเฉพาะจอน ออร์วอนท์
03:48
told us a little equation that we should learn.
85
228260
2000
ทำให้พวกเราเรียนรู้ว่า
03:50
So you have five million, that is, five million authors
86
230260
3000
ในหนังสือห้าล้านเล่ม หมายถึง นักเขียนห้าล้านคน
03:53
and five million plaintiffs is a massive lawsuit.
87
233260
3000
หรือก็คือโจทก์ที่สามารถฟ้องเราได้ห้าล้านคนเช่นกัน
03:56
So, although that would be really, really awesome,
88
236260
2000
ดังนั้นถึงแม้ว่าสิ่งนี้จะเจ๋งมากถึงมากที่สุด
03:58
again, that's extremely, extremely impractical.
89
238260
3000
แต่มันก็ไม่น่าใช้มากถึงมากที่สุดอยู่ดี
04:01
(Laughter)
90
241260
2000
(หัวเราะ)
04:03
Now again, we kind of caved in,
91
243260
2000
ด้วยเหตุนี้ พวกเราเลยกลับมาคิดทบทวน
04:05
and we did the very practical approach, which was a bit less awesome.
92
245260
3000
แล้วริเริ่มโครงการที่เน้นเรื่องการใช้งาน แต่ลดความเจ๋งลงไปหน่อย
04:08
We said, well instead of releasing the full text,
93
248260
2000
พวกเราคิดว่า แทนที่จะปล่อยตัวหนังสือทั้งหมดออกไป
04:10
we're going to release statistics about the books.
94
250260
2000
ก็ปล่อยเฉพาะสถิติของเนื้อหาที่อยู่หนังสือเหล่านั้น
04:12
So take for instance "A gleam of happiness."
95
252260
2000
ตัวอย่างเช่น "ความ สุข แวว วับ"
04:14
It's four words; we call that a four-gram.
96
254260
2000
4 คำนี้ พวกเราขอเรียกมันว่า "4 gram" นะครับ
04:16
We're going to tell you how many times a particular four-gram
97
256260
2000
พวกเราสามารถบอกคุณได้ว่า คำ 4 gram นี้ปรากฏในหนังสือที่ตีพิมพ์
04:18
appeared in books in 1801, 1802, 1803,
98
258260
2000
ระหว่างปี ค.ศ. 1801, 1802, 1802 จนถึงปีค.ศ 2008
04:20
all the way up to 2008.
99
260260
2000
ทั้งหมดกี่ครั้ง
04:22
That gives us a time series
100
262260
2000
พวกเราสามารถทำความเข้าใจคำๆนั้น
04:24
of how frequently this particular sentence was used over time.
101
264260
2000
จากความถี่ที่ถูกหยิบยกมาใช้ตั้งแต่อดีตจนถึงปัจจุบัน
04:26
We do that for all the words and phrases that appear in those books,
102
266260
3000
พวกเราทำแบบนี้กับคำและวลีทุกๆคำที่ปรากฏอยู่ในหนังสือ
04:29
and that gives us a big table of two billion lines
103
269260
3000
ซึ่งทำให้เราได้ตารางที่ยาวประมาณสองพันล้านบรรทัด
04:32
that tell us about the way culture has been changing.
104
272260
2000
สิ่งเหล่านี้แสดงถึงความเปลี่ยนแปลงทางวัฒนธรรมของมนุษย์
04:34
ELA: So those two billion lines,
105
274260
2000
ELA: สำหรับสองพันล้านบรรทัดเหล่านั้น
04:36
we call them two billion n-grams.
106
276260
2000
เราขอเรียกมันว่าสองพันล้าน n-gram นะครับ
04:38
What do they tell us?
107
278260
2000
มันบอกอะไรเราบ้าง?
04:40
Well the individual n-grams measure cultural trends.
108
280260
2000
เอาล่ะ n-gram ของวลีหนึ่งๆสามารถวัดกระแสทางวัฒนธรรมได้
04:42
Let me give you an example.
109
282260
2000
ขอผมลองยกตัวอย่างให้เห็นภาพนะครับ
04:44
Let's suppose that I am thriving,
110
284260
2000
สมมติว่าผมกำลังประสบความสำเร็จ
04:46
then tomorrow I want to tell you about how well I did.
111
286260
2000
ในวันต่อมาผมอยากเล่าให้่คุณฟังว่าผมทำได้ดีแค่ไหน
04:48
And so I might say, "Yesterday, I throve."
112
288260
3000
ผมจะต้องพูดว่า "Yesterday, I throve"
04:51
Alternatively, I could say, "Yesterday, I thrived."
113
291260
3000
หรือพูดว่า "Yesterday, I thrived"
04:54
Well which one should I use?
114
294260
3000
ทีนี้ผมควรจะใช้คำไหนดีล่ะ?
04:57
How to know?
115
297260
2000
จะรู้ได้อย่างไร?
04:59
As of about six months ago,
116
299260
2000
ถ้าเป็นเมื่อหกเดือนที่แล้ว
05:01
the state of the art in this field
117
301260
2000
หากต้องการทราบข้อมูลเชิงลึกทางด้านนี้
05:03
is that you would, for instance,
118
303260
2000
คุณอาจจะต้องสอบถามผู้เชี่ยวชาญ
05:05
go up to the following psychologist with fabulous hair,
119
305260
2000
ซึ่งก็คือ นักจิตวิทยาที่ทรงผมสวยงามท่านนี้นี่เอง
05:07
and you'd say,
120
307260
2000
คุณอาจถามว่า
05:09
"Steve, you're an expert on the irregular verbs.
121
309260
3000
"คุณสตีฟครับ คุณเป็นผู้เชี่ยวชาญทางด้านกริยา 3 ช่อง
05:12
What should I do?"
122
312260
2000
บอกผมหน่อยว่าควรใช้คำไหน?"
05:14
And he'd tell you, "Well most people say thrived,
123
314260
2000
และเขาอาจจะบอกคุณว่า "อืม คนส่วนใหญ่ใช้ thrived"
05:16
but some people say throve."
124
316260
3000
แต่บางคนก็ใช้ throve"
05:19
And you also knew, more or less,
125
319260
2000
และคุณก็อาจรู้อยู่แล้วว่า
05:21
that if you were to go back in time 200 years
126
321260
3000
หากคุณย้อนกลับไปเมื่อ 200 ปีที่แล้ว
05:24
and ask the following statesman with equally fabulous hair,
127
324260
3000
และถามรัฐบุรุษอีกท่านที่ทรงผมสวยไม่แพ้กัน
05:27
(Laughter)
128
327260
3000
(หัวเราะ)
05:30
"Tom, what should I say?"
129
330260
2000
"คุณทอมครับ ผมควรใช้คำไหนดี?"
05:32
He'd say, "Well, in my day, most people throve,
130
332260
2000
เขาอาจจะบอกว่า "อืม ในยุคที่ผมอยู่ ส่วนใหญ่ใช้ throve
05:34
but some thrived."
131
334260
3000
บางคนใช้ thrived"
05:37
So now what I'm just going to show you is raw data.
132
337260
2000
ทีนี้สิ่งที่ผมจะนำเสนอให้ทุกท่านเห็นก็คือข้อมูลดิบ
05:39
Two rows from this table of two billion entries.
133
339260
4000
กราฟสองเส้นที่เป็นสถิติจากตารางสองพันล้านบรรทัด
05:43
What you're seeing is year by year frequency
134
343260
2000
สิ่งที่คุณเห็นก็คือความถี่ของการใช้คำว่า
05:45
of "thrived" and "throve" over time.
135
345260
3000
"thrived" และ "throve" ที่ผ่านมาปีต่อปี
05:49
Now this is just two
136
349260
2000
ซึ่งนี่เป็นเพียงสอง
05:51
out of two billion rows.
137
351260
3000
ในสองพันล้านบรรทัด
05:54
So the entire data set
138
354260
2000
หมายความว่าข้อมูลทั้งหมด
05:56
is a billion times more awesome than this slide.
139
356260
3000
ก็จะเจ๋งกว่าในสไลด์นี้อีกเป็นพันล้่านเท่า
05:59
(Laughter)
140
359260
2000
(หัวเราะ)
06:01
(Applause)
141
361260
4000
(ปรบมือ)
06:05
JM: Now there are many other pictures that are worth 500 billion words.
142
365260
2000
JM: ตอนนี้ก็จะมีรูปภาพหลายรูปที่สื่อคำกว่าห้าแสนล้านคำ
06:07
For instance, this one.
143
367260
2000
เช่น คำนี้
06:09
If you just take influenza,
144
369260
2000
หากคุณพูดถึงไข้หวัดใหญ่
06:11
you will see peaks at the time where you knew
145
371260
2000
จากจุดสูงสุดในรูปนี้คุณจะสรุปได้ว่า
06:13
big flu epidemics were killing people around the globe.
146
373260
3000
การระบาดได้คร่าชีวิตผู้คนทั่วทุกมุมโลก
06:16
ELA: If you were not yet convinced,
147
376260
3000
ELA: เผื่อคุณยังไม่เชื่อนะครับ
06:19
sea levels are rising,
148
379260
2000
ระดับน้ำทะเลกำลังสูงขึ้น
06:21
so is atmospheric CO2 and global temperature.
149
381260
3000
เช่นเดียวกับก๊่าซคาร์บอนไดออกไซต์และอุณหภูมิของโลก
06:24
JM: You might also want to have a look at this particular n-gram,
150
384260
3000
JM: คุณอาจอยากดู n-gram นี้ประกอบ
06:27
and that's to tell Nietzsche that God is not dead,
151
387260
3000
เพื่อบอก "นิตเช่" ว่าพระเจ้ายังไม่ตาย
06:30
although you might agree that he might need a better publicist.
152
390260
3000
ถึงแม้คุณจะคิดว่าเขาควรมีนักประชาสัมพันธ์ที่ดีกว่านี้
06:33
(Laughter)
153
393260
2000
(หัวเราะ)
06:35
ELA: You can get at some pretty abstract concepts with this sort of thing.
154
395260
3000
ELA: ทุกท่านสามารถได้แนวคิดสรุปได้จากข้อมูลเหล่านี้
06:38
For instance, let me tell you the history
155
398260
2000
เช่น ขอผมเล่าประวัติศาสตร์
06:40
of the year 1950.
156
400260
2000
ของปี ค.ศ. 1950 ก่อน
06:42
Pretty much for the vast majority of history,
157
402260
2000
ปีนี้เป็นปีประวัติศาสตร์ที่คนพูดถึงมากที่สุด
06:44
no one gave a damn about 1950.
158
404260
2000
ทั้งที่ก่อนหน้านั้นไม่มีใครพูดถึงปี ค.ศ.1950 นี้เลย
06:46
In 1700, in 1800, in 1900,
159
406260
2000
ตั้งแต่ปี 1700, 1800, 1900
06:48
no one cared.
160
408260
3000
ไม่มีเลย
06:52
Through the 30s and 40s,
161
412260
2000
ย้อนไปยังปี 1930-1940
06:54
no one cared.
162
414260
2000
ก็ยังไม่เป็นที่กล่าวถึงเช่นกัน
06:56
Suddenly, in the mid-40s,
163
416260
2000
จนกระทั่งในช่วงกลางศตวรรษ 1940
06:58
there started to be a buzz.
164
418260
2000
ทุกคนเริ่มเอ่ยถึงปีนี้
07:00
People realized that 1950 was going to happen,
165
420260
2000
ผู้คนเริ่มตระหนักว่าปี 1950 กำลังจะมา
07:02
and it could be big.
166
422260
2000
และมันจะยิ่งใหญ่มาก
07:04
(Laughter)
167
424260
3000
(หัวเราะ)
07:07
But nothing got people interested in 1950
168
427260
3000
แต่ไม่มีอะไรทำให้ผู้คนสนใจปี 1950
07:10
like the year 1950.
169
430260
3000
เหมือนปี 1950
07:13
(Laughter)
170
433260
3000
(หัวเราะ)
07:16
People were walking around obsessed.
171
436260
2000
ตั้งแต่นั้นมาผู้คนเริ่มหมกหมุ่น
07:18
They couldn't stop talking
172
438260
2000
พวกเขาไม่หยุดเอ่ยถึง
07:20
about all the things they did in 1950,
173
440260
3000
สิ่งที่เกิดขึ้นทั้งหมดในปี 1950
07:23
all the things they were planning to do in 1950,
174
443260
3000
แผนทั้งหมดที่พวกเขาจะทำในปี 1950
07:26
all the dreams of what they wanted to accomplish in 1950.
175
446260
5000
ความฝันทั้งหมดที่พวกเขาอยากทำให้สำเร็จในปี 1950
07:31
In fact, 1950 was so fascinating
176
451260
2000
จริงๆแล้ว ปี 1950 น่าสนใจมาก
07:33
that for years thereafter,
177
453260
2000
หลังจากปีนั้น
07:35
people just kept talking about all the amazing things that happened,
178
455260
3000
ผู้คนก็พูดถึงแต่สิ่งอัศจรรย์ที่เกิดขึ้น
07:38
in '51, '52, '53.
179
458260
2000
ในปี 51 52 53
07:40
Finally in 1954,
180
460260
2000
และสุดท้ายปี 1954
07:42
someone woke up and realized
181
462260
2000
อยู่ๆก็มีใครซักคนตื่นขึ้นมาและตระหนักว่า
07:44
that 1950 had gotten somewhat passé.
182
464260
4000
เหตุการณ์ 1950 ได้ผ่านพ้นไปแล้ว
07:48
(Laughter)
183
468260
2000
(หัวเราะ)
07:50
And just like that, the bubble burst.
184
470260
2000
และฟองสบู่่ก็แตก ณ ปีนั้นเอง
07:52
(Laughter)
185
472260
2000
(หัวเราะ)
07:54
And the story of 1950
186
474260
2000
และเรื่องราวของปี 1950
07:56
is the story of every year that we have on record,
187
476260
2000
ก็เป็นเรื่องราวที่ได้รับการบันทึกเพิ่มเข้าไปทุกๆปี
07:58
with a little twist, because now we've got these nice charts.
188
478260
3000
แม้จะมีหักมุมเล็กน้อย แต่ตารางก็ดูดีทีเดียว
08:01
And because we have these nice charts, we can measure things.
189
481260
3000
และเพราะพวกเรามีกราฟที่สวยแบบนี้ เราถึงสามารถคำนวนเรื่องราวได้
08:04
We can say, "Well how fast does the bubble burst?"
190
484260
2000
เราบอกได้ว่า "ฟองสบู่แตกเร็วแค่ไหน?"
08:06
And it turns out that we can measure that very precisely.
191
486260
3000
กลายเป็นว่าพวกเราสามารถวัดมันได้อย่างแม่นยำ
08:09
Equations were derived, graphs were produced,
192
489260
3000
แก้ปัญหาได้ตรงจุด สร้างกราฟขึ้นมา
08:12
and the net result
193
492260
2000
และผลลัพธ์ก็คือ
08:14
is that we find that the bubble bursts faster and faster
194
494260
3000
พวกเราเรียนรู้ว่ายิ่งนานวันฟองสบู่
08:17
with each passing year.
195
497260
2000
ก็ยิ่งแตกเร็วขึ้น
08:19
We are losing interest in the past more rapidly.
196
499260
5000
พวกเราหยุดสนใจในประเด็นต่างๆเร็วกว่าเมื่อก่อน
08:24
JM: Now a little piece of career advice.
197
504260
2000
JM: ต่อมา ผมขอแนะนำเรื่องการงานซักหน่อย
08:26
So for those of you who seek to be famous,
198
506260
2000
สำหรับคนที่อยากมีชื่อเสียงนะครับ
08:28
we can learn from the 25 most famous political figures,
199
508260
2000
ผมได้แนวคิดนี้มาจากข้อมูลของนักการเมือง นักเขียน นักแสดงและอาชีพอื่นๆ
08:30
authors, actors and so on.
200
510260
2000
ที่มีชื่อเสียงทั้ง 25 ท่านนี้นะครับ
08:32
So if you want to become famous early on, you should be an actor,
201
512260
3000
หากคุณอยากดังตอนอายุน้อย คุณควรจะเป็นนักแสดง
08:35
because then fame starts rising by the end of your 20s --
202
515260
2000
เพราะความดังจะเพิ่มขึ้นช่วงปลายอายุ 20
08:37
you're still young, it's really great.
203
517260
2000
เพราะคุณยังหนุ่มยังสาวอยู่
08:39
Now if you can wait a little bit, you should be an author,
204
519260
2000
หากคุณรออีกหน่อย คุณก็ยังเป็นนักเขียนได้
08:41
because then you rise to very great heights,
205
521260
2000
เพราะคุณสามารถไต่เต้าไปได้อีกเยอะ
08:43
like Mark Twain, for instance: extremely famous.
206
523260
2000
อย่างคุณ มาร์ค ทเวน ดังมากเลยครับ
08:45
But if you want to reach the very top,
207
525260
2000
แต่่หากคุณอยากไต่เต้าไปถึงจุดสูงสุด
08:47
you should delay gratification
208
527260
2000
คุณควรจะยืดเวลานานอีกซักช่วงหนึ่ง
08:49
and, of course, become a politician.
209
529260
2000
เพื่อก้าวไปเป็นนักการเมือง
08:51
So here you will become famous by the end of your 50s,
210
531260
2000
ฉะนั้น คุณก็จะมีชื่อเสียงมากในช่วงปลายอายุ 50
08:53
and become very, very famous afterward.
211
533260
2000
และจะโด่งดังมากหลังจากนั้น
08:55
So scientists also tend to get famous when they're much older.
212
535260
3000
เช่นเดียวกับนักวิทยาศาสตร์ที่มีแนวโน้มจะมีชื่อเสียงตอนอายุมากแล้ว
08:58
Like for instance, biologists and physics
213
538260
2000
ส่วนนักชีววิทยา นักฟิสิกส์
09:00
tend to be almost as famous as actors.
214
540260
2000
แนวโน้มที่จะโด่งดังเทียบเท่ากับนักแสดง
09:02
One mistake you should not do is become a mathematician.
215
542260
3000
หนึ่งในอาชีพที่ไม่ควรทำก็คือ นักคณิตศาสตร์
09:05
(Laughter)
216
545260
2000
(หัวเราะ)
09:07
If you do that,
217
547260
2000
คุณอาจจะมุ่งมั่น
09:09
you might think, "Oh great. I'm going to do my best work when I'm in my 20s."
218
549260
3000
และคิดในใจว่า "ฉันจะทำให้ดีที่สุดตอนอายุ 20 ต้นๆ"
09:12
But guess what, nobody will really care.
219
552260
2000
แต่เชื่อเถอะ ไม่มีใครสนใจหรอก
09:14
(Laughter)
220
554260
3000
(หัวเราะ)
09:17
ELA: There are more sobering notes
221
557260
2000
ELA: ในข้อมูลของเรา
09:19
among the n-grams.
222
559260
2000
ยังมี n-gram ที่น่าสนใจกว่านั้น
09:21
For instance, here's the trajectory of Marc Chagall,
223
561260
2000
เช่น กรณีของ มาร์ค ชาร์กาล
09:23
an artist born in 1887.
224
563260
2000
นักศิลปะที่เกิดในปี 1887
09:25
And this looks like the normal trajectory of a famous person.
225
565260
3000
ดูเผินๆเขาก็เหมือนกับคนดังทั่วๆไป
09:28
He gets more and more and more famous,
226
568260
4000
เขาโด่งดังขึ้นมาเรื่อยๆเลยครับ
09:32
except if you look in German.
227
572260
2000
ยกเว้นในเยอรมัน
09:34
If you look in German, you see something completely bizarre,
228
574260
2000
หากคุณดูข้อมูลในเยอรมัน คุณจะสังเกตเห็นอะไรบางอย่าง
09:36
something you pretty much never see,
229
576260
2000
บางอย่างที่คุณไม่เคยเห็น
09:38
which is he becomes extremely famous
230
578260
2000
นั่นคือ เขาโด่งดัังมาก
09:40
and then all of a sudden plummets,
231
580260
2000
แล้วความโด่งดังก็ฮวบตกลงอย่างรวดเร็ว
09:42
going through a nadir between 1933 and 1945,
232
582260
3000
โดยจุดต่ำสุดอยู่ระหว่างปี 1933 ถึง 1945
09:45
before rebounding afterward.
233
585260
3000
และหลังจากนั้นก็กลับขึ้นมาใหม่
09:48
And of course, what we're seeing
234
588260
2000
และสิ่งที่พวกเราพบก็คือ
09:50
is the fact Marc Chagall was a Jewish artist
235
590260
3000
จริงๆแล้ว มาร์ค ชาร์กาล เป็นนักศิลปะชาวยิว
09:53
in Nazi Germany.
236
593260
2000
ในนาซีเยอรมัน
09:55
Now these signals
237
595260
2000
ความผิดปกติเหล่านี้
09:57
are actually so strong
238
597260
2000
ค่อนข้างเห็นได้ชัด
09:59
that we don't need to know that someone was censored.
239
599260
3000
พวกเราไม่จำเป็นต้องรู้มาก่อนว่าใครถูกเซ็นเซอร์
10:02
We can actually figure it out
240
602260
2000
เราสามารถสรุปได้จาก
10:04
using really basic signal processing.
241
604260
2000
ความผิดปกติพื้นฐานเหล่านี้
10:06
Here's a simple way to do it.
242
606260
2000
ซึ่งก็เป็นวิธีที่ง่ายมาก
10:08
Well, a reasonable expectation
243
608260
2000
เอาล่ะครับ ความคาดหวังที่เป็นเหตุเป็นผล
10:10
is that somebody's fame in a given period of time
244
610260
2000
ก็คือชื่อเสียงของใครบางคนในช่วงเวลาหนึ่งๆ
10:12
should be roughly the average of their fame before
245
612260
2000
ไม่ควรจะต่างจากช่วงก่อนหน้าหรือ
10:14
and their fame after.
246
614260
2000
หลังจากนั้นมาก
10:16
So that's sort of what we expect.
247
616260
2000
และนั่นเป็นสิ่งที่พวกเราหวังไว้
10:18
And we compare that to the fame that we observe.
248
618260
3000
และเราได้ลองเปรียบเทียบคนที่พวกเราเฝ้าสังเกตการณ์
10:21
And we just divide one by the other
249
621260
2000
ลองแยกแยะข้อมูลอย่างละเอียด
10:23
to produce something we call a suppression index.
250
623260
2000
เพื่อยกประเด็นที่เราเรียกว่า "ดัชนีความต่าง"
10:25
If the suppression index is very, very, very small,
251
625260
3000
เมื่อไหร่ที่ดัชนีตัวนั้นอยู่ต่ำมากๆ
10:28
then you very well might be being suppressed.
252
628260
2000
หมายความว่าคุณอาจถูกเซ็นเซอร์ไว้
10:30
If it's very large, maybe you're benefiting from propaganda.
253
630260
3000
และเมื่อไหร่ที่มันสูงเกิน หมายถึงคุณอาจได้รับการประชาสัมพันธ์
10:34
JM: Now you can actually look at
254
634260
2000
JM: จนถึงขณะนี้เชื่อว่่าคุณอาจรู้แล้ว
10:36
the distribution of suppression indexes over whole populations.
255
636260
3000
การกระจายอยู่ของดัชนีความต่างของประชากร
10:39
So for instance, here --
256
639260
2000
ตัวอย่างเช่น ในนี้
10:41
this suppression index is for 5,000 people
257
641260
2000
ดัชนีนี้เป็นความต่างของผู้คน 5,000 คน
10:43
picked in English books where there's no known suppression --
258
643260
2000
ที่หยิบยกมาจากหนังสืออังกฤษที่ไม่ได้ถูกเซ็นเซอร์ใดๆ
10:45
it would be like this, basically tightly centered on one.
259
645260
2000
จะอยู่ในแบบที่เกาะกลุ่มเหนียวแน่นตรงกลาง
10:47
What you expect is basically what you observe.
260
647260
2000
สิ่งที่ึคุณคาดหวังไว้จะเป็นสิ่งที่คุณสังเกตการณ์
10:49
This is distribution as seen in Germany --
261
649260
2000
นี่เป็นการกระจายตัวในหนังสือเยอรมัน
10:51
very different, it's shifted to the left.
262
651260
2000
ต่างกันมาก มันโอนเอียงไปทางซ้าย
10:53
People talked about it twice less as it should have been.
263
653260
3000
ผู้คนเอ่ยถึงมันน้้อยกว่าที่เป็นอยู่ประมาณ 2 เท่า
10:56
But much more importantly, the distribution is much wider.
264
656260
2000
แต่ที่สำคัญกว่านั้นคือ การกระจายออกเป็นวงกว้าง
10:58
There are many people who end up on the far left on this distribution
265
658260
3000
มีผู้คนจำนวนไม่น้อยที่ประจำอยู่ฝั่งซ้ายมือ
11:01
who are talked about 10 times fewer than they should have been.
266
661260
3000
ถูกพูดถึงน้อยกว่าที่ควรจะเป็นกว่าสิบเท่า
11:04
But then also many people on the far right
267
664260
2000
แต่ผู้คนทางฝั่งขวามือ
11:06
who seem to benefit from propaganda.
268
666260
2000
มีแนวโน้มจะได้ประโยชน์จากการประชาสัมพันธ์
11:08
This picture is the hallmark of censorship in the book record.
269
668260
3000
ภาพนี้เป็นรูปแบบเซ็นเซอร์มาตรฐานในสถิติเรา
11:11
ELA: So culturomics
270
671260
2000
ELA: ฉะนั้นวัฒนธรรมศาสตร์
11:13
is what we call this method.
271
673260
2000
ก็คือชื่อที่เราใช้เรียกวิธีนี้
11:15
It's kind of like genomics.
272
675260
2000
คล้ายๆกับจีโนมศาสตร์
11:17
Except genomics is a lens on biology
273
677260
2000
ต่างกันแค่จีโนมศาสตร์เป็นมุมมองของศาสตร์ชีววิทยา
11:19
through the window of the sequence of bases in the human genome.
274
679260
3000
ในโลกที่เป็นผลจากพื้นฐานของจีโนมมนุษย์
11:22
Culturomics is similar.
275
682260
2000
วัฒนธรรมศาสตร์ก็คล้ายๆกัน
11:24
It's the application of massive-scale data collection analysis
276
684260
3000
มันเป็นโปรแกรมวิเคราะห์ชุดข้อมูลขนาดใหญ่
11:27
to the study of human culture.
277
687260
2000
ที่ใช้ศึกษาวัฒนธรรมมนุษย์
11:29
Here, instead of through the lens of a genome,
278
689260
2000
แทนที่จะเป็นมุมมองทางฝั่งจีโนม
11:31
through the lens of digitized pieces of the historical record.
279
691260
3000
แต่เป็นมุมมองจากข้อมูลบันทึกประวัติศาสตร์ดิจิทัล
11:34
The great thing about culturomics
280
694260
2000
วัฒนธรรมศาสตร์ดีตรงที่
11:36
is that everyone can do it.
281
696260
2000
ทุกๆคนสามารถลงมือทำได้เอง
11:38
Why can everyone do it?
282
698260
2000
ทำไมทุกคนถึงทำได้น่ะหรือ?
11:40
Everyone can do it because three guys,
283
700260
2000
ก็เพราะชายสามคนนี้
11:42
Jon Orwant, Matt Gray and Will Brockman over at Google,
284
702260
3000
"จอน ออร์วอนท์" "แมต เกรย์" และ "วิลล์ บร๊อคแมน" จากกูเกิล
11:45
saw the prototype of the Ngram Viewer,
285
705260
2000
ได้เล็งเห็นประโยชน์ของตัวช่วย Ngram Viewer
11:47
and they said, "This is so fun.
286
707260
2000
และพวกเขาเห็นตรงกันว่า "มันสนุกสุดยอด
11:49
We have to make this available for people."
287
709260
3000
พวกเราต้องทำให้ทุกคนได้ลองใช้บ้าง"
11:52
So in two weeks flat -- the two weeks before our paper came out --
288
712260
2000
จากนั้นมาสองอาทิตย์ ก่อนที่จะทำรายงานเสร็จ
11:54
they coded up a version of the Ngram Viewer for the general public.
289
714260
3000
พวกเขาเขียนเว็ป Ngram Viewer ในแบบที่ใครก็เข้าใช้ได้
11:57
And so you too can type in any word or phrase that you're interested in
290
717260
3000
ฉะนั้นคุณสามารถพิมพ์คำหรือวลีใดๆก็ได้ที่คุณสนใจ
12:00
and see its n-gram immediately --
291
720260
2000
และสำรวจ N-gram ของมันได้ทันที
12:02
also browse examples of all the various books
292
722260
2000
และสามารถเปิดตัวอย่างของหนังสือทั้งหลาย
12:04
in which your n-gram appears.
293
724260
2000
ที่มี n-gram ปรากฏอยู่
12:06
JM: Now this was used over a million times on the first day,
294
726260
2000
JM: ฟังค์ชั่นนี้ถูกใช้เป็นล้านครั้งในวันเปิดตัว
12:08
and this is really the best of all the queries.
295
728260
2000
และตัวอย่างนี้ถือเป็นหนึ่งในจำนวนคำค้นที่ดีที่สุด
12:10
So people want to be their best, put their best foot forward.
296
730260
3000
ผู้คนอยากทำตัวเองให้ดีที่สุด เริ่มต้นจากสิ่งดีที่สุด
12:13
But it turns out in the 18th century, people didn't really care about that at all.
297
733260
3000
แต่สำหรับศตวรรษที่ 18 กลับไม่มีใครสนใจคำๆนี้เท่าไหร่
12:16
They didn't want to be their best, they wanted to be their beft.
298
736260
3000
พวกเขาไม่ได้อยาก "Best" ที่สุด พวกเขาอยาก "Beft" ที่สุด
12:19
So what happened is, of course, this is just a mistake.
299
739260
3000
สิ่งที่เกิดขึ้นก็คือ แน่นอนว่ามันเป็นเพียงแค่ความผิดเล็กๆน้อยๆ
12:22
It's not that strove for mediocrity,
300
742260
2000
ไม่ใช่ความอยากโดดเด่น
12:24
it's just that the S used to be written differently, kind of like an F.
301
744260
3000
เป็นแค่การเขียนตัว S อีกแบบที่คล้ายกับตัว F
12:27
Now of course, Google didn't pick this up at the time,
302
747260
3000
แต่สำหรับตอนนี้ กูเกิลยังไม่หยิบยกตัวนี้ขึ้นมาจริงจัง
12:30
so we reported this in the science article that we wrote.
303
750260
3000
แต่พวกเราได้รายงานเรื่องนี้ในบทความที่พวกเราเขียนขึ้น
12:33
But it turns out this is just a reminder
304
753260
2000
เพื่อเตือนตัวเองเท่านั้น
12:35
that, although this is a lot of fun,
305
755260
2000
ถึงแม้ว่ามันจะสนุกมากก็ตาม
12:37
when you interpret these graphs, you have to be very careful,
306
757260
2000
แต่ตอนที่คุณแปลกราฟเหล่านี้ออกมา คุณต้องระวังให้มาก
12:39
and you have to adopt the base standards in the sciences.
307
759260
3000
และใช้วิทยาศาสตร์เป็นพื้นฐาน
12:42
ELA: People have been using this for all kinds of fun purposes.
308
762260
3000
ELA: ผู้คนใช้สิ่งนี้เล่นสนุกในรูปแบบต่างๆ
12:45
(Laughter)
309
765260
7000
(หัวเราะ)
12:52
Actually, we're not going to have to talk,
310
772260
2000
จริงๆแล้วพวกเราแทบไม่ต้องพูดเลย
12:54
we're just going to show you all the slides and remain silent.
311
774260
3000
แค่โชว์สไลด์เหล่านี้แล้วอยู่กันเงียบๆ
12:57
This person was interested in the history of frustration.
312
777260
3000
คนๆนี้สนใจเรื่องประวัติศาสตร์ของความไม่พอใจ
13:00
There's various types of frustration.
313
780260
3000
ความไม่พอใจมีหลากหลายประเภท
13:03
If you stub your toe, that's a one A "argh."
314
783260
3000
หากคุณเดินสะดุด จะอุทานออกมาเป็น "อา" สระ "า" ตัวเดียว
13:06
If the planet Earth is annihilated by the Vogons
315
786260
2000
แต่ถ้าโลกกำลังจะถูกเอเลี่ยนโวกอนทำลาย
13:08
to make room for an interstellar bypass,
316
788260
2000
เพื่อเว้นความห่างระหว่างดวงดาว
13:10
that's an eight A "aaaaaaaargh."
317
790260
2000
คุณจะอุทานเป็น "อาาาาาาาา" สระ "า" 8 ตัว
13:12
This person studies all the "arghs,"
318
792260
2000
คนๆนี้ศึกษาเกี่ยวกับ "อา" ทั้งหลาย
13:14
from one through eight A's.
319
794260
2000
ตั้งแต่ "า" หนึ่งตัวจนถึงแปดตัว
13:16
And it turns out
320
796260
2000
ได้ความว่า
13:18
that the less-frequent "arghs"
321
798260
2000
"อา" ที่ความถี่ที่น้อยกว่า
13:20
are, of course, the ones that correspond to things that are more frustrating --
322
800260
3000
จะเป็นเหตุการณ์ที่กดดันกว่า
13:23
except, oddly, in the early 80s.
323
803260
3000
ยกเว้นในช่วงต้นศตวรรษ 1980
13:26
We think that might have something to do with Reagan.
324
806260
2000
พวกเราคิดว่าเรแกนจะต้องมีเอี่ยวกับข้อมูลนี้แน่ๆ
13:28
(Laughter)
325
808260
2000
(หัวเราะ)
13:30
JM: There are many usages of this data,
326
810260
3000
JM: มีการใช้ข้อมูลนี้ไม่น้อยทีเดียว
13:33
but the bottom line is that the historical record is being digitized.
327
813260
3000
สรุปแล้วตอนนี้ประวัติศาสตร์ได้บันทึกอยู่ในโลกดิจิทัลแล้ว
13:36
Google has started to digitize 15 million books.
328
816260
2000
กูเกิลได้เริ่มทำหนังสือเป็นดิจิทัลประมาณ 15 ล้านเล่ม
13:38
That's 12 percent of all the books that have ever been published.
329
818260
2000
ซึ่งเป็นเพียง 12 เปอร์เซนต์ของหนังสือทั้งหมดที่เคยตีพิมพ์
13:40
It's a sizable chunk of human culture.
330
820260
3000
เป็นเพียงเสี้ยวหนึ่งของวัฒนธรรมมนุษย์เท่านั้น
13:43
There's much more in culture: there's manuscripts, there newspapers,
331
823260
3000
ในวัฒนธรรมเรายังมีอีกมากมายกว่านี้ ไหนจะมีหนังสือที่เขียนด้วยลายมืออีก ไหนจะหนังสือพิมพ์
13:46
there's things that are not text, like art and paintings.
332
826260
2000
หรือพวกที่ไม่ได้อยู่ในรูปแบบตัวหนังสือ เช่น ศิลปะและรูปภาพต่างๆ
13:48
These all happen to be on our computers,
333
828260
2000
สิ่งเหล่านี้จะเกิดขึ้นบนคอมพิวเตอร์ของพวกเรา
13:50
on computers across the world.
334
830260
2000
คอมพิวเตอร์จากทั่วทุกมุมโลก
13:52
And when that happens, that will transform the way we have
335
832260
3000
และเมื่อมันเกิดขึ้นแล้ว มันจะเปลี่ยนแปลงรูปแบบที่เราเคย
13:55
to understand our past, our present and human culture.
336
835260
2000
ทำความเข้าใจวัฒนธรรมมนุษย์ในอดีต ปัจจุบัน และอนาคต
13:57
Thank you very much.
337
837260
2000
ขอบคุณมากครับ
13:59
(Applause)
338
839260
3000
(ปรบมือ)
เกี่ยวกับเว็บไซต์นี้

ไซต์นี้จะแนะนำคุณเกี่ยวกับวิดีโอ YouTube ที่เป็นประโยชน์สำหรับการเรียนรู้ภาษาอังกฤษ คุณจะได้เห็นบทเรียนภาษาอังกฤษที่สอนโดยอาจารย์ชั้นนำจากทั่วโลก ดับเบิลคลิกที่คำบรรยายภาษาอังกฤษที่แสดงในแต่ละหน้าของวิดีโอเพื่อเล่นวิดีโอจากที่นั่น คำบรรยายเลื่อนซิงค์กับการเล่นวิดีโอ หากคุณมีความคิดเห็นหรือคำขอใด ๆ โปรดติดต่อเราโดยใช้แบบฟอร์มการติดต่อนี้

https://forms.gle/WvT1wiN1qDtmnspy7