What we learned from 5 million books

Điều chúng ta đã học từ 5 triệu cuốn sách

236,154 views

2011-09-20 ・ TED


New videos

What we learned from 5 million books

Điều chúng ta đã học từ 5 triệu cuốn sách

236,154 views ・ 2011-09-20

TED


Vui lòng nhấp đúp vào phụ đề tiếng Anh bên dưới để phát video.

Translator: Ha Thu Hai Reviewer: Duc Nguyen
00:15
Erez Lieberman Aiden: Everyone knows
0
15260
2000
Erez Lieberman Aiden : Mọi người đều biết
00:17
that a picture is worth a thousand words.
1
17260
3000
một bức ảnh đáng giá một nghìn từ.
00:22
But we at Harvard
2
22260
2000
Nhưng chúng tôi, tại Harvard
00:24
were wondering if this was really true.
3
24260
3000
luôn thắc mắc liệu điều đó có thật sự đúng.
00:27
(Laughter)
4
27260
2000
(Tiếng cười)
00:29
So we assembled a team of experts,
5
29260
4000
Vì vậy chúng tôi tập hợp một đội những chuyên gia,
00:33
spanning Harvard, MIT,
6
33260
2000
từ khắp Harvard , MIT,
00:35
The American Heritage Dictionary, The Encyclopedia Britannica
7
35260
3000
Từ điển Di sản Mỹ, Bách khoa toàn thư Britannica
00:38
and even our proud sponsors,
8
38260
2000
và cả nhà tài trợ tự hào của chúng tôi,
00:40
the Google.
9
40260
3000
Google.
00:43
And we cogitated about this
10
43260
2000
Chúng tôi đã ngẫm nghĩ về điều này
00:45
for about four years.
11
45260
2000
trong khoảng bốn năm.
00:47
And we came to a startling conclusion.
12
47260
5000
Và chúng tôi đã đi đến một kết luận đầy sửng sốt.
00:52
Ladies and gentlemen, a picture is not worth a thousand words.
13
52260
3000
Xin thưa với quí vị rằng, một bức tranh không đáng một nghìn từ.
00:55
In fact, we found some pictures
14
55260
2000
Thực tế, chúng tôi đã tìm thấy bức tranh
00:57
that are worth 500 billion words.
15
57260
5000
đáng giá 500 nghìn triệu từ!
01:02
Jean-Baptiste Michel: So how did we get to this conclusion?
16
62260
2000
Jean-Baptiste Michel: Vậy làm thế nào chúng tôi lại đi đến kết luận này?
01:04
So Erez and I were thinking about ways
17
64260
2000
Erez và tôi đã suy nghĩ cách
01:06
to get a big picture of human culture
18
66260
2000
nắm bắt được bức tranh toàn cảnh về nền văn hoá nhân loại
01:08
and human history: change over time.
19
68260
3000
và lịch sử loài người thay đổi qua thời gian.
01:11
So many books actually have been written over the years.
20
71260
2000
Có rất nhiều cuốn sách được viết ra trong nhiều năm.
01:13
So we were thinking, well the best way to learn from them
21
73260
2000
Vậy nên chúng tôi nghĩ rằng, vậy cách tốt nhất để học từ chúng
01:15
is to read all of these millions of books.
22
75260
2000
là đọc hết hàng triệu cuốn sách này.
01:17
Now of course, if there's a scale for how awesome that is,
23
77260
3000
Tất nhiên, nếu có thang đo về độ hoành tráng của dự án này,
01:20
that has to rank extremely, extremely high.
24
80260
3000
thì nó hoàn toàn, hoàn toàn hoành tráng.
01:23
Now the problem is there's an X-axis for that,
25
83260
2000
Nhưng vấn đề là còn có một trục ngang cho việc đánh giá này,
01:25
which is the practical axis.
26
85260
2000
đó là đánh giá về mức độ thực tế.
01:27
This is very, very low.
27
87260
2000
Thì điều này rất rất ít tính thực tế.
01:29
(Applause)
28
89260
3000
(Vỗ tay)
01:32
Now people tend to use an alternative approach,
29
92260
3000
Thế là người ta có khuynh hướng tìm cách khác,
01:35
which is to take a few sources and read them very carefully.
30
95260
2000
đó là chọn ra một số nguồn sách và đọc chúng thật cẩn thận.
01:37
This is extremely practical, but not so awesome.
31
97260
2000
Cách này cực kì thực tiễn nhưng không hoành tráng cho lắm.
01:39
What you really want to do
32
99260
3000
Điều mà chúng ta muốn thật sự
01:42
is to get to the awesome yet practical part of this space.
33
102260
3000
là một cách thức vừa hoành tráng vừa thực tiễn.
01:45
So it turns out there was a company across the river called Google
34
105260
3000
Và hoá ra có một công ty gọi là Google
01:48
who had started a digitization project a few years back
35
108260
2000
đã bắt đầu một dự án số hoá từ một vài năm trước
01:50
that might just enable this approach.
36
110260
2000
khiến ta thực hiện được cách thức đó.
01:52
They have digitized millions of books.
37
112260
2000
Họ đã số hoá hàng triệu cuốn sách.
01:54
So what that means is, one could use computational methods
38
114260
3000
Điều đó có nghĩa là, ta có thể dùng máy móc
01:57
to read all of the books in a click of a button.
39
117260
2000
để đọc tất cả các cuốn sách trong một cú nhấn chuột.
01:59
That's very practical and extremely awesome.
40
119260
3000
Cách này rất thực dụng và cực kì hoành tráng.
02:03
ELA: Let me tell you a little bit about where books come from.
41
123260
2000
ELA: Để tôi nói cho các bạn biết một chút về nơi những cuốn sách đó bắt nguồn.
02:05
Since time immemorial, there have been authors.
42
125260
3000
Từ thời xa xưa đã có những nhà sáng tác.
02:08
These authors have been striving to write books.
43
128260
3000
Những nhà sáng tác này nỗ lực viết những cuốn sách.
02:11
And this became considerably easier
44
131260
2000
Và việc này trở nên khá dễ dàng hơn
02:13
with the development of the printing press some centuries ago.
45
133260
2000
nhờ sự phát triển của công nghệ in ấn vài thế kỉ trước.
02:15
Since then, the authors have won
46
135260
3000
Từ đó, các nhà sáng tác đã có được
02:18
on 129 million distinct occasions,
47
138260
2000
129 triệu cơ hội
02:20
publishing books.
48
140260
2000
xuất bản những cuốn sách.
02:22
Now if those books are not lost to history,
49
142260
2000
Bây giờ nếu những cuốn sách đó không lạc vào lịch sử,
02:24
then they are somewhere in a library,
50
144260
2000
thì chúng sẽ ở đâu đó trong một thư viện nào đó,
02:26
and many of those books have been getting retrieved from the libraries
51
146260
3000
và nhiều trong số đó được lưu trữ
02:29
and digitized by Google,
52
149260
2000
và số hoá bởi Google,
02:31
which has scanned 15 million books to date.
53
151260
2000
nơi đến nay đã quét được 15 triệu cuốn sách.
02:33
Now when Google digitizes a book, they put it into a really nice format.
54
153260
3000
Bây giờ khi Google số hoá một cuốn sách, họ sẽ đưa nó vào một định dạng thật đẹp.
02:36
Now we've got the data, plus we have metadata.
55
156260
2000
Chúng ta có dữ liệu, thêm vào đó chúng ta có siêu dữ liệu.
02:38
We have information about things like where was it published,
56
158260
3000
Chúng ta có thông tin về những thứ như là cuốn sách đó được xuất bản khi nào,
02:41
who was the author, when was it published.
57
161260
2000
ai là tác giả, nó được xuất bản khi nào.
02:43
And what we do is go through all of those records
58
163260
3000
Và điều chúng tôi làm là lướt qua tất cả những bộ dữ liệu đó
02:46
and exclude everything that's not the highest quality data.
59
166260
4000
và loại bỏ hết những cái không phải là những dữ liệu chất lượng nhất.
02:50
What we're left with
60
170260
2000
Cái còn lại là
02:52
is a collection of five million books,
61
172260
3000
một tập hợp của 5 triệu cuốn sách.
02:55
500 billion words,
62
175260
3000
500 tỉ từ,
02:58
a string of characters a thousand times longer
63
178260
2000
một chuỗi kí tự dài hơn hàng ngàn lần
03:00
than the human genome --
64
180260
3000
hệ gien con người --
03:03
a text which, when written out,
65
183260
2000
một bản chữ mà khi viết ra
03:05
would stretch from here to the Moon and back
66
185260
2000
sẽ dài bằng từ đây đi đến mặt trăng rồi vòng lại
03:07
10 times over --
67
187260
2000
hơn 10 lần --
03:09
a veritable shard of our cultural genome.
68
189260
4000
một mảnh thực của hệ gien văn hoá cuả chúng ta.
03:13
Of course what we did
69
193260
2000
Tất nhiên, điều chúng tôi đã làm
03:15
when faced with such outrageous hyperbole ...
70
195260
3000
khi đối diện với một sự phóng đại tàn bạo như thế ...
03:18
(Laughter)
71
198260
2000
(Tiếng cười)
03:20
was what any self-respecting researchers
72
200260
3000
là điều mà bất kì nhà nghiên cứu đáng kính nào
03:23
would have done.
73
203260
3000
cũng sẽ làm.
03:26
We took a page out of XKCD,
74
206260
2000
Chúng tôi trích ra một trang trong chuỗi XKCD
03:28
and we said, "Stand back.
75
208260
2000
và chúng tôi nói "Khoan đã.
03:30
We're going to try science."
76
210260
2000
Chúng tôi sẽ thử thí nghiệm chúng."
03:32
(Laughter)
77
212260
2000
(Tiếng cười)
03:34
JM: Now of course, we were thinking,
78
214260
2000
JM : Tất nhiên, chúng tôi đã nghĩ là
03:36
well let's just first put the data out there
79
216260
2000
trước tiên hãy thử đưa dữ liệu ra
03:38
for people to do science to it.
80
218260
2000
cho người ta thí nghiệm.
03:40
Now we're thinking, what data can we release?
81
220260
2000
Và chúng tôi suy nghĩ, dữ liệu nào có thể đem ra đây?
03:42
Well of course, you want to take the books
82
222260
2000
Tất nhiên, các bạn muốn lấy những cuốn sách
03:44
and release the full text of these five million books.
83
224260
2000
và tung ra hết nguyên bản của 5 triệu cuốn sách.
03:46
Now Google, and Jon Orwant in particular,
84
226260
2000
Google, cụ thể là Jon Orwant,
03:48
told us a little equation that we should learn.
85
228260
2000
đã bảo cho chúng tôi một công thức mà chúng tôi nên nghĩ tới.
03:50
So you have five million, that is, five million authors
86
230260
3000
Chúng tôi có 5 triệu cuốn sách, tức bằng với năm triệu tác giả
03:53
and five million plaintiffs is a massive lawsuit.
87
233260
3000
và năm triệu đơn kiện cho một cuộc kiện tụng khổng lồ.
03:56
So, although that would be really, really awesome,
88
236260
2000
Vì thế, dù cách này rất rất hoành tráng,
03:58
again, that's extremely, extremely impractical.
89
238260
3000
nhưng một lần nữa lại cực kì cực kì không thực tế.
04:01
(Laughter)
90
241260
2000
(Tiếng cười)
04:03
Now again, we kind of caved in,
91
243260
2000
Một lần nữa chúng tôi lại nhượng bộ
04:05
and we did the very practical approach, which was a bit less awesome.
92
245260
3000
Chúng tôi đã thử cách thực tế nhất nhưng ít hoành tráng
04:08
We said, well instead of releasing the full text,
93
248260
2000
Chúng tôi nói rằng, được rồi, thay vì phát hành nguyên cả văn bản,
04:10
we're going to release statistics about the books.
94
250260
2000
chúng tôi sẽ tung ra thống kê về những quyển sách đó.
04:12
So take for instance "A gleam of happiness."
95
252260
2000
Hãy lấy một ví dụ cụm từ "Tia sáng hạnh phúc"
04:14
It's four words; we call that a four-gram.
96
254260
2000
Đây là cụm bốn từ; chúng tôi gọi đó là một four-gram.
04:16
We're going to tell you how many times a particular four-gram
97
256260
2000
Chúng tôi sẽ cho các bạn biết một four-gram sẽ xuất hiện bao nhiêu lần
04:18
appeared in books in 1801, 1802, 1803,
98
258260
2000
trong những cuốn sách năm 1801, 1802, 1803,
04:20
all the way up to 2008.
99
260260
2000
cho đến tận năm 2008.
04:22
That gives us a time series
100
262260
2000
Qua đó chúng ta sẽ có được một chuỗi thời gian
04:24
of how frequently this particular sentence was used over time.
101
264260
2000
cho ta biết một câu nhất định được dùng với tần suất thế nào qua thời gian.
04:26
We do that for all the words and phrases that appear in those books,
102
266260
3000
Chúng tôi làm như thế với tất cả từ ngữ và nhóm từ trong những cuốn sách đó,
04:29
and that gives us a big table of two billion lines
103
269260
3000
kết quả chúng tôi có được một bảng khổng lồ của hai tỉ đường
04:32
that tell us about the way culture has been changing.
104
272260
2000
cho chúng tôi thấy cách nền văn hoá thay đổi qua thời gian.
04:34
ELA: So those two billion lines,
105
274260
2000
ELA: Chúng tôi gọi hai tỉ đường đó là
04:36
we call them two billion n-grams.
106
276260
2000
hai tỉ n-gram.
04:38
What do they tell us?
107
278260
2000
Chúng cho ta biết điều gì ư?
04:40
Well the individual n-grams measure cultural trends.
108
280260
2000
Đó là mỗi n-gram đo xu hướng của nền văn hoá.
04:42
Let me give you an example.
109
282260
2000
Để tôi cho bạn một ví dụ.
04:44
Let's suppose that I am thriving,
110
284260
2000
Thử giả định rằng tôi đang phát triển
04:46
then tomorrow I want to tell you about how well I did.
111
286260
2000
Mai tôi muốn nói cho các bạn biết tôi đã phát triển thế nào.
04:48
And so I might say, "Yesterday, I throve."
112
288260
3000
Và có lẽ tôi sẽ nói là "Yesterday, I throve" ("Ngày hôm qua, tôi đã phát triển")
04:51
Alternatively, I could say, "Yesterday, I thrived."
113
291260
3000
Hay nói cách khác rằng " Yesterday, I thrived." ("Ngày hôm qua, tôi đã phát triển")
04:54
Well which one should I use?
114
294260
3000
Tôi nên nói theo cách nào?
04:57
How to know?
115
297260
2000
Làm sao biết được?
04:59
As of about six months ago,
116
299260
2000
Nếu là sáu tháng trước
05:01
the state of the art in this field
117
301260
2000
tính nghệ thuật trong lĩnh vực này
05:03
is that you would, for instance,
118
303260
2000
là chẳng hạn bạn sẽ
05:05
go up to the following psychologist with fabulous hair,
119
305260
2000
tìm đến nhà tâm lý học có bộ tóc tuyệt vời này
05:07
and you'd say,
120
307260
2000
và nói rằng,
05:09
"Steve, you're an expert on the irregular verbs.
121
309260
3000
"Steve, anh là chuyên gia về động từ bất quy tắc.
05:12
What should I do?"
122
312260
2000
Tôi nên chia động từ đó theo cách nào?"
05:14
And he'd tell you, "Well most people say thrived,
123
314260
2000
Và ông ta sẽ nói với bạn rằng " Phần lớn người ta chia động từ đó thành "thrived",
05:16
but some people say throve."
124
316260
3000
nhưng một vài người dùng "throve"."
05:19
And you also knew, more or less,
125
319260
2000
Ít nhiều bạn cũng biết rằng
05:21
that if you were to go back in time 200 years
126
321260
3000
nếu bạn quay ngược lại 200 năm trước
05:24
and ask the following statesman with equally fabulous hair,
127
324260
3000
và hỏi nhà chính trị có bộ tóc tuyệt vời ngang ngửa này
05:27
(Laughter)
128
327260
3000
(Tiếng cười)
05:30
"Tom, what should I say?"
129
330260
2000
"Tom, tôi nên nói thế nào?"
05:32
He'd say, "Well, in my day, most people throve,
130
332260
2000
Ông ta sẽ nói rằng " Ở thời kì của tôi, hầu hết người ta dùng "throve",
05:34
but some thrived."
131
334260
3000
nhưng một số dùng "thrived"."
05:37
So now what I'm just going to show you is raw data.
132
337260
2000
Giờ tôi sẽ cho các bạn xem dữ liệu sống
05:39
Two rows from this table of two billion entries.
133
339260
4000
Hai hàng trích ra từ bảng của hai tỷ dữ liệu kia
05:43
What you're seeing is year by year frequency
134
343260
2000
Cái bạn đang nhìn thấy là tần số xuất hiện từng năm
05:45
of "thrived" and "throve" over time.
135
345260
3000
của "thrived" và "throve"
05:49
Now this is just two
136
349260
2000
Đây chỉ là hai
05:51
out of two billion rows.
137
351260
3000
trong số hai tỉ hàng.
05:54
So the entire data set
138
354260
2000
Vì thế toàn bộ dữ liệu này
05:56
is a billion times more awesome than this slide.
139
356260
3000
sẽ hoành tráng hơn cả tỉ lần cái slide này.
05:59
(Laughter)
140
359260
2000
(Tiếng cười)
06:01
(Applause)
141
361260
4000
(Vỗ tay)
06:05
JM: Now there are many other pictures that are worth 500 billion words.
142
365260
2000
JM: Vậy có bao nhiêu bức tranh khác đáng 500 tỉ từ ngữ.
06:07
For instance, this one.
143
367260
2000
Ví dụ như cái này
06:09
If you just take influenza,
144
369260
2000
Nếu bạn chọn dịch cúm,
06:11
you will see peaks at the time where you knew
145
371260
2000
bạn sẽ thấy những thời điểm cao trào mà bạn biết
06:13
big flu epidemics were killing people around the globe.
146
373260
3000
khi mà những dịch cúm lớn tiêu diệt con người khắp nơi.
06:16
ELA: If you were not yet convinced,
147
376260
3000
ELA: Nếu bạn vẫn chưa tin
06:19
sea levels are rising,
148
379260
2000
mực nước biển đang tăng,
06:21
so is atmospheric CO2 and global temperature.
149
381260
3000
khí CO2 và nhiệt độ trái đất cũng thế.
06:24
JM: You might also want to have a look at this particular n-gram,
150
384260
3000
JM: Các bạn chắc cũng muốn xem cái n-gram này,
06:27
and that's to tell Nietzsche that God is not dead,
151
387260
3000
nó nói cho Nietzsche biết rằng chúa không chết,
06:30
although you might agree that he might need a better publicist.
152
390260
3000
dù bạn có lẽ sẽ đồng ý rằng ông ta cần một nhà báo giỏi hơn.
06:33
(Laughter)
153
393260
2000
(Tiếng cười)
06:35
ELA: You can get at some pretty abstract concepts with this sort of thing.
154
395260
3000
ELA : Bạn có thể nắm được một số khái niệm khá trừu tượng đại loại thế này.
06:38
For instance, let me tell you the history
155
398260
2000
Để tôi kể cho bạn nghe về lịch sử
06:40
of the year 1950.
156
400260
2000
của năm 1950.
06:42
Pretty much for the vast majority of history,
157
402260
2000
Phần lớn trong lịch sử
06:44
no one gave a damn about 1950.
158
404260
2000
chẳng ai đếm xỉa gì về năm 1950 cả
06:46
In 1700, in 1800, in 1900,
159
406260
2000
Năm 1700, 1800, 1900,
06:48
no one cared.
160
408260
3000
chẳng ai quan tâm.
06:52
Through the 30s and 40s,
161
412260
2000
Trong suốt những năm 30 và 40,
06:54
no one cared.
162
414260
2000
cũng chẳng ai quan tâm .
06:56
Suddenly, in the mid-40s,
163
416260
2000
Bất ngờ vào giữa những năm 40
06:58
there started to be a buzz.
164
418260
2000
bắt đầu có một chút động đậy.
07:00
People realized that 1950 was going to happen,
165
420260
2000
Người ta bắt đầu nhận ra 1950 sắp đến
07:02
and it could be big.
166
422260
2000
và có thể nó sẽ rất hoành tráng!
07:04
(Laughter)
167
424260
3000
(Tiếng cười)
07:07
But nothing got people interested in 1950
168
427260
3000
Nhưng không có bất cứ thứ gì có thể làm cho người ta chú ý đến năm 1950
07:10
like the year 1950.
169
430260
3000
như chính năm 1950.
07:13
(Laughter)
170
433260
3000
(Tiếng cười)
07:16
People were walking around obsessed.
171
436260
2000
Người ta đi lại xung quanh, bị ám ảnh.
07:18
They couldn't stop talking
172
438260
2000
Họ không thể dừng nói
07:20
about all the things they did in 1950,
173
440260
3000
về tất cả những thứ họ làm trong năm 1950
07:23
all the things they were planning to do in 1950,
174
443260
3000
tất cả những thứ họ đang định làm trong năm 1950
07:26
all the dreams of what they wanted to accomplish in 1950.
175
446260
5000
tất cả những giấc mơ họ muốn đạt được trong năm 1950.
07:31
In fact, 1950 was so fascinating
176
451260
2000
Thực tế 1950 tuyệt vời đến nỗi
07:33
that for years thereafter,
177
453260
2000
nhiều năm sau đó,
07:35
people just kept talking about all the amazing things that happened,
178
455260
3000
người ta vẫn cứ nói đến những điều kinh ngạc đã xảy ra.
07:38
in '51, '52, '53.
179
458260
2000
trong năm 51, 52, 53.
07:40
Finally in 1954,
180
460260
2000
Cuối cùng thì đến năm 1954,
07:42
someone woke up and realized
181
462260
2000
có người mới thức tỉnh và nhận ra rằng
07:44
that 1950 had gotten somewhat passé.
182
464260
4000
1950 đã qua lâu rồi!
07:48
(Laughter)
183
468260
2000
(Tiếng cười)
07:50
And just like that, the bubble burst.
184
470260
2000
Và cứ như thế, bong bóng nổ!
07:52
(Laughter)
185
472260
2000
(Tiếng cười)
07:54
And the story of 1950
186
474260
2000
Câu chuyện của năm 1950
07:56
is the story of every year that we have on record,
187
476260
2000
là câu chuyện của từng năm mà chúng ta lưu lại được,
07:58
with a little twist, because now we've got these nice charts.
188
478260
3000
với một chút sự biến hóa nhỏ bởi giờ chúng ta có những biểu đồ hay ho này
08:01
And because we have these nice charts, we can measure things.
189
481260
3000
Và bởi vì chúng ta có những biểu đồ hay ho này, chúng ta có thể đo đạc nhiều thứ
08:04
We can say, "Well how fast does the bubble burst?"
190
484260
2000
Chúng ta có thể hỏi rằng ""Bong bóng nổ" nhanh như thế nào?"
08:06
And it turns out that we can measure that very precisely.
191
486260
3000
Và chúng ta có thể đo đạc điều đó một cách chính xác.
08:09
Equations were derived, graphs were produced,
192
489260
3000
Các phương trình được tính toán, các đồ thị được vẽ ra,
08:12
and the net result
193
492260
2000
và kết quả cuối cùng
08:14
is that we find that the bubble bursts faster and faster
194
494260
3000
là chúng ta phát hiện ra "bong bóng nổ" ngày càng nhanh
08:17
with each passing year.
195
497260
2000
qua từng năm.
08:19
We are losing interest in the past more rapidly.
196
499260
5000
Chúng ta mất dần sự quan tâm đến quá khứ một cách nhanh chóng.
08:24
JM: Now a little piece of career advice.
197
504260
2000
JM: Bây giờ chúng tôi sẽ chia sẻ một vài lời khuyên về sự nghiệp cho bạn.
08:26
So for those of you who seek to be famous,
198
506260
2000
Cho những ai muốn nổi tiếng,
08:28
we can learn from the 25 most famous political figures,
199
508260
2000
chúng ta có thể học từ 25 hình tượng chính trị gia nổi tiếng nhất,
08:30
authors, actors and so on.
200
510260
2000
các nhà sáng tác, diễn viên, v.v.v
08:32
So if you want to become famous early on, you should be an actor,
201
512260
3000
Vì vậy nếu bạn muốn nổi tiếng sớm, bạn nên làm diễn viên,
08:35
because then fame starts rising by the end of your 20s --
202
515260
2000
bởi tiếng tăm của bạn sẽ ngày càng tăng cuối những năm 20 của bạn --
08:37
you're still young, it's really great.
203
517260
2000
bạn vẫn còn trẻ, điều đó thật tuyêt.
08:39
Now if you can wait a little bit, you should be an author,
204
519260
2000
Nếu bạn có thể đợi một chút, bạn nên làm tiểu thuyết gia,
08:41
because then you rise to very great heights,
205
521260
2000
bởi rồi bạn sẽ đầy tiếng tăm
08:43
like Mark Twain, for instance: extremely famous.
206
523260
2000
như Mark Twain, cực kì nổi tiếng.
08:45
But if you want to reach the very top,
207
525260
2000
Nhưng nếu bạn muốn vươn đến đỉnh cao nhất,
08:47
you should delay gratification
208
527260
2000
bạn đừng hài lòng sớm
08:49
and, of course, become a politician.
209
529260
2000
mà hãy trở thành nhà chính trị.
08:51
So here you will become famous by the end of your 50s,
210
531260
2000
Bạn sẽ trở nên nổi tiếng cuối những năm 50 tuổi
08:53
and become very, very famous afterward.
211
533260
2000
và sẽ càng nổi tiếng hơn sau đó
08:55
So scientists also tend to get famous when they're much older.
212
535260
3000
Những nhà khoa học cũng trở nên nổi tiếng khi họ già đi.
08:58
Like for instance, biologists and physics
213
538260
2000
Ví dụ như là nhà sinh học, nhà vật lý học
09:00
tend to be almost as famous as actors.
214
540260
2000
có khuynh hướng nổi tiếng gần bằng diễn viên.
09:02
One mistake you should not do is become a mathematician.
215
542260
3000
Có một sai lầm mà bạn không nên phạm phải là trở thành nhà toán học.
09:05
(Laughter)
216
545260
2000
(Tiếng cười)
09:07
If you do that,
217
547260
2000
Nếu bạn làm điều đó
09:09
you might think, "Oh great. I'm going to do my best work when I'm in my 20s."
218
549260
3000
bạn có thể sẽ nghĩ rằng "Thật tuyệt. Mìng sẽ cố gắng hết sức trong những năm tuổi 20."
09:12
But guess what, nobody will really care.
219
552260
2000
Nhưng đoán thử đi, làm gì có ai quan tâm.
09:14
(Laughter)
220
554260
3000
(Tiếng cười)
09:17
ELA: There are more sobering notes
221
557260
2000
ELA: Còn có nhiều ghi chú nghiêm túc hơn thế này
09:19
among the n-grams.
222
559260
2000
trong những n-gram đó.
09:21
For instance, here's the trajectory of Marc Chagall,
223
561260
2000
Ví dụ, đây là đường phát triển của Marc Chagall,
09:23
an artist born in 1887.
224
563260
2000
một nghệ sĩ sinh năm 1887.
09:25
And this looks like the normal trajectory of a famous person.
225
565260
3000
Và nó giống con đường phát triển bình thường của một người nổi tiếng.
09:28
He gets more and more and more famous,
226
568260
4000
Ông ta càng ngày càng nổi tiếng,
09:32
except if you look in German.
227
572260
2000
trừ khi bạn nhìn vào nước Đức.
09:34
If you look in German, you see something completely bizarre,
228
574260
2000
Nếu bạn nhìn vào nước Đức, bạn sẽ thấy một thứ hoàn toàn lạ
09:36
something you pretty much never see,
229
576260
2000
một thứ bạn chưa bao giờ thấy,
09:38
which is he becomes extremely famous
230
578260
2000
đó là sự cực kì nổi tiếng của ông ấy
09:40
and then all of a sudden plummets,
231
580260
2000
và rồi bất ngờ tụt dốc thảm hại,
09:42
going through a nadir between 1933 and 1945,
232
582260
3000
cho đến tận cùng trong những năm 1933 và 1945 ,
09:45
before rebounding afterward.
233
585260
3000
rồi lại hồi phục danh tiếng sau đó.
09:48
And of course, what we're seeing
234
588260
2000
Dĩ nhiên là chúng ta nhận ra rằng
09:50
is the fact Marc Chagall was a Jewish artist
235
590260
3000
sự thật thì Marc Chagall là một nghệ sĩ do thái
09:53
in Nazi Germany.
236
593260
2000
của quốc xã Đức.
09:55
Now these signals
237
595260
2000
Bây giờ, những dấu hiệu này
09:57
are actually so strong
238
597260
2000
thực sự rất chuẩn
09:59
that we don't need to know that someone was censored.
239
599260
3000
đến mức mà chúng ta không cần ai phải kiểm duyệt chúng.
10:02
We can actually figure it out
240
602260
2000
Chúng ta tự nhận ra sự việc
10:04
using really basic signal processing.
241
604260
2000
bằng cách xử lý những dấu hiệu thật cơ bản.
10:06
Here's a simple way to do it.
242
606260
2000
Đây là một trong những cách đơn giản.
10:08
Well, a reasonable expectation
243
608260
2000
Chẳng hạn như một dự đoán hợp lý
10:10
is that somebody's fame in a given period of time
244
610260
2000
rằng danh tiếng trong một khoảng thời gian nhất định
10:12
should be roughly the average of their fame before
245
612260
2000
sẽ bằng trung bình của danh tiếng trước
10:14
and their fame after.
246
614260
2000
và sau đó chia ra.
10:16
So that's sort of what we expect.
247
616260
2000
Đó là thứ chúng ta dự đoán.
10:18
And we compare that to the fame that we observe.
248
618260
3000
Rồi chúng ta so sánh nó với mức độ nổi tiếng chúng ta quan sát được.
10:21
And we just divide one by the other
249
621260
2000
Chúng ta chia cái nó với mức độ dự đoán kia.
10:23
to produce something we call a suppression index.
250
623260
2000
để được cái gọi là "mức độ danh tiếng bị kìm hãm"
10:25
If the suppression index is very, very, very small,
251
625260
3000
Nếu mức độ danh tiếng bị kìm hãm rất rất nhỏ ,
10:28
then you very well might be being suppressed.
252
628260
2000
thì bạn có lẽ đang bị kìm hãm.
10:30
If it's very large, maybe you're benefiting from propaganda.
253
630260
3000
Nếu nó rất rất lớn, thì có lẽ bạn đang được lợi từ cơ quan tuyên truyền
10:34
JM: Now you can actually look at
254
634260
2000
JM: Giờ bạn hãy nhìn vào
10:36
the distribution of suppression indexes over whole populations.
255
636260
3000
sự phân phối của mức độ bị kìm hãm trên toàn dân số.
10:39
So for instance, here --
256
639260
2000
Ví dụ ở đây --
10:41
this suppression index is for 5,000 people
257
641260
2000
mức độ danh tiếng bị kìm hãm này của 5000 người
10:43
picked in English books where there's no known suppression --
258
643260
2000
chọn ra trong những cuốn sách tiếng anh không có sự kìm hãm được biết đến --
10:45
it would be like this, basically tightly centered on one.
259
645260
2000
nó sẽ như thế này, hầu như gần bằng 1.
10:47
What you expect is basically what you observe.
260
647260
2000
Điều bạn mong muốn đơn giản chính là điều bạn quan sát được.
10:49
This is distribution as seen in Germany --
261
649260
2000
Đây là sự phân phối được thấy ở Đức --
10:51
very different, it's shifted to the left.
262
651260
2000
rất khác, nó được dịch chuyển về bên trái.
10:53
People talked about it twice less as it should have been.
263
653260
3000
Người ta đã nói về nó ít hơn hai lần nó đáng được.
10:56
But much more importantly, the distribution is much wider.
264
656260
2000
Nhưng quan trọng hơn hết là sự phân phối này trải rộng hơn nhiều .
10:58
There are many people who end up on the far left on this distribution
265
658260
3000
Có nhiều người cuối cùng lại ở xa hơn về phía trái của sự phân phối này
11:01
who are talked about 10 times fewer than they should have been.
266
661260
3000
những người được ít hơn đến 10 lần danh tiếng mà họ đáng có.
11:04
But then also many people on the far right
267
664260
2000
Nhưng đồng thời cũng có rất nhiều người ở xa phía bên phải
11:06
who seem to benefit from propaganda.
268
666260
2000
họ dường như đang hưởng lợi từ giới tuyên truyền.
11:08
This picture is the hallmark of censorship in the book record.
269
668260
3000
Bức tranh này chính là dấu đóng của sự kiểm duyệt sách.
11:11
ELA: So culturomics
270
671260
2000
ELA: Chúng tôi gọi phương pháp này
11:13
is what we call this method.
271
673260
2000
là văn hoá học.
11:15
It's kind of like genomics.
272
675260
2000
Giống như di truyền học.
11:17
Except genomics is a lens on biology
273
677260
2000
Khác ở chỗ di truyền học là ống kính của sinh học
11:19
through the window of the sequence of bases in the human genome.
274
679260
3000
qua cửa sổ nhìn vào chuỗi nền tảng trong hệ gen của con người.
11:22
Culturomics is similar.
275
682260
2000
Văn hoá học cũng tương tự.
11:24
It's the application of massive-scale data collection analysis
276
684260
3000
Nó là sự ứng dụng của sự phân tích hàng loạt dữ liệu trên qui mô lớn
11:27
to the study of human culture.
277
687260
2000
vào việc nghiên cứu văn hoá con người.
11:29
Here, instead of through the lens of a genome,
278
689260
2000
Tại đây, qua ống kính của dữ liệu lịch sử đã được số hoá.
11:31
through the lens of digitized pieces of the historical record.
279
691260
3000
thay vì qua ống kính của hệ gien.
11:34
The great thing about culturomics
280
694260
2000
Điều tuyệt vời về văn hoá học
11:36
is that everyone can do it.
281
696260
2000
là ai cũng có thể thực hiện được nó.
11:38
Why can everyone do it?
282
698260
2000
Tại sao mọi người đều có thể thực hiện?
11:40
Everyone can do it because three guys,
283
700260
2000
Mọi người đều có thể làm điều đó là nhờ ba người ,
11:42
Jon Orwant, Matt Gray and Will Brockman over at Google,
284
702260
3000
Jon Orwant, Matt Gray và Will Brockman của Google
11:45
saw the prototype of the Ngram Viewer,
285
705260
2000
nhìn thấy bản đồ mẫu của Ngram Viewer,
11:47
and they said, "This is so fun.
286
707260
2000
và nói rằng "Cái này thật hay!
11:49
We have to make this available for people."
287
709260
3000
Chúng ta phải làm thứ này cho mọi người dùng."
11:52
So in two weeks flat -- the two weeks before our paper came out --
288
712260
2000
Thế là trong chỉ hai tuần -- hai tuần trước khi bài luận văn của chúng tôi hoàn thành --
11:54
they coded up a version of the Ngram Viewer for the general public.
289
714260
3000
họ đã lập trình một phiên bản của NGram Viewer cho công chúng.
11:57
And so you too can type in any word or phrase that you're interested in
290
717260
3000
Bạn có thể đánh một từ nào đó mà bạn thích
12:00
and see its n-gram immediately --
291
720260
2000
và xem n-gram của nó ngay lập tức --
12:02
also browse examples of all the various books
292
722260
2000
và cũng có thể xem ví dụ của tất cả các cuốn sách khác nhau
12:04
in which your n-gram appears.
293
724260
2000
mà n-gram xuất hiện trong đó.
12:06
JM: Now this was used over a million times on the first day,
294
726260
2000
JM : Nó được sử dụng hơn một triệu lần vào ngày đầu tiên,
12:08
and this is really the best of all the queries.
295
728260
2000
và đây thực sự là câu chất vấn hay nhất.
12:10
So people want to be their best, put their best foot forward.
296
730260
3000
Người ta muốn cố gắng hết sức, bước bước chân chắc nhất về phía trước.
12:13
But it turns out in the 18th century, people didn't really care about that at all.
297
733260
3000
Nhưng hoá ra vào thế kỉ 18, người ta không hề thực sự quan tâm đến điều đó .
12:16
They didn't want to be their best, they wanted to be their beft.
298
736260
3000
Họ không muốn là "best", họ chỉ muốn là "beft".
12:19
So what happened is, of course, this is just a mistake.
299
739260
3000
Dĩ nhiên thật ra đó chỉ là một lỗi chính tả.
12:22
It's not that strove for mediocrity,
300
742260
2000
không có gì to tát cả,
12:24
it's just that the S used to be written differently, kind of like an F.
301
744260
3000
chỉ là S từng được viết theo cách khác, gần giống chữ F.
12:27
Now of course, Google didn't pick this up at the time,
302
747260
3000
Dĩ nhiên, Google lúc đó đã không để ý đến điều này,
12:30
so we reported this in the science article that we wrote.
303
750260
3000
nên chúng tôi đã viết về điều đó trong một bài báo cáo khoa học.
12:33
But it turns out this is just a reminder
304
753260
2000
Nhưng hoá ra đây chỉ là một sự nhắc nhở
12:35
that, although this is a lot of fun,
305
755260
2000
rằng dù có hay đến đâu chăng nữa
12:37
when you interpret these graphs, you have to be very careful,
306
757260
2000
thì khi bạn tìm cách hiểu những biểu đồ này, bạn phải vô cùng cẩn thận,
12:39
and you have to adopt the base standards in the sciences.
307
759260
3000
và bạn phải áp dụng những chuẩn mực nền tảng trong khoa học.
12:42
ELA: People have been using this for all kinds of fun purposes.
308
762260
3000
ELA : Người ta dùng phương pháp này cho đủ thứ mục đích hài hước.
12:45
(Laughter)
309
765260
7000
(Tiếng cười)
12:52
Actually, we're not going to have to talk,
310
772260
2000
Thực ra chúng tôi không nhất thiết phải nói,
12:54
we're just going to show you all the slides and remain silent.
311
774260
3000
chúng tôi sẽ chỉ cho các bạn xem tất cả những bức hình này và giữ yên lặng.
12:57
This person was interested in the history of frustration.
312
777260
3000
Người này muốn biết về lịch sử của sự giận dữ.
13:00
There's various types of frustration.
313
780260
3000
Có rất nhiều loại giận dữ.
13:03
If you stub your toe, that's a one A "argh."
314
783260
3000
Nếu bạn bị vấp chân, đó sẽ là một chữ A "argh".
13:06
If the planet Earth is annihilated by the Vogons
315
786260
2000
Nếu trái đất bị xâm chiếm bởi người Vogons
13:08
to make room for an interstellar bypass,
316
788260
2000
để làm đường giữ thông tin liên lạc giữa các vì sao.
13:10
that's an eight A "aaaaaaaargh."
317
790260
2000
đó sẽ là tám chữ A "aaaaaaaarg"
13:12
This person studies all the "arghs,"
318
792260
2000
Người này nghiên cứu tất cả "arghs"
13:14
from one through eight A's.
319
794260
2000
từ một cho đến tám chữ "A".
13:16
And it turns out
320
796260
2000
Và kết quả là
13:18
that the less-frequent "arghs"
321
798260
2000
Từ "arghs" với ít chữ A
13:20
are, of course, the ones that correspond to things that are more frustrating --
322
800260
3000
tất nhiên tương ứng với những thứ gây nhiều tức giận hơn.
13:23
except, oddly, in the early 80s.
323
803260
3000
ngoại trừ trong những năm đầu của thập niên 80, thật kì lạ!
13:26
We think that might have something to do with Reagan.
324
806260
2000
Chúng tôi cho rằng điều này có lẽ có liên quan đến Reegan.
13:28
(Laughter)
325
808260
2000
(Tiếng cười)
13:30
JM: There are many usages of this data,
326
810260
3000
JM: Có rất nhiều cách sử dụng dữ liệu này,
13:33
but the bottom line is that the historical record is being digitized.
327
813260
3000
nhưng điều mấu chốt là hồ sơ lịch sử đang được số hoá.
13:36
Google has started to digitize 15 million books.
328
816260
2000
Google đã số hoá 15 triệu cuốn sách.
13:38
That's 12 percent of all the books that have ever been published.
329
818260
2000
Đó là 12 phần trăm của tất cả những cuốn sách đã từng được xuất bản.
13:40
It's a sizable chunk of human culture.
330
820260
3000
Đó là một tảng lớn đáng kể của văn hoá loài người.
13:43
There's much more in culture: there's manuscripts, there newspapers,
331
823260
3000
Còn rất nhiều của nền văn hoá: nào là những bản viết tay, nào là báo chí,
13:46
there's things that are not text, like art and paintings.
332
826260
2000
nào là những thứ không phải là chữ mà là nghệ thuật và những bức tranh.
13:48
These all happen to be on our computers,
333
828260
2000
Những thứ này tình cờ lại có trong máy tính của chúng ta,
13:50
on computers across the world.
334
830260
2000
trên những chiếc máy tính trên khắp thế giới.
13:52
And when that happens, that will transform the way we have
335
832260
3000
Khi điều đó xảy ra, nó sẽ thay đổi cách chúng ta
13:55
to understand our past, our present and human culture.
336
835260
2000
hiểu về quá khứ, hiện tại và nền văn hóa con người.
13:57
Thank you very much.
337
837260
2000
Cảm ơn rất nhiều.
13:59
(Applause)
338
839260
3000
(Vỗ tay)
Về trang web này

Trang web này sẽ giới thiệu cho bạn những video YouTube hữu ích cho việc học tiếng Anh. Bạn sẽ thấy các bài học tiếng Anh được giảng dạy bởi các giáo viên hàng đầu từ khắp nơi trên thế giới. Nhấp đúp vào phụ đề tiếng Anh hiển thị trên mỗi trang video để phát video từ đó. Phụ đề cuộn đồng bộ với phát lại video. Nếu bạn có bất kỳ nhận xét hoặc yêu cầu nào, vui lòng liên hệ với chúng tôi bằng biểu mẫu liên hệ này.

https://forms.gle/WvT1wiN1qDtmnspy7