What we learned from 5 million books

236,259 views ・ 2011-09-20

TED


Silakan klik dua kali pada teks bahasa Inggris di bawah ini untuk memutar video.

Translator: Ade Indarta Reviewer: Antonius Yudi Sendjaja
00:15
Erez Lieberman Aiden: Everyone knows
0
15260
2000
Erez Lieberman Aiden: Semua orang tahu
00:17
that a picture is worth a thousand words.
1
17260
3000
sebuah gambar mengandung seribu kata.
00:22
But we at Harvard
2
22260
2000
Tapi kami di Harvard
00:24
were wondering if this was really true.
3
24260
3000
ingin tahu apakah itu memang benar.
00:27
(Laughter)
4
27260
2000
(Suara tawa)
00:29
So we assembled a team of experts,
5
29260
4000
Jadi kami mengumpulkan tim ahli,
00:33
spanning Harvard, MIT,
6
33260
2000
mulai dari Harvard, MIT,
00:35
The American Heritage Dictionary, The Encyclopedia Britannica
7
35260
3000
The American Heritage Dictionary, The Encyclopedia Britannica
00:38
and even our proud sponsors,
8
38260
2000
hingga sponsor kami,
00:40
the Google.
9
40260
3000
Google.
00:43
And we cogitated about this
10
43260
2000
Kami memikirkan hal ini
00:45
for about four years.
11
45260
2000
selama empat tahun.
00:47
And we came to a startling conclusion.
12
47260
5000
Kami sampai pada kesimpulan yang mengejutkan.
00:52
Ladies and gentlemen, a picture is not worth a thousand words.
13
52260
3000
Hadirin yang terhormat, sebuah gambar tidak mengandung seribu kata.
00:55
In fact, we found some pictures
14
55260
2000
Bahkan, kami menemukan beberapa gambar
00:57
that are worth 500 billion words.
15
57260
5000
yang mengandung 500 miliar kata.
01:02
Jean-Baptiste Michel: So how did we get to this conclusion?
16
62260
2000
Jean-Baptiste Michel: Bagaimana kami bisa sampai pada kesimpulan ini?
01:04
So Erez and I were thinking about ways
17
64260
2000
Saya dan Erez berpikir tentang cara
01:06
to get a big picture of human culture
18
66260
2000
mendapatkan gambaran besar budaya manusia
01:08
and human history: change over time.
19
68260
3000
dan sejarah manusia: berubah seiring waktu.
01:11
So many books actually have been written over the years.
20
71260
2000
Ada banyak buku yang telah ditulis selama bertahun-tahun ini.
01:13
So we were thinking, well the best way to learn from them
21
73260
2000
Jadi kami berpikir, cara terbaik untuk belajar
01:15
is to read all of these millions of books.
22
75260
2000
adalah dengan membaca semua jutaan buku ini.
01:17
Now of course, if there's a scale for how awesome that is,
23
77260
3000
Tentu saja, kalau ada ukuran seberapa keren hal ini,
01:20
that has to rank extremely, extremely high.
24
80260
3000
rankingnya pasti sangat tinggi.
01:23
Now the problem is there's an X-axis for that,
25
83260
2000
Masalahnya ada sumbu-X untuk itu,
01:25
which is the practical axis.
26
85260
2000
yaitu sumbu kepraktisan,
01:27
This is very, very low.
27
87260
2000
yang sangat-sangat rendah.
01:29
(Applause)
28
89260
3000
(Tepuk tangan)
01:32
Now people tend to use an alternative approach,
29
92260
3000
Orang-orang cenderung menggunakan pendekatan alternatif,
01:35
which is to take a few sources and read them very carefully.
30
95260
2000
mengambil beberapa buku dan membacanya dengan teliti.
01:37
This is extremely practical, but not so awesome.
31
97260
2000
Ini sangat praktis tapi tidak keren.
01:39
What you really want to do
32
99260
3000
Yang ingin kita lakukan adalah
01:42
is to get to the awesome yet practical part of this space.
33
102260
3000
masuk ke sisi yang keren tapi juga praktis.
01:45
So it turns out there was a company across the river called Google
34
105260
3000
Ternyata ada sebuah perusahaan di seberang sungai yang bernama Google
01:48
who had started a digitization project a few years back
35
108260
2000
yang memulai proyek digitalisasinya beberapa tahun lalu
01:50
that might just enable this approach.
36
110260
2000
yang mungkin bisa mewujudkan pendekatan ini.
01:52
They have digitized millions of books.
37
112260
2000
Mereka mendigitalkan jutaan buku.
01:54
So what that means is, one could use computational methods
38
114260
3000
Jadi artinya, seseorang bisa menggunakan metode komputasional
01:57
to read all of the books in a click of a button.
39
117260
2000
untuk membaca semua buku dengan satu klik.
01:59
That's very practical and extremely awesome.
40
119260
3000
Itu sangat praktis dan mengagumkan.
02:03
ELA: Let me tell you a little bit about where books come from.
41
123260
2000
ELA: Mari kita bahas sedikit dari mana asal buku-buku itu.
02:05
Since time immemorial, there have been authors.
42
125260
3000
Sejak dulu, selalu ada yang namanya penulis.
02:08
These authors have been striving to write books.
43
128260
3000
Penulis-penulis ini berjuang menulis buku.
02:11
And this became considerably easier
44
131260
2000
Ini menjadi jauh lebih mudah
02:13
with the development of the printing press some centuries ago.
45
133260
2000
ketika mesin cetak muncul beberapa abad yang lalu.
02:15
Since then, the authors have won
46
135260
3000
Sejak itu, penulis telah melalui
02:18
on 129 million distinct occasions,
47
138260
2000
dalam 129 juta kesempatan berbeda
02:20
publishing books.
48
140260
2000
untuk menerbitkan buku.
02:22
Now if those books are not lost to history,
49
142260
2000
Kalau buku-buku itu tidak hilang ditelan waktu,
02:24
then they are somewhere in a library,
50
144260
2000
kemungkinan mereka ada di perpustakaan,
02:26
and many of those books have been getting retrieved from the libraries
51
146260
3000
dan ada banyak buku itu yang diambil dari perpustakaan
02:29
and digitized by Google,
52
149260
2000
dan didigitalkan oleh Google,
02:31
which has scanned 15 million books to date.
53
151260
2000
yang telah memindai 15 juta buku sampai hari ini.
02:33
Now when Google digitizes a book, they put it into a really nice format.
54
153260
3000
Saat Google mendigitalkan buku, mereka memasukkannya ke dalam format yang rapi.
02:36
Now we've got the data, plus we have metadata.
55
156260
2000
Kita sekarang punya data dan juga metadatanya.
02:38
We have information about things like where was it published,
56
158260
3000
Kita punya informasi seperti di mana buku itu diterbitkan,
02:41
who was the author, when was it published.
57
161260
2000
siapa penulisnya, kapan diterbitkan.
02:43
And what we do is go through all of those records
58
163260
3000
Yang kita lakukan adalah menelusuri catatan-catatan itu
02:46
and exclude everything that's not the highest quality data.
59
166260
4000
dan mengecualikan semua yang kualitas datanya tidak baik.
02:50
What we're left with
60
170260
2000
Akhirnya yang tersisa adalah
02:52
is a collection of five million books,
61
172260
3000
sekumpulan buku sebanyak lima juta,
02:55
500 billion words,
62
175260
3000
500 miliar kata,
02:58
a string of characters a thousand times longer
63
178260
2000
serangkaian karakter yang seribu kali lebih panjang
03:00
than the human genome --
64
180260
3000
daripada genom manusia --
03:03
a text which, when written out,
65
183260
2000
teks yang jika dituliskan
03:05
would stretch from here to the Moon and back
66
185260
2000
panjangnya adalah jarak dari sini ke Bulan dan
03:07
10 times over --
67
187260
2000
kembali 10 kali --
03:09
a veritable shard of our cultural genome.
68
189260
4000
potongan penting genom budaya kita.
03:13
Of course what we did
69
193260
2000
Tentu saja itu yang kami lakukan
03:15
when faced with such outrageous hyperbole ...
70
195260
3000
ketika dihadapkan dengan hiperbola semacam itu ...
03:18
(Laughter)
71
198260
2000
(Suara tawa)
03:20
was what any self-respecting researchers
72
200260
3000
sama seperti yang akan dilakukan oleh
03:23
would have done.
73
203260
3000
peneliti sejati mana pun.
03:26
We took a page out of XKCD,
74
206260
2000
Kami ambil satu halaman dari XKCD,
03:28
and we said, "Stand back.
75
208260
2000
dan berkata, "Minggir.
03:30
We're going to try science."
76
210260
2000
Kami akan menggunakan ilmu pengetahuan."
03:32
(Laughter)
77
212260
2000
(Suara tawa)
03:34
JM: Now of course, we were thinking,
78
214260
2000
JM: Tentu saja, kami berpikir,
03:36
well let's just first put the data out there
79
216260
2000
mari pertama-tama kita gelar data ini di luar sana
03:38
for people to do science to it.
80
218260
2000
agar orang-orang bisa menerapkan ilmu pengetahuan sendiri.
03:40
Now we're thinking, what data can we release?
81
220260
2000
Kami berpikir, apakah data ini boleh kami buka?
03:42
Well of course, you want to take the books
82
222260
2000
Tentu saja kita ingin mengambil semua buku itu
03:44
and release the full text of these five million books.
83
224260
2000
dan membuka seluruh teks dari lima juta buku ini.
03:46
Now Google, and Jon Orwant in particular,
84
226260
2000
Google, dan terutama Jon Orwant,
03:48
told us a little equation that we should learn.
85
228260
2000
memberi tahu kami hitungan yang harus kami ketahui.
03:50
So you have five million, that is, five million authors
86
230260
3000
Jadi ada lima juta buku, itu artinya lima juta penulis
03:53
and five million plaintiffs is a massive lawsuit.
87
233260
3000
dan lima juta pengacara dengan setumpuk tuntutan.
03:56
So, although that would be really, really awesome,
88
236260
2000
Jadi meskipun itu akan sangat keren,
03:58
again, that's extremely, extremely impractical.
89
238260
3000
kembali, itu sangat tidak praktis.
04:01
(Laughter)
90
241260
2000
(Suara tawa)
04:03
Now again, we kind of caved in,
91
243260
2000
Sekali lagi, kami terjebak,
04:05
and we did the very practical approach, which was a bit less awesome.
92
245260
3000
dan kami mengambil pendekatan yang sangat praktis, yang kurang keren.
04:08
We said, well instead of releasing the full text,
93
248260
2000
Kami berkata, ketimbang membuka seluruh teks,
04:10
we're going to release statistics about the books.
94
250260
2000
kami akan membuka statistik tentang buku-buku itu saja.
04:12
So take for instance "A gleam of happiness."
95
252260
2000
Jadi misalnya "A gleam of happiness."
04:14
It's four words; we call that a four-gram.
96
254260
2000
Terdiri dari empat kata; kita menyebutnya empat-gram.
04:16
We're going to tell you how many times a particular four-gram
97
256260
2000
Kami akan memberitahu berapa kali empat-gram tertentu
04:18
appeared in books in 1801, 1802, 1803,
98
258260
2000
muncul dalam buku di tahun 1801, 1802, 1803,
04:20
all the way up to 2008.
99
260260
2000
sampai 2008.
04:22
That gives us a time series
100
262260
2000
Itu akan menghasilkan rangkaian waktu
04:24
of how frequently this particular sentence was used over time.
101
264260
2000
seberapa sering frasa tertentu ini digunakan dalam periode tertentu.
04:26
We do that for all the words and phrases that appear in those books,
102
266260
3000
Kami melakukan itu pada semua kata dan frasa yang muncul dalam buku-buku itu,
04:29
and that gives us a big table of two billion lines
103
269260
3000
dan itu menghasilkan segepok dua miliar baris
04:32
that tell us about the way culture has been changing.
104
272260
2000
yang menunjukkan bagaimana budaya berubah.
04:34
ELA: So those two billion lines,
105
274260
2000
ELA: Jadi dua miliar baris itu,
04:36
we call them two billion n-grams.
106
276260
2000
kami menyebutkan dua miliar n-gram.
04:38
What do they tell us?
107
278260
2000
Apa yang ditunjukkan?
04:40
Well the individual n-grams measure cultural trends.
108
280260
2000
Masing-masing n-gram menunjukkan perkembangan tren budaya.
04:42
Let me give you an example.
109
282260
2000
Mari saya perlihatkan contohnya.
04:44
Let's suppose that I am thriving,
110
284260
2000
Misalkan kata "thriving" dalam Bahasa Inggris
04:46
then tomorrow I want to tell you about how well I did.
111
286260
2000
kalau saya ingin menggunakan bentuk lampau kata itu.
04:48
And so I might say, "Yesterday, I throve."
112
288260
3000
Saya mungkin menggunakan, "throve."
04:51
Alternatively, I could say, "Yesterday, I thrived."
113
291260
3000
Selain itu saya juga bisa menggunakan, "thrived."
04:54
Well which one should I use?
114
294260
3000
Mana yang harus saya gunakan?
04:57
How to know?
115
297260
2000
Bagaimana kita bisa tahu?
04:59
As of about six months ago,
116
299260
2000
Sekitar enam bulan lalu,
05:01
the state of the art in this field
117
301260
2000
cara terbaik dalam bidang ini
05:03
is that you would, for instance,
118
303260
2000
yang bisa kita lakukan, misalnya,
05:05
go up to the following psychologist with fabulous hair,
119
305260
2000
mengunjungi psikolog dengan rambut indah ini,
05:07
and you'd say,
120
307260
2000
dan berkata,
05:09
"Steve, you're an expert on the irregular verbs.
121
309260
3000
"Steve, Anda ahli dalam kata kerja tidak beraturan.
05:12
What should I do?"
122
312260
2000
Apa yang harus saya gunakan?"
05:14
And he'd tell you, "Well most people say thrived,
123
314260
2000
Dia akan menjawab, "Kebanyakan orang menggunakan "thrived",
05:16
but some people say throve."
124
316260
3000
tapi ada beberapa yang mengatakan "throve."
05:19
And you also knew, more or less,
125
319260
2000
Kurang lebih Anda pasti tahu
05:21
that if you were to go back in time 200 years
126
321260
3000
kalau kita kembali ke masa 200 tahun lalu
05:24
and ask the following statesman with equally fabulous hair,
127
324260
3000
dan bertanya ke pejabat yang juga punya rambut indah ini,
05:27
(Laughter)
128
327260
3000
(Suara tawa)
05:30
"Tom, what should I say?"
129
330260
2000
"Tom, apa yang harus saya gunakan?"
05:32
He'd say, "Well, in my day, most people throve,
130
332260
2000
Dia akan menjawab, "Yang saya tahu, kebanyakan orang menggunakan 'throve',
05:34
but some thrived."
131
334260
3000
tapi ada beberapa yang mengatakan 'thrived".
05:37
So now what I'm just going to show you is raw data.
132
337260
2000
Yang akan saya tunjukkan hanyalah data mentah.
05:39
Two rows from this table of two billion entries.
133
339260
4000
Dua baris dari tabel berisi dua miliar catatan ini.
05:43
What you're seeing is year by year frequency
134
343260
2000
Yang Anda lihat adalah frekuensi tahun demi tahun
05:45
of "thrived" and "throve" over time.
135
345260
3000
kata "thrived" dan "throve".
05:49
Now this is just two
136
349260
2000
Ini baru dua dari
05:51
out of two billion rows.
137
351260
3000
dua miliar baris.
05:54
So the entire data set
138
354260
2000
Jadi keseluruhan data yang ada
05:56
is a billion times more awesome than this slide.
139
356260
3000
miliaran kali lebih keren dari ini.
05:59
(Laughter)
140
359260
2000
(Suara tawa)
06:01
(Applause)
141
361260
4000
(Tepuk tangan)
06:05
JM: Now there are many other pictures that are worth 500 billion words.
142
365260
2000
JM: Ada banyak gambar yang bernilai lebih dari 500 miliar kata.
06:07
For instance, this one.
143
367260
2000
Yang ini misalnya.
06:09
If you just take influenza,
144
369260
2000
Kalau kita gunakan kata "influenza",
06:11
you will see peaks at the time where you knew
145
371260
2000
bisa kita lihat puncaknya di saat
06:13
big flu epidemics were killing people around the globe.
146
373260
3000
epidemi flu membunuh orang-orang dunia.
06:16
ELA: If you were not yet convinced,
147
376260
3000
ELA: Kalau Anda belum yakin bahwa
06:19
sea levels are rising,
148
379260
2000
tingkat permukaan laut meningkat,
06:21
so is atmospheric CO2 and global temperature.
149
381260
3000
begitu juga dengan CO2 di atmosfer dan suhu global.
06:24
JM: You might also want to have a look at this particular n-gram,
150
384260
3000
JM: Anda mungkin juga ingin melihat n-gram yang ini,
06:27
and that's to tell Nietzsche that God is not dead,
151
387260
3000
dan ini untuk memberitahu Nietzsche bahwa Tuhan belum mati,
06:30
although you might agree that he might need a better publicist.
152
390260
3000
meski Anda mungkin setuju yang dia butuhkan sebenarnya penerbit yang lebih baik.
06:33
(Laughter)
153
393260
2000
(Suara tawa)
06:35
ELA: You can get at some pretty abstract concepts with this sort of thing.
154
395260
3000
ELA: Anda bisa mendapatkan konsep yang sangat abstrak dengan ini.
06:38
For instance, let me tell you the history
155
398260
2000
Misalnya, mari saya ceritakan sejarah
06:40
of the year 1950.
156
400260
2000
dari tahun 1950.
06:42
Pretty much for the vast majority of history,
157
402260
2000
Seperti kebanyakan periode dalam sejarah,
06:44
no one gave a damn about 1950.
158
404260
2000
tidak ada yang peduli dengan tahun 1950.
06:46
In 1700, in 1800, in 1900,
159
406260
2000
Di tahun 1700, 1800, 1900,
06:48
no one cared.
160
408260
3000
tidak ada yang peduli.
06:52
Through the 30s and 40s,
161
412260
2000
Sepanjang tahun 30-an dan 40-an,
06:54
no one cared.
162
414260
2000
tidak ada yang peduli.
06:56
Suddenly, in the mid-40s,
163
416260
2000
Tiba-tiba, di pertengahan tahun 40-an,
06:58
there started to be a buzz.
164
418260
2000
mulai ramai.
07:00
People realized that 1950 was going to happen,
165
420260
2000
Orang-orang sadar bahwa tahun 1950 akan segera tiba,
07:02
and it could be big.
166
422260
2000
dan bisa jadi sesuatu yang besar.
07:04
(Laughter)
167
424260
3000
(Suara tawa)
07:07
But nothing got people interested in 1950
168
427260
3000
Tapi puncak ketertarikan orang-orang akan tahun 1950
07:10
like the year 1950.
169
430260
3000
adalah di tahun 1950.
07:13
(Laughter)
170
433260
3000
(Suara tawa)
07:16
People were walking around obsessed.
171
436260
2000
Orang-orang semua terobsesi.
07:18
They couldn't stop talking
172
438260
2000
Mereka tidak bisa berhenti bicara
07:20
about all the things they did in 1950,
173
440260
3000
tentang hal-hal yang mereka lakukan di tahun 1950,
07:23
all the things they were planning to do in 1950,
174
443260
3000
semua yang akan mereka lakukan di tahun 1950,
07:26
all the dreams of what they wanted to accomplish in 1950.
175
446260
5000
semua mimpi yang ingin mereka capai di tahun 1950.
07:31
In fact, 1950 was so fascinating
176
451260
2000
Bahkan, tahun 1950 begitu menariknya
07:33
that for years thereafter,
177
453260
2000
hingga beberapa tahun kemudian,
07:35
people just kept talking about all the amazing things that happened,
178
455260
3000
orang-orang masih terus berbicara tentang hal-hal yang terjadi,
07:38
in '51, '52, '53.
179
458260
2000
di tahun 1951, 1952, 1953.
07:40
Finally in 1954,
180
460260
2000
Akhirnya di tahun 1954,
07:42
someone woke up and realized
181
462260
2000
seseorang bangun dan menyadari
07:44
that 1950 had gotten somewhat passé.
182
464260
4000
bahwa tahun 1950 sudah lewat.
07:48
(Laughter)
183
468260
2000
(Suara tawa)
07:50
And just like that, the bubble burst.
184
470260
2000
Seperti itu saja, gelembungnya pun meledak.
07:52
(Laughter)
185
472260
2000
(Suara tawa)
07:54
And the story of 1950
186
474260
2000
Cerita tentang tahun 1950
07:56
is the story of every year that we have on record,
187
476260
2000
adalah cerita tahunan yang kita catat,
07:58
with a little twist, because now we've got these nice charts.
188
478260
3000
dengan sedikit variasi karena sekarang kita punya grafik yang keren ini.
08:01
And because we have these nice charts, we can measure things.
189
481260
3000
Karena kita punya grafik keren ini, kita bisa mengukur.
08:04
We can say, "Well how fast does the bubble burst?"
190
484260
2000
Kita bisa berkata, "Seberapa cepat gelembung ini meledak?"
08:06
And it turns out that we can measure that very precisely.
191
486260
3000
Ternyata kita bisa mengukurnya dengan sangat tepat.
08:09
Equations were derived, graphs were produced,
192
489260
3000
Menghasilkan persamaan, menciptakan grafik,
08:12
and the net result
193
492260
2000
dan hasil bersihnya
08:14
is that we find that the bubble bursts faster and faster
194
494260
3000
adalah kita menemukan gelembung ini meledak semakin cepat
08:17
with each passing year.
195
497260
2000
setiap tahunnya.
08:19
We are losing interest in the past more rapidly.
196
499260
5000
Kita kehilangan minat terhadap masa lalu dengan lebih cepat.
08:24
JM: Now a little piece of career advice.
197
504260
2000
JM: Sedikit nasihat karir.
08:26
So for those of you who seek to be famous,
198
506260
2000
Bagi Anda yang ingin menjadi terkenal,
08:28
we can learn from the 25 most famous political figures,
199
508260
2000
kita bisa belajar dari 25 tokoh politik yang paling terkenal,
08:30
authors, actors and so on.
200
510260
2000
penulis, aktor, dan sebagainya.
08:32
So if you want to become famous early on, you should be an actor,
201
512260
3000
Kalau Anda ingin cepat terkenal, Anda harus menjadi aktor,
08:35
because then fame starts rising by the end of your 20s --
202
515260
2000
karena ketenaran mulai naik di akhir usia 20-an --
08:37
you're still young, it's really great.
203
517260
2000
Anda masih muda, benar-benar bagus.
08:39
Now if you can wait a little bit, you should be an author,
204
519260
2000
Kalau Anda mau menunggu, Anda harus menjadi penulis,
08:41
because then you rise to very great heights,
205
521260
2000
karena Anda bisa naik sangat tinggi,
08:43
like Mark Twain, for instance: extremely famous.
206
523260
2000
seperti Mark Twain, misalnya: sangat terkenal.
08:45
But if you want to reach the very top,
207
525260
2000
Tapi kalau Anda ingin mencapai puncak,
08:47
you should delay gratification
208
527260
2000
Anda harus mau menunggu lebih lama
08:49
and, of course, become a politician.
209
529260
2000
dan, tentu saja, menjadi politikus.
08:51
So here you will become famous by the end of your 50s,
210
531260
2000
Di sini Anda akan menjadi terkenal di akhir usia 50-an,
08:53
and become very, very famous afterward.
211
533260
2000
dan menjadi sangat terkenal sesudahnya.
08:55
So scientists also tend to get famous when they're much older.
212
535260
3000
Ilmuwan juga cenderung menjadi terkenal di usia tua.
08:58
Like for instance, biologists and physics
213
538260
2000
Misalnya, ahli biologi dan fisika
09:00
tend to be almost as famous as actors.
214
540260
2000
cenderung hampir sama terkenalnya dengan aktor.
09:02
One mistake you should not do is become a mathematician.
215
542260
3000
Yang tidak boleh Anda lakukan adalah menjadi ahli matematika.
09:05
(Laughter)
216
545260
2000
(Suara tawa)
09:07
If you do that,
217
547260
2000
Kalau Anda melakukan itu,
09:09
you might think, "Oh great. I'm going to do my best work when I'm in my 20s."
218
549260
3000
Anda mungkin berpikir, "Baiklah. Saya akan menghasilkan karya terbaik di usia 20-an."
09:12
But guess what, nobody will really care.
219
552260
2000
Tapi coba tebak, tidak ada yang peduli.
09:14
(Laughter)
220
554260
3000
(Suara tawa)
09:17
ELA: There are more sobering notes
221
557260
2000
ELA: Ada catatan yang lebih serius
09:19
among the n-grams.
222
559260
2000
tentang n-gram.
09:21
For instance, here's the trajectory of Marc Chagall,
223
561260
2000
Misalnya, inilah lintasan Marc Chagall,
09:23
an artist born in 1887.
224
563260
2000
seniman yang lahir di tahun 1887.
09:25
And this looks like the normal trajectory of a famous person.
225
565260
3000
Ini tampak seperti lintasan normal orang terkenal.
09:28
He gets more and more and more famous,
226
568260
4000
Dia menjadi semakin terkenal,
09:32
except if you look in German.
227
572260
2000
kecuali kalau Anda melihat dalam data bahasa Jerman.
09:34
If you look in German, you see something completely bizarre,
228
574260
2000
Dalam bahasa Jerman, ada sesuatu yang sangat aneh,
09:36
something you pretty much never see,
229
576260
2000
sesuatu yang jarang Anda lihat,
09:38
which is he becomes extremely famous
230
578260
2000
dia menjadi sangat terkenal
09:40
and then all of a sudden plummets,
231
580260
2000
dan tiba-tiba anjlok,
09:42
going through a nadir between 1933 and 1945,
232
582260
3000
mencapai titik dasar antara 1933 dan 1945,
09:45
before rebounding afterward.
233
585260
3000
sebelum naik lagi setelahnya.
09:48
And of course, what we're seeing
234
588260
2000
Tentu saja, yang kita lihat adalah
09:50
is the fact Marc Chagall was a Jewish artist
235
590260
3000
kenyataan bahwa Marc Chagall adalah artis Yahudi
09:53
in Nazi Germany.
236
593260
2000
di negara Nazi Jerman.
09:55
Now these signals
237
595260
2000
Sinyal ini
09:57
are actually so strong
238
597260
2000
sangat kuat
09:59
that we don't need to know that someone was censored.
239
599260
3000
kita tidak perlu tahu bahwa seseorang disensor.
10:02
We can actually figure it out
240
602260
2000
Kita bisa melihatnya
10:04
using really basic signal processing.
241
604260
2000
menggunakan pengolahan sinyal yang paling dasar.
10:06
Here's a simple way to do it.
242
606260
2000
Inilah cara sederhana untuk melakukannya.
10:08
Well, a reasonable expectation
243
608260
2000
Harapan yang masuk akal
10:10
is that somebody's fame in a given period of time
244
610260
2000
seseorang terkenal dalam periode waktu tertentu
10:12
should be roughly the average of their fame before
245
612260
2000
seharusnya kurang lebih sama dengan ketenaran mereka
10:14
and their fame after.
246
614260
2000
sebelum dan sesudahnya.
10:16
So that's sort of what we expect.
247
616260
2000
Jadi itulah yang kita harapkan.
10:18
And we compare that to the fame that we observe.
248
618260
3000
Kita membandingkan itu dengan ketenaran yang kita amati.
10:21
And we just divide one by the other
249
621260
2000
Kita cukup membagi satu hal dengan yang lainnya
10:23
to produce something we call a suppression index.
250
623260
2000
untuk mendapatkan apa yang kita sebut indeks tekanan.
10:25
If the suppression index is very, very, very small,
251
625260
3000
Kalau indeks tekanan sangat kecil,
10:28
then you very well might be being suppressed.
252
628260
2000
kemungkinan Anda sedang ditekan.
10:30
If it's very large, maybe you're benefiting from propaganda.
253
630260
3000
Kalau sangat besar, mungkin Anda diuntungkan oleh propaganda.
10:34
JM: Now you can actually look at
254
634260
2000
JM: Anda bisa melihat
10:36
the distribution of suppression indexes over whole populations.
255
636260
3000
distribusi indeks tekanan di seluruh populasi.
10:39
So for instance, here --
256
639260
2000
Misalnya, di sini --
10:41
this suppression index is for 5,000 people
257
641260
2000
indeks tekanan untuk 5000 orang
10:43
picked in English books where there's no known suppression --
258
643260
2000
dipilih dalam buku bahasa Inggris yang diketahui tidak ada tekanan --
10:45
it would be like this, basically tightly centered on one.
259
645260
2000
akan seperti ini, intinya berpusat pada satu titik.
10:47
What you expect is basically what you observe.
260
647260
2000
Yang Anda harapkan adalah yang Anda lihat.
10:49
This is distribution as seen in Germany --
261
649260
2000
Ini distribusi seperti yang tampak di Jerman --
10:51
very different, it's shifted to the left.
262
651260
2000
sangat berbeda, bergeser ke kiri.
10:53
People talked about it twice less as it should have been.
263
653260
3000
Orang-orang membicarakannya dua kali lebih sedikit dari yang seharusnya.
10:56
But much more importantly, the distribution is much wider.
264
656260
2000
Tapi yang jauh lebih penting, distribusinya sangat lebar.
10:58
There are many people who end up on the far left on this distribution
265
658260
3000
Ada banyak orang yang akhirnya ada di pojok kiri distribusi ini
11:01
who are talked about 10 times fewer than they should have been.
266
661260
3000
yang berbicara sekitar 10 kali lebih sedikit dari yang seharusnya.
11:04
But then also many people on the far right
267
664260
2000
Tapi ada banyak juga orang di pojok kanan
11:06
who seem to benefit from propaganda.
268
666260
2000
yang diuntungkan oleh propaganda ini.
11:08
This picture is the hallmark of censorship in the book record.
269
668260
3000
Gambar ini adalah rekaman penyensoran dalam sejarah buku.
11:11
ELA: So culturomics
270
671260
2000
ELA: Jadi kulturomika
11:13
is what we call this method.
271
673260
2000
itulah sebutan untuk metode ini.
11:15
It's kind of like genomics.
272
675260
2000
Seperti genomika.
11:17
Except genomics is a lens on biology
273
677260
2000
Hanya saja genomika menggunakan kacamata biologi
11:19
through the window of the sequence of bases in the human genome.
274
679260
3000
melalui jendela rangkaian basa dalam genom manusia.
11:22
Culturomics is similar.
275
682260
2000
Kulturomika hampir mirip.
11:24
It's the application of massive-scale data collection analysis
276
684260
3000
Ini adalah aplikasi analisis pengumpulan data skala besar
11:27
to the study of human culture.
277
687260
2000
untuk penelitian budaya manusia.
11:29
Here, instead of through the lens of a genome,
278
689260
2000
Di sini, alih-alih melalui kacamata genom,
11:31
through the lens of digitized pieces of the historical record.
279
691260
3000
kami melalui kacamata potongan digital catatan sejarah.
11:34
The great thing about culturomics
280
694260
2000
Yang menarik tentang kulturomika ini
11:36
is that everyone can do it.
281
696260
2000
semua orang bisa melakukannya.
11:38
Why can everyone do it?
282
698260
2000
Mengapa semua orang bisa melakukannya?
11:40
Everyone can do it because three guys,
283
700260
2000
Semua orang bisa melakukannya berkat tiga orang ini,
11:42
Jon Orwant, Matt Gray and Will Brockman over at Google,
284
702260
3000
Jon Orwant, Matt Gray, dan Will Brockman di Google,
11:45
saw the prototype of the Ngram Viewer,
285
705260
2000
melihat prototip Ngram Viewer,
11:47
and they said, "This is so fun.
286
707260
2000
dan berkata, "Ini asyik.
11:49
We have to make this available for people."
287
709260
3000
Kita harus membuatnya untuk umum."
11:52
So in two weeks flat -- the two weeks before our paper came out --
288
712260
2000
Jadi tepat dalam dua minggu - sebelum makalah kami terbit --
11:54
they coded up a version of the Ngram Viewer for the general public.
289
714260
3000
mereka membuat versi Ngram Viewer untuk khalayak umum.
11:57
And so you too can type in any word or phrase that you're interested in
290
717260
3000
Jadi Anda bisa mengetikkan kata atau frasa yang menarik minat Anda
12:00
and see its n-gram immediately --
291
720260
2000
dan langsung melihat n-gramnya --
12:02
also browse examples of all the various books
292
722260
2000
juga menelusuri contoh-contoh berbagai buku
12:04
in which your n-gram appears.
293
724260
2000
yang memuat n-gram Anda tadi.
12:06
JM: Now this was used over a million times on the first day,
294
726260
2000
JM: Perangkat ini digunakan lebih dari satu juta kali dalam hari pertama,
12:08
and this is really the best of all the queries.
295
728260
2000
dan ini yang terbaik dari semua permintaan yang ada.
12:10
So people want to be their best, put their best foot forward.
296
730260
3000
orang-orang selalu ingin melakukan yang terbaik.
12:13
But it turns out in the 18th century, people didn't really care about that at all.
297
733260
3000
Tapi ternyata di abad ke-18, orang-orang tidak peduli dengan hal itu.
12:16
They didn't want to be their best, they wanted to be their beft.
298
736260
3000
Mereka tidak ingin melakukan yang terbaik, "best", tapi "beft".
12:19
So what happened is, of course, this is just a mistake.
299
739260
3000
Tentu saja, ini hanya kesalahan.
12:22
It's not that strove for mediocrity,
300
742260
2000
Bukan orang-orang saat itu ingin menjadi biasa saja,
12:24
it's just that the S used to be written differently, kind of like an F.
301
744260
3000
tapi karena saat itu huruf S ditulis berbeda, seperti huruf F.
12:27
Now of course, Google didn't pick this up at the time,
302
747260
3000
Google tidak mengetahui ini saat itu,
12:30
so we reported this in the science article that we wrote.
303
750260
3000
jadi kami melaporkan ini dalam artikel ilmiah yang kami tulis.
12:33
But it turns out this is just a reminder
304
753260
2000
Tapi ini ternyata menjadi sebuah peringatan
12:35
that, although this is a lot of fun,
305
755260
2000
bahwa meskipun menyenangkan,
12:37
when you interpret these graphs, you have to be very careful,
306
757260
2000
saat menginterpretasikan grafik ini, Anda harus hati-hati,
12:39
and you have to adopt the base standards in the sciences.
307
759260
3000
dan Anda harus mengadopsi standar dasar dalam ilmu pengetahuan.
12:42
ELA: People have been using this for all kinds of fun purposes.
308
762260
3000
ELA: Orang-orang menggunakannya untuk bermain-main.
12:45
(Laughter)
309
765260
7000
(Suara tawa)
12:52
Actually, we're not going to have to talk,
310
772260
2000
Sebenarnya, kami bahkan tidak perlu bicara,
12:54
we're just going to show you all the slides and remain silent.
311
774260
3000
hanya perlu menunjukkan semua slide yang ada dan diam.
12:57
This person was interested in the history of frustration.
312
777260
3000
Orang ini tertarik pada sejarah frustrasi.
13:00
There's various types of frustration.
313
780260
3000
Ada banyak jenis frustrasi.
13:03
If you stub your toe, that's a one A "argh."
314
783260
3000
Kalau Anda tersandung, itu "argh" dengan satu A.
13:06
If the planet Earth is annihilated by the Vogons
315
786260
2000
Kalau planet Bumi dimusnahkan oleh Vogon
13:08
to make room for an interstellar bypass,
316
788260
2000
yang datang melalui jalan pintas antargalaksi,
13:10
that's an eight A "aaaaaaaargh."
317
790260
2000
itu "aaaaaaaargh" dengan delapan A.
13:12
This person studies all the "arghs,"
318
792260
2000
Orang ini menyelidiki semua "argh,"
13:14
from one through eight A's.
319
794260
2000
mulai dari satu sampai delapan A.
13:16
And it turns out
320
796260
2000
Ternyata
13:18
that the less-frequent "arghs"
321
798260
2000
semakin sedikit "argh"
13:20
are, of course, the ones that correspond to things that are more frustrating --
322
800260
3000
tentu saja menyatakan hal-hal yang lebih membuat frustrasi --
13:23
except, oddly, in the early 80s.
323
803260
3000
kecuali, anehnya, di awal tahun 80-an.
13:26
We think that might have something to do with Reagan.
324
806260
2000
Kami pikir ini berhubungan dengan Reagan.
13:28
(Laughter)
325
808260
2000
(Suara tawa)
13:30
JM: There are many usages of this data,
326
810260
3000
JM: Ada banyak kegunaan data ini,
13:33
but the bottom line is that the historical record is being digitized.
327
813260
3000
tapi pada dasarnya catatan sejarah sedang didigitalkan.
13:36
Google has started to digitize 15 million books.
328
816260
2000
Google sudah mulai mendigitalkan 15 juta buku.
13:38
That's 12 percent of all the books that have ever been published.
329
818260
2000
Itu 12 persen dari semua buku yang pernah diterbitkan.
13:40
It's a sizable chunk of human culture.
330
820260
3000
Itu bagian yang cukup besar dari budaya manusia.
13:43
There's much more in culture: there's manuscripts, there newspapers,
331
823260
3000
Ada banyak budaya: naskah, koran,
13:46
there's things that are not text, like art and paintings.
332
826260
2000
ada yang bukan berupa teks, seperti seni dan lukisan.
13:48
These all happen to be on our computers,
333
828260
2000
Semua ini ada dalam komputer kita,
13:50
on computers across the world.
334
830260
2000
komputer di seluruh dunia.
13:52
And when that happens, that will transform the way we have
335
832260
3000
Dan ketika itu terjadi, itu akan mengubah cara kita
13:55
to understand our past, our present and human culture.
336
835260
2000
memahami masa lalu, masa kini, dan budaya manusia.
13:57
Thank you very much.
337
837260
2000
Terima kasih banyak.
13:59
(Applause)
338
839260
3000
(Tepuk tangan)
Tentang situs web ini

Situs ini akan memperkenalkan Anda pada video YouTube yang berguna untuk belajar bahasa Inggris. Anda akan melihat pelajaran bahasa Inggris yang diajarkan oleh guru-guru terbaik dari seluruh dunia. Klik dua kali pada subtitle bahasa Inggris yang ditampilkan di setiap halaman video untuk memutar video dari sana. Subtitle bergulir selaras dengan pemutaran video. Jika Anda memiliki komentar atau permintaan, silakan hubungi kami menggunakan formulir kontak ini.

https://forms.gle/WvT1wiN1qDtmnspy7