What we learned from 5 million books

5 Milyon Kitaptan Ne Öğrendik?

235,130 views ・ 2011-09-20

TED


Videoyu oynatmak için lütfen aşağıdaki İngilizce altyazılara çift tıklayınız.

Çeviri: Isil Arican Gözden geçirme: Sancak Gülgen
00:15
Erez Lieberman Aiden: Everyone knows
0
15260
2000
Erez Lieberman Aiden: Herkes bilir ki
00:17
that a picture is worth a thousand words.
1
17260
3000
bir resim 1000 kelimeye değerdir.
00:22
But we at Harvard
2
22260
2000
Ama Harvard'daki bizler
00:24
were wondering if this was really true.
3
24260
3000
bunun gerçekten doğru olup olmadığını merak ediyorduk.
00:27
(Laughter)
4
27260
2000
(Gülüşmeler)
00:29
So we assembled a team of experts,
5
29260
4000
Böylece, Harvard, MIT,
00:33
spanning Harvard, MIT,
6
33260
2000
American Heritage Sözlüğü, Britannica Ansiklopedisi,
00:35
The American Heritage Dictionary, The Encyclopedia Britannica
7
35260
3000
ve gururlu sponsorlarımız Google'ın da arasında bulunduğu
00:38
and even our proud sponsors,
8
38260
2000
uzmanlardan oluşan
00:40
the Google.
9
40260
3000
bir ekip hazırladık.
00:43
And we cogitated about this
10
43260
2000
ve 4 yıl kadar
00:45
for about four years.
11
45260
2000
bunun üzerinde düşündük.
00:47
And we came to a startling conclusion.
12
47260
5000
Ve şaşırtıcı bir sonuca vardık.
00:52
Ladies and gentlemen, a picture is not worth a thousand words.
13
52260
3000
Bayanlar baylar, bir resim 1000 kelimeye değer değil.
00:55
In fact, we found some pictures
14
55260
2000
Hatta, biz 500 milyar kelimeye değer
00:57
that are worth 500 billion words.
15
57260
5000
resimler bulduk.
01:02
Jean-Baptiste Michel: So how did we get to this conclusion?
16
62260
2000
Jean-Baptiste Michel: peki bu sonuca nasıl vardık?
01:04
So Erez and I were thinking about ways
17
64260
2000
Erez ve ben, insan kültürünün ve insanlık tarihinin
01:06
to get a big picture of human culture
18
66260
2000
zamanla değişiminin
01:08
and human history: change over time.
19
68260
3000
genel bir tablosunu oluşturmak istiyorduk.
01:11
So many books actually have been written over the years.
20
71260
2000
Yıllar içinde o kadar çok kitap yazılmış ki.
01:13
So we were thinking, well the best way to learn from them
21
73260
2000
Biz de düşündük ki. onlardan öğrenmenin en iyi yolu
01:15
is to read all of these millions of books.
22
75260
2000
tüm bu milyonlarca kitapları okumak.
01:17
Now of course, if there's a scale for how awesome that is,
23
77260
3000
Tabiki eğer bunun ne kadar süper bir şey olduğunu gösteren bir grafik varsa,
01:20
that has to rank extremely, extremely high.
24
80260
3000
bu çok çok yüksek bir sıralamaya sahip olmalı.
01:23
Now the problem is there's an X-axis for that,
25
83260
2000
Problem şu ki, bir de X ekseni var,
01:25
which is the practical axis.
26
85260
2000
ki o da kullanışlılık ekseni.
01:27
This is very, very low.
27
87260
2000
Bu da çok çok düşük bir seviyede.
01:29
(Applause)
28
89260
3000
(Alkışlar)
01:32
Now people tend to use an alternative approach,
29
92260
3000
Şimdi insanlar alternatif bir yaklaşım kullanmaya meyilli,
01:35
which is to take a few sources and read them very carefully.
30
95260
2000
bu da bir kaç kaynağı almak ve onlar dikkatlice okumak.
01:37
This is extremely practical, but not so awesome.
31
97260
2000
Bu inanılmaz kullanışlı, ama o kadar süper değil.
01:39
What you really want to do
32
99260
3000
Gerçekte yapmak istediğiniz şey
01:42
is to get to the awesome yet practical part of this space.
33
102260
3000
süper ama kullanışlı olan bu alana gelmek.
01:45
So it turns out there was a company across the river called Google
34
105260
3000
Öğrendik ki bir kaç sene önce bir dijitalizasyon projesi başlatan
01:48
who had started a digitization project a few years back
35
108260
2000
bu yaklaşımı mümkün kılabilecek
01:50
that might just enable this approach.
36
110260
2000
nehrin ötesinde Google adında bir şirket varmış.
01:52
They have digitized millions of books.
37
112260
2000
Mİlyonlarca kitabı dijitalize hale getirdiler.
01:54
So what that means is, one could use computational methods
38
114260
3000
Yani bu şu anlama geliyor: biri bu kitapların hepsini okumak için
01:57
to read all of the books in a click of a button.
39
117260
2000
bir klikle bilgisayarlı methodları kullanabilir.
01:59
That's very practical and extremely awesome.
40
119260
3000
Bu çok kullanışlı ve inanılmaz süper.
02:03
ELA: Let me tell you a little bit about where books come from.
41
123260
2000
ELA: Sizlere biraz kitapların nereden geldiğinden bahsedeyim.
02:05
Since time immemorial, there have been authors.
42
125260
3000
Zamanın başlangıcından beri, yazarlar vardı.
02:08
These authors have been striving to write books.
43
128260
3000
Bu yazarlar kitap yazmak için çabalayıp durdular.
02:11
And this became considerably easier
44
131260
2000
Bir kaç yüzyıl önce matbaa makinesinin geliştirilmesiyle
02:13
with the development of the printing press some centuries ago.
45
133260
2000
bu gittikçe kolaylaştı.
02:15
Since then, the authors have won
46
135260
3000
O zamandan beri, 129 milyon farklı vesilelerle
02:18
on 129 million distinct occasions,
47
138260
2000
kitaplar yayınlayarak,
02:20
publishing books.
48
140260
2000
yazarlar kazandı.
02:22
Now if those books are not lost to history,
49
142260
2000
Şimdi ise bu kitaplar tarih arasında kaybolup gitmediyse
02:24
then they are somewhere in a library,
50
144260
2000
bir kütüphanenin tekinde
02:26
and many of those books have been getting retrieved from the libraries
51
146260
3000
ve bu kitapların çoğu kütüphanelerden getirtiliyor,
02:29
and digitized by Google,
52
149260
2000
ve günümüze kadar 15 milyon kitabı taramış olan,
02:31
which has scanned 15 million books to date.
53
151260
2000
Google tarafından dijitalize hale getiriliyorlar.
02:33
Now when Google digitizes a book, they put it into a really nice format.
54
153260
3000
Şimdi Google bir kitabı dijitalize hale getirdiğinde, onu çok güzel bir formatla sunuyorlar.
02:36
Now we've got the data, plus we have metadata.
55
156260
2000
Şimdi elimizde veri var ve meta veri var.
02:38
We have information about things like where was it published,
56
158260
3000
Kitabın nerede basıldığı, yazarın kim olduğu
02:41
who was the author, when was it published.
57
161260
2000
ne zaman basıldığı gibi şeyler hakkında bilgimiz var.
02:43
And what we do is go through all of those records
58
163260
3000
Yaptığımız ise bütün bu bilgileri taramak
02:46
and exclude everything that's not the highest quality data.
59
166260
4000
ve yüksek kaliteli olmayan tüm verileri ayıklamak.
02:50
What we're left with
60
170260
2000
Elimizde kalan şey ise
02:52
is a collection of five million books,
61
172260
3000
5 milyon kitabın
02:55
500 billion words,
62
175260
3000
500 milyar kelimenin toplamı,
02:58
a string of characters a thousand times longer
63
178260
2000
kültürel genomumuzun gerçek bir parçası,
03:00
than the human genome --
64
180260
3000
açık açık yazıldığında,
03:03
a text which, when written out,
65
183260
2000
buradan aya kadar,
03:05
would stretch from here to the Moon and back
66
185260
2000
10 kez gidip gelebilecek,
03:07
10 times over --
67
187260
2000
insan genomundan 1000 kere daha uzun olan
03:09
a veritable shard of our cultural genome.
68
189260
4000
bir karakterler dizisi.
03:13
Of course what we did
69
193260
2000
Böyle aşırı abartılı bir durumla karşı karşıya kaldığımızda
03:15
when faced with such outrageous hyperbole ...
70
195260
3000
yaptığımız şey
03:18
(Laughter)
71
198260
2000
(Gülüşmeler)
03:20
was what any self-respecting researchers
72
200260
3000
kendine saygısı olan her araştırmacının
03:23
would have done.
73
203260
3000
yapacağı şeydi.
03:26
We took a page out of XKCD,
74
206260
2000
XKDC'den bir sayfayı aldık,
03:28
and we said, "Stand back.
75
208260
2000
ve "Sıkı durun, bilim yapmayı deneyeceğiz"
03:30
We're going to try science."
76
210260
2000
dedik.
03:32
(Laughter)
77
212260
2000
(Gülüşmeler)
03:34
JM: Now of course, we were thinking,
78
214260
2000
JM: Tabii ki, şöyle düşündük,
03:36
well let's just first put the data out there
79
216260
2000
bilimle ilgilenen insanlar için
03:38
for people to do science to it.
80
218260
2000
elimizdeki datayı ortaya koyalım.
03:40
Now we're thinking, what data can we release?
81
220260
2000
Düşünmeye başladık, hangi datayı yayınlayabiliriz?
03:42
Well of course, you want to take the books
82
222260
2000
Tabii ki, bu kitapları alıp
03:44
and release the full text of these five million books.
83
224260
2000
bu 5 milyon kitabın tam metinlerini yayınlamak istiyorsunuz.
03:46
Now Google, and Jon Orwant in particular,
84
226260
2000
Google'dakiler, özellikle Jon Orwant,
03:48
told us a little equation that we should learn.
85
228260
2000
bize öğrenmemiz gereken bir denklemden bahsettiler.
03:50
So you have five million, that is, five million authors
86
230260
3000
Şimdi elinizde 5 milyon yazar var
03:53
and five million plaintiffs is a massive lawsuit.
87
233260
3000
ve 5 milyon davacı devasa bir toplu dava demek.
03:56
So, although that would be really, really awesome,
88
236260
2000
Yani bu her ne kadar çok çok süper bir şey olsa da,
03:58
again, that's extremely, extremely impractical.
89
238260
3000
tekrar edelim, çok ama çok kullanışsız.
04:01
(Laughter)
90
241260
2000
(Gülüşmeler)
04:03
Now again, we kind of caved in,
91
243260
2000
Ve tekrardan, boyun eğdik,
04:05
and we did the very practical approach, which was a bit less awesome.
92
245260
3000
ve o kadar süper olmayan kullanışlı yaklaşımı kullandık.
04:08
We said, well instead of releasing the full text,
93
248260
2000
Tam metini yayınlamak yerine,
04:10
we're going to release statistics about the books.
94
250260
2000
kitaplar hakkında istatistikleri yayınlayalım dedik.
04:12
So take for instance "A gleam of happiness."
95
252260
2000
"Bir Pırıltı Mutluluk" 'u ele alalım.
04:14
It's four words; we call that a four-gram.
96
254260
2000
3 kelime; biz buna üç-gram dedik.
04:16
We're going to tell you how many times a particular four-gram
97
256260
2000
Size bu üç-gram'ın 1801, 1802, 1803 ten baslayip
04:18
appeared in books in 1801, 1802, 1803,
98
258260
2000
2008'e kadar olan kitaplarda kaç defa
04:20
all the way up to 2008.
99
260260
2000
geçtiğini söyleyeceğiz.
04:22
That gives us a time series
100
262260
2000
Bu, bize bu cümlenin zaman içinde
04:24
of how frequently this particular sentence was used over time.
101
264260
2000
kaç defa tekrarladığını gösteren bir zaman dizini sunacak.
04:26
We do that for all the words and phrases that appear in those books,
102
266260
3000
Bu yöntemi, bu kitaplardaki tüm kelime ve deyimlere uygularsak
04:29
and that gives us a big table of two billion lines
103
269260
3000
sonunda elimizde kültürümüzün ne şekilde değistigini gösteren
04:32
that tell us about the way culture has been changing.
104
272260
2000
iki milyar satırlık bir tablo ortaya çıkacak.
04:34
ELA: So those two billion lines,
105
274260
2000
ELA: Peki, bu iki milyar satır,
04:36
we call them two billion n-grams.
106
276260
2000
bunlara iki milyar n-gram diyelim.
04:38
What do they tell us?
107
278260
2000
Bize ne söylüyorlar?
04:40
Well the individual n-grams measure cultural trends.
108
280260
2000
Yalın n-gramlar, kültürel trendleri ölçmeye yarıyor.
04:42
Let me give you an example.
109
282260
2000
Bir örnek vermeme izin verin.
04:44
Let's suppose that I am thriving,
110
284260
2000
Diyelim ki ben çok başarılı oldum.
04:46
then tomorrow I want to tell you about how well I did.
111
286260
2000
ve ertesi gün size ne kadar başarılı olduğumu söylemek istedim.
04:48
And so I might say, "Yesterday, I throve."
112
288260
3000
Diyebilirim ki, ben dün "başardım." (throve)
04:51
Alternatively, I could say, "Yesterday, I thrived."
113
291260
3000
Ya da diyebilirim ki "başardım". (thrived)
04:54
Well which one should I use?
114
294260
3000
Hangisini kullanmalıyım?
04:57
How to know?
115
297260
2000
Nasıl bileceğiz?
04:59
As of about six months ago,
116
299260
2000
Bundan yaklaşık altı ay önce
05:01
the state of the art in this field
117
301260
2000
bu sorunun yanıtını öğrenmek için
05:03
is that you would, for instance,
118
303260
2000
mesela bu muhteşem saçlara sahip
05:05
go up to the following psychologist with fabulous hair,
119
305260
2000
psikoloğa gider ve derdiniz ki,
05:07
and you'd say,
120
307260
2000
"Steve, sen düzensiz fiil çekimi konusunda
05:09
"Steve, you're an expert on the irregular verbs.
121
309260
3000
tam bir uzmansın. Hangisini ( throve veya thrived)
05:12
What should I do?"
122
312260
2000
kullanmam gerekir?"
05:14
And he'd tell you, "Well most people say thrived,
123
314260
2000
O da size derdi ki "Bak insanların çoğu 'thrived' diyor,
05:16
but some people say throve."
124
316260
3000
ama bazıları 'thrıve' da diyorlar."
05:19
And you also knew, more or less,
125
319260
2000
Ve şunu da biliyorsunuz ki,
05:21
that if you were to go back in time 200 years
126
321260
3000
eğer bundan 200 yıl önceye gidebiliyor olsanız
05:24
and ask the following statesman with equally fabulous hair,
127
324260
3000
ve aynı derece müthiş saçlara sahip bu devlet adamına aynı soruyu sorsanız,
05:27
(Laughter)
128
327260
3000
(Gülüşmeler)
05:30
"Tom, what should I say?"
129
330260
2000
"Tom, hangisini kullanmalıyım?" deseniz
05:32
He'd say, "Well, in my day, most people throve,
130
332260
2000
O size " Bak, benim zamanımda çoğu insan 'throve' diyordu,
05:34
but some thrived."
131
334260
3000
ama bazıları 'thrived' da der." diyecektir.
05:37
So now what I'm just going to show you is raw data.
132
337260
2000
Öylese şimdi sizle ham veriyi paylaşacağım.
05:39
Two rows from this table of two billion entries.
133
339260
4000
Bu tablodaki iki sıra, iki milyar kayıt demek.
05:43
What you're seeing is year by year frequency
134
343260
2000
Burada gördüğünüz zaman içinde "thrived" ve "throve"
05:45
of "thrived" and "throve" over time.
135
345260
3000
kelimelerinin yıllık frekansı.
05:49
Now this is just two
136
349260
2000
Burada gördüğünüz, iki milyar satırdan
05:51
out of two billion rows.
137
351260
3000
sadece iki tanesi.
05:54
So the entire data set
138
354260
2000
Yani aslında veri setinin tamamı
05:56
is a billion times more awesome than this slide.
139
356260
3000
bu slaytta gördüşünüzden milyar kez daha müthiş.
05:59
(Laughter)
140
359260
2000
(Gülüşmeler)
06:01
(Applause)
141
361260
4000
(Alkışlar)
06:05
JM: Now there are many other pictures that are worth 500 billion words.
142
365260
2000
JM: Şimdi, 500 milyar kelime eden çok farklı başka resimler de var.
06:07
For instance, this one.
143
367260
2000
mesela bu gördüğünüz.
06:09
If you just take influenza,
144
369260
2000
Eğer sadece grip virüsünü alırsanız,
06:11
you will see peaks at the time where you knew
145
371260
2000
dünyada insanların ölümüne neden olan bir grip salgını
06:13
big flu epidemics were killing people around the globe.
146
373260
3000
olduğu zamanlarda pik yaptığını görürsünüz.
06:16
ELA: If you were not yet convinced,
147
376260
3000
ELA: Eğer hala deniz seviyesinin
06:19
sea levels are rising,
148
379260
2000
yükseldiğine ve atmosferik CO2 ve
06:21
so is atmospheric CO2 and global temperature.
149
381260
3000
yerkürenin ısısının arttığına ikna olmadıysanız buna bakabilirsiniz.
06:24
JM: You might also want to have a look at this particular n-gram,
150
384260
3000
JM: Ya da bu diğer n-grama bakarsanız,
06:27
and that's to tell Nietzsche that God is not dead,
151
387260
3000
Nietzsche'ye Tanrıinın ölmediğini söyleyebilirsiniz,
06:30
although you might agree that he might need a better publicist.
152
390260
3000
ama siz de kabul edeceksiniz ki daha iyi bir halkla ilişkiler uzmanına ihtiyacı var.
06:33
(Laughter)
153
393260
2000
(Gülüşmeler)
06:35
ELA: You can get at some pretty abstract concepts with this sort of thing.
154
395260
3000
ELA: Bu tip birşeyi kullanarak epey soyut kavramlara varabilirsiniz.
06:38
For instance, let me tell you the history
155
398260
2000
mesela izin verin size 1950 yılının hikayesini
06:40
of the year 1950.
156
400260
2000
anlatayım.
06:42
Pretty much for the vast majority of history,
157
402260
2000
Tarih boyunca 1950 yılı
06:44
no one gave a damn about 1950.
158
404260
2000
kimsenin pek de umrunda olmadı.
06:46
In 1700, in 1800, in 1900,
159
406260
2000
1700'ler, 1800'ler veya 1900'lerde
06:48
no one cared.
160
408260
3000
kimsenin umrunda değildi.
06:52
Through the 30s and 40s,
161
412260
2000
30'lar ve 40'larda da öyle.
06:54
no one cared.
162
414260
2000
Kimse takmadı.
06:56
Suddenly, in the mid-40s,
163
416260
2000
Birden, 40'lı yılların ortasında,
06:58
there started to be a buzz.
164
418260
2000
bir uğultu ortaya çıkmaya başladı.
07:00
People realized that 1950 was going to happen,
165
420260
2000
İnsanlar 1950'nin yaklaştığını fark ettiler,
07:02
and it could be big.
166
422260
2000
ve bu büyük bir olaydı.
07:04
(Laughter)
167
424260
3000
(Gülüşmeler)
07:07
But nothing got people interested in 1950
168
427260
3000
Ama 1950'lerde hiçbir şey insanları 1950 yılı
07:10
like the year 1950.
169
430260
3000
kadar çok ilgilendirmedi.
07:13
(Laughter)
170
433260
3000
(Gülüşmeler)
07:16
People were walking around obsessed.
171
436260
2000
İnsanlar kafayı yemişlerdi, 1950'de yaptıkları
07:18
They couldn't stop talking
172
438260
2000
şeykeri anlatmaktan başka hiçbir şey yapmadan
07:20
about all the things they did in 1950,
173
440260
3000
ortalıkta dolanıyorladı,
07:23
all the things they were planning to do in 1950,
174
443260
3000
1950'de yapmayı planladıkları şeyler,
07:26
all the dreams of what they wanted to accomplish in 1950.
175
446260
5000
1950'de kavuşmayı umdukları bütün hayalleri.
07:31
In fact, 1950 was so fascinating
176
451260
2000
Aslında, 1950 öylesine inanılmazdı ki,
07:33
that for years thereafter,
177
453260
2000
geçtikten yıllarca sonra bile,
07:35
people just kept talking about all the amazing things that happened,
178
455260
3000
bu müthiş yıl ve onda olup bitenlerden bahsettiler.
07:38
in '51, '52, '53.
179
458260
2000
1951, 52, 53 yıllarında.
07:40
Finally in 1954,
180
460260
2000
Sonunda 1954 yılında biri uyandı ve
07:42
someone woke up and realized
181
462260
2000
nihayet insanlar 1950'nin
07:44
that 1950 had gotten somewhat passé.
182
464260
4000
geçip gitmiş olduğunu fark ettiler.
07:48
(Laughter)
183
468260
2000
(Gülüşmeler)
07:50
And just like that, the bubble burst.
184
470260
2000
Birdenbire, patlayan bir balon gibi.
07:52
(Laughter)
185
472260
2000
(Gülüşmeler)
07:54
And the story of 1950
186
474260
2000
Ve 1950 yılının hikayesi aslında
07:56
is the story of every year that we have on record,
187
476260
2000
yaşadığımız her yılın hikayesi.
07:58
with a little twist, because now we've got these nice charts.
188
478260
3000
Ufak tefek farklılıklar, çünkü artık bu güzel grafiklere sahibiz.
08:01
And because we have these nice charts, we can measure things.
189
481260
3000
Bunlara sahip olduğumuz için bazı şeyleri ölçümleyebiliyoruz.
08:04
We can say, "Well how fast does the bubble burst?"
190
484260
2000
Böylece şunu sorabiliyoruz, "Balonun patlaması ne kadar sürer?"
08:06
And it turns out that we can measure that very precisely.
191
486260
3000
ve görünen o ki artık bunu oldukça hassas şekilde ölçebiliyoruz.
08:09
Equations were derived, graphs were produced,
192
489260
3000
Formüller yazıyor, grafikler çiziyoruz,
08:12
and the net result
193
492260
2000
ve net sonuç şu ki
08:14
is that we find that the bubble bursts faster and faster
194
494260
3000
her geçen yıl bu baloncuklar daha kolay sönüyor.
08:17
with each passing year.
195
497260
2000
Her geçen yıl geçmişe olan ilgimizi
08:19
We are losing interest in the past more rapidly.
196
499260
5000
daha büyük bir hızla kaybediyoruz.
08:24
JM: Now a little piece of career advice.
197
504260
2000
JM: Siz ufak bir kariyer önerisi.
08:26
So for those of you who seek to be famous,
198
506260
2000
Eğer aranızda ünlü olmayı planlayanlar varsa,
08:28
we can learn from the 25 most famous political figures,
199
508260
2000
bu 25 ünlü politik figürden, yazardan ve aktörden
08:30
authors, actors and so on.
200
510260
2000
birşeyler öğrenebilirsiniz.
08:32
So if you want to become famous early on, you should be an actor,
201
512260
3000
Eğer genç yaşta ünlü olmak isterseniz, aktör olmalısınız,
08:35
because then fame starts rising by the end of your 20s --
202
515260
2000
çünkü onlar 20'li yaşların sonunda ünlü olmaya başlıyorlar --
08:37
you're still young, it's really great.
203
517260
2000
hala genç bir yaş, süper.
08:39
Now if you can wait a little bit, you should be an author,
204
519260
2000
Eğer biraz daha bekleyecek olursanız, o zaman yazar olmalısınız,
08:41
because then you rise to very great heights,
205
521260
2000
çünkü o zaman çok ama çok ünlü olabilirsiniz.
08:43
like Mark Twain, for instance: extremely famous.
206
523260
2000
Mark Twain gibi mesela: çok çok ünlü.
08:45
But if you want to reach the very top,
207
525260
2000
Ama en tepeye ulaşmak istiyorsanız,
08:47
you should delay gratification
208
527260
2000
o zaman ünlü olmak için daha beklemeli ve
08:49
and, of course, become a politician.
209
529260
2000
elbette ki poitikacı olmalısınız.
08:51
So here you will become famous by the end of your 50s,
210
531260
2000
Böylece 50 yaş civarında ünlü olabilir, ve hayatınızın
08:53
and become very, very famous afterward.
211
533260
2000
sonrasını çok ama çok ünlü geçirebilirsiniz.
08:55
So scientists also tend to get famous when they're much older.
212
535260
3000
Bilimadamlar çok daha geç yaşlarda ünlü oluyorlar.
08:58
Like for instance, biologists and physics
213
538260
2000
Mesela biyologlar ve fizikçiler neredeyse
09:00
tend to be almost as famous as actors.
214
540260
2000
aktörler kadar ünlü olabilirler.
09:02
One mistake you should not do is become a mathematician.
215
542260
3000
Ama yapacağınız en büyük hata Matematikçi olmak olacaktır.
09:05
(Laughter)
216
545260
2000
(Gülüşmeler)
09:07
If you do that,
217
547260
2000
Eğer bunu yaparsanız,
09:09
you might think, "Oh great. I'm going to do my best work when I'm in my 20s."
218
549260
3000
şöyle düşünebilirsiniz, " Şahane, 20'li yaşlarda en önemli çalışmalarımı yapacağım."
09:12
But guess what, nobody will really care.
219
552260
2000
Ama bilin bakalım ne olacak: kimse sizi umursamayacak.
09:14
(Laughter)
220
554260
3000
(Gülüşmeler)
09:17
ELA: There are more sobering notes
221
557260
2000
ELA: n-gramlardan elde edebileceğiniz
09:19
among the n-grams.
222
559260
2000
daha fena veriler de var.
09:21
For instance, here's the trajectory of Marc Chagall,
223
561260
2000
Mesela, Marc Chagall'ın trajedisini ele alalım.
09:23
an artist born in 1887.
224
563260
2000
1887 yılında doğmuş bir sanatçı.
09:25
And this looks like the normal trajectory of a famous person.
225
565260
3000
Bu gördüğünüz ünlü bir insanın normal grafiğini gösteriyor.
09:28
He gets more and more and more famous,
226
568260
4000
her geçen gün daha ünlü oluyor,
09:32
except if you look in German.
227
572260
2000
ama eğer Almanca kayıtlara bakarsanız,
09:34
If you look in German, you see something completely bizarre,
228
574260
2000
Almanca kayıtlarda çok acaip birşey göreceksiniz,
09:36
something you pretty much never see,
229
576260
2000
daha önce pek görmediğiniz birşey.
09:38
which is he becomes extremely famous
230
578260
2000
Çok çok ünlü olurken, birden bire
09:40
and then all of a sudden plummets,
231
580260
2000
adeta yok oluyor.
09:42
going through a nadir between 1933 and 1945,
232
582260
3000
1933-1945 yılları arasında birden bire düşüyor,
09:45
before rebounding afterward.
233
585260
3000
daha sonra da tekrar yükseliyor.
09:48
And of course, what we're seeing
234
588260
2000
Ve burada gördüğümz şeyin açıklaması da
09:50
is the fact Marc Chagall was a Jewish artist
235
590260
3000
Marc Chagall'ın Nazi Almanyası'nda Yahudi bir
09:53
in Nazi Germany.
236
593260
2000
sanatçı olmaından kaynaklanıyor.
09:55
Now these signals
237
595260
2000
Bu işaretler
09:57
are actually so strong
238
597260
2000
öylesine güçlü ki
09:59
that we don't need to know that someone was censored.
239
599260
3000
birinin sansürlendiğini önceden bilmenize gerek yok.
10:02
We can actually figure it out
240
602260
2000
Bunu basit veri işleme yolu ile
10:04
using really basic signal processing.
241
604260
2000
kendiniz bulabilirsiniz.
10:06
Here's a simple way to do it.
242
606260
2000
İşte bunu yapmanın basit bir yolu.
10:08
Well, a reasonable expectation
243
608260
2000
Bir kimsenin herhangi bir zamandaki
10:10
is that somebody's fame in a given period of time
244
610260
2000
ün miktarı, kabaca ünlü olmadan önceki ve
10:12
should be roughly the average of their fame before
245
612260
2000
ünlü olduktan sonraki ün miktarlarının
10:14
and their fame after.
246
614260
2000
ortalaması olmalıdır.
10:16
So that's sort of what we expect.
247
616260
2000
Görmeyi beklediğimiz şey budur.
10:18
And we compare that to the fame that we observe.
248
618260
3000
Ve bu veriyi gözlemlediğimiz ünle karşılaştırırız.
10:21
And we just divide one by the other
249
621260
2000
Sonra bunları birbirine bölerek
10:23
to produce something we call a suppression index.
250
623260
2000
baskılama indeksi dediğimiz bir rakam buluruz.
10:25
If the suppression index is very, very, very small,
251
625260
3000
Eğer baskılama indeksi çok çok küçük bir rakamsa,
10:28
then you very well might be being suppressed.
252
628260
2000
baskılanmış olma ihtimaliniz çok yüksektir.
10:30
If it's very large, maybe you're benefiting from propaganda.
253
630260
3000
Eğer çok büyükse o zaman da propogandayla pomplanmış olma ihtimaliniz vardır.
10:34
JM: Now you can actually look at
254
634260
2000
JM: Şimdi, eğer toplumların genel baskılanma indekslerinin
10:36
the distribution of suppression indexes over whole populations.
255
636260
3000
dağılımına bakacak olursanız,
10:39
So for instance, here --
256
639260
2000
mesela burada --
10:41
this suppression index is for 5,000 people
257
641260
2000
5000 kişinin baskılama indeksleri var,
10:43
picked in English books where there's no known suppression --
258
643260
2000
bilinen bir baskılama olmayan İngilizce kitaplar bunlar --
10:45
it would be like this, basically tightly centered on one.
259
645260
2000
buna benzer birşey olacaktır, ortada yoğunlaşıyor.
10:47
What you expect is basically what you observe.
260
647260
2000
Kısaca görmeyi beklediğiniz şey ile gördüşünüz aynıdır.
10:49
This is distribution as seen in Germany --
261
649260
2000
Almanya'da gördüğümüz dağılım ise bu --
10:51
very different, it's shifted to the left.
262
651260
2000
çok farklı, sola doğru kaymış durumda.
10:53
People talked about it twice less as it should have been.
263
653260
3000
İnsanlar bunlar hakkında konuşmuş olmaları gerekenin yarısı kadar konuşmuşlar,
10:56
But much more importantly, the distribution is much wider.
264
656260
2000
daha da önemlisi, dağılım çok daha geniş.
10:58
There are many people who end up on the far left on this distribution
265
658260
3000
Dağılımın en solunda yer alan pek çok insan var,
11:01
who are talked about 10 times fewer than they should have been.
266
661260
3000
bunlar haklarında beklenenden 10 kat daha az konuşulmuş olan insanlar.
11:04
But then also many people on the far right
267
664260
2000
Ama en sağda da başkaları var.
11:06
who seem to benefit from propaganda.
268
666260
2000
Bunlar da propoganda'dan faydalanmış kimseler.
11:08
This picture is the hallmark of censorship in the book record.
269
668260
3000
Bu şekil, kitaplardaki sansürün fotoğrafı.
11:11
ELA: So culturomics
270
671260
2000
ELA: Biz bu yönteme Kültüromik
11:13
is what we call this method.
271
673260
2000
adını verdik.
11:15
It's kind of like genomics.
272
675260
2000
Biraz Genomik gibi.
11:17
Except genomics is a lens on biology
273
677260
2000
Ancak genomik insan genomundaki baz dizilimi
11:19
through the window of the sequence of bases in the human genome.
274
679260
3000
aracılığı ile biyoloji bilimine bir pencere açıyor.
11:22
Culturomics is similar.
275
682260
2000
Kültüromik de buna benziyor.
11:24
It's the application of massive-scale data collection analysis
276
684260
3000
İnsan kültrünü incelemek için yapılan çok yoğun bir
11:27
to the study of human culture.
277
687260
2000
veri toplama analizi uygulaması.
11:29
Here, instead of through the lens of a genome,
278
689260
2000
Burada, genomdaki pencere yerine
11:31
through the lens of digitized pieces of the historical record.
279
691260
3000
dijital hale getirilmiş tarihsel verilerin penceresinden bakıyoruz.
11:34
The great thing about culturomics
280
694260
2000
Kültüromik ile ilgili müthiş olan şey
11:36
is that everyone can do it.
281
696260
2000
bunu herkesin yapabiliyor olması.
11:38
Why can everyone do it?
282
698260
2000
Nasıl herkes yapabilir?
11:40
Everyone can do it because three guys,
283
700260
2000
herkes yapabilir, çünkü üç kişi
11:42
Jon Orwant, Matt Gray and Will Brockman over at Google,
284
702260
3000
Google'da çalışan Jon Orwant, Matt Gray ve Wıll Brockman,
11:45
saw the prototype of the Ngram Viewer,
285
705260
2000
Ngram prototipine baktılar ve dediler ki,
11:47
and they said, "This is so fun.
286
707260
2000
" Bu çok eğlenceli birşey.
11:49
We have to make this available for people."
287
709260
3000
Bunu herkesin ulaşabileceği hale getirmemiz lazım."
11:52
So in two weeks flat -- the two weeks before our paper came out --
288
712260
2000
Ve iki hafta içinde -- bizim makalemiz yayınlanmadan iki hafta önce --
11:54
they coded up a version of the Ngram Viewer for the general public.
289
714260
3000
herkesin kullanımına açık bir Ngram versiyonu programladılar.
11:57
And so you too can type in any word or phrase that you're interested in
290
717260
3000
ve artık siz de ilginizi çeken bir kelime ya da deyim yazarak
12:00
and see its n-gram immediately --
291
720260
2000
ona ait n-gramı hemen görebilirsiniz --
12:02
also browse examples of all the various books
292
722260
2000
ve sizin n-gramınızın yer aldığı kitapları
12:04
in which your n-gram appears.
293
724260
2000
tarayabilirsiniz.
12:06
JM: Now this was used over a million times on the first day,
294
726260
2000
JM: Bu uygulama, hayata geçtiği ilk gün ir milyonda defadan fazla kullanıldı,
12:08
and this is really the best of all the queries.
295
728260
2000
ve bu bence en güzel sorgulardan biri.
12:10
So people want to be their best, put their best foot forward.
296
730260
3000
İnsanlar iyi bir şey yapmak istediklerinde "ellerinden geleni yaptılar"
12:13
But it turns out in the 18th century, people didn't really care about that at all.
297
733260
3000
ama görünen o ki, 18. yüzyılda bunu pek umursamıyorlardı.
12:16
They didn't want to be their best, they wanted to be their beft.
298
736260
3000
O zaman "ellerinden geleni" değil, "evlerinden geleni" yapmak istediler.
12:19
So what happened is, of course, this is just a mistake.
299
739260
3000
Aslında olan şu, be elbette bir hata.
12:22
It's not that strove for mediocrity,
300
742260
2000
Gayret etmeyi bırakmadılar, sadece
12:24
it's just that the S used to be written differently, kind of like an F.
301
744260
3000
o dönemde L harfi daha farklı yazılıyordu, V'ye beziyordu biraz.
12:27
Now of course, Google didn't pick this up at the time,
302
747260
3000
Elbette, Google bunu o zaman yakalayamadı,
12:30
so we reported this in the science article that we wrote.
303
750260
3000
bu nedenle bunu yazdığımız makaleye ekledik.
12:33
But it turns out this is just a reminder
304
753260
2000
Ama görünen o ki, bu her ne kadar eğlenceli birşey
12:35
that, although this is a lot of fun,
305
755260
2000
olsa da, bize şunu anımsattı
12:37
when you interpret these graphs, you have to be very careful,
306
757260
2000
bu grafikleri anlamlandırırken çok dikkatli olmanız gerekiyor.
12:39
and you have to adopt the base standards in the sciences.
307
759260
3000
ve mutlaka bilimsel yöntemdeki temel standartları gözetmelisiniz.
12:42
ELA: People have been using this for all kinds of fun purposes.
308
762260
3000
ELA: İnsanlar bunu her türlü eğlenceli şey için kullanıyorlar.
12:45
(Laughter)
309
765260
7000
(Gülüşmeler)
12:52
Actually, we're not going to have to talk,
310
772260
2000
Aslında bundan sonra konuşmamız gereksiz,
12:54
we're just going to show you all the slides and remain silent.
311
774260
3000
size sadece bazı slaytları üzerinde konuşmaksızın göstereceğiz.
12:57
This person was interested in the history of frustration.
312
777260
3000
Bu kişi, düşkırıklığının, sıkıntının tarihçesi ile ilgileniyormuş.
13:00
There's various types of frustration.
313
780260
3000
Düşkırıklığının birkaç çeşidi vardır.
13:03
If you stub your toe, that's a one A "argh."
314
783260
3000
Eğer ayak parmağınızı bir yere çarpacak olursanız bu tek A harfli bir "Ah" demek.
13:06
If the planet Earth is annihilated by the Vogons
315
786260
2000
Eğer gezegenimiz dünya gezegenler arası otoyol yapmak isteyen
13:08
to make room for an interstellar bypass,
316
788260
2000
Vogonlar tarafından işgal edilecek olursa,
13:10
that's an eight A "aaaaaaaargh."
317
790260
2000
bu sekiz A değerinde bir "Aaaaaaaah" eder.
13:12
This person studies all the "arghs,"
318
792260
2000
Bu kişi bütün "Ahéları incelemiş.
13:14
from one through eight A's.
319
794260
2000
Tek A'lıdan sekiz A'lısına dek.
13:16
And it turns out
320
796260
2000
Ve görmüş ki,
13:18
that the less-frequent "arghs"
321
798260
2000
daha can sıkıcı şeylere ait "Ah"lar
13:20
are, of course, the ones that correspond to things that are more frustrating --
322
800260
3000
daha az sıklıkla ortaya çıkıyor,
13:23
except, oddly, in the early 80s.
323
803260
3000
ama 80'li yılların başları hariç.
13:26
We think that might have something to do with Reagan.
324
806260
2000
Biz bu durumun Reagan ile ilgili olduğunu düşünüyoruz.
13:28
(Laughter)
325
808260
2000
(Gülüşmeler(
13:30
JM: There are many usages of this data,
326
810260
3000
JM: Bu verilerin pek çok kullanım alanı var
13:33
but the bottom line is that the historical record is being digitized.
327
813260
3000
ama nihayetinde, bunlar tarihsel kayıtların dijital veriler hakine çevrilmesi.
13:36
Google has started to digitize 15 million books.
328
816260
2000
Google, 15 milyon kitabı dijital hale getirdi.
13:38
That's 12 percent of all the books that have ever been published.
329
818260
2000
Bu, bugüne dek basılmış kitapların %12'si demek.
13:40
It's a sizable chunk of human culture.
330
820260
3000
İnsanlığa ait kültür birikimin kayda değer bir kısmı.
13:43
There's much more in culture: there's manuscripts, there newspapers,
331
823260
3000
Kültüre ait daha pek çok veri var: yazmalar, gazeteler,
13:46
there's things that are not text, like art and paintings.
332
826260
2000
yazılı olmayan şeyler, sanat ve tablolar gibi.
13:48
These all happen to be on our computers,
333
828260
2000
Bunların hepsi dünyanın dört bir yanındaki
13:50
on computers across the world.
334
830260
2000
bilgisayarlarımıza geçebilir.
13:52
And when that happens, that will transform the way we have
335
832260
3000
Ve bu olduğunda, insanlığın geçmişi, bu günü ve
13:55
to understand our past, our present and human culture.
336
835260
2000
tüm yarattığı kültüre bakış açımız tamamen değişecek.
13:57
Thank you very much.
337
837260
2000
Çok teşekkürler.
13:59
(Applause)
338
839260
3000
(Alkışlar)

Original video on YouTube.com
Bu web sitesi hakkında

Bu site size İngilizce öğrenmek için yararlı olan YouTube videolarını tanıtacaktır. Dünyanın dört bir yanından birinci sınıf öğretmenler tarafından verilen İngilizce derslerini göreceksiniz. Videoyu oradan oynatmak için her video sayfasında görüntülenen İngilizce altyazılara çift tıklayın. Altyazılar video oynatımı ile senkronize olarak kayar. Herhangi bir yorumunuz veya isteğiniz varsa, lütfen bu iletişim formunu kullanarak bizimle iletişime geçin.

https://forms.gle/WvT1wiN1qDtmnspy7