아래 영문자막을 더블클릭하시면 영상이 재생됩니다.
번역: Ji-Hyuk Park
검토: Jeong-Lan Kinser
00:15
Erez Lieberman Aiden: Everyone knows
0
15260
2000
이레즈: 누구나 아는
00:17
that a picture is worth a thousand words.
1
17260
3000
'백문이 불여일견'이라는 말이 있습니다.
00:22
But we at Harvard
2
22260
2000
하지만 하버드에서 우리는
00:24
were wondering if this was really true.
3
24260
3000
저 말이 참인지 거짓인지를 논하곤 했죠.
00:27
(Laughter)
4
27260
2000
(웃음)
00:29
So we assembled a team of experts,
5
29260
4000
그래서 우리는 하버트와 MIT에 걸쳐
00:33
spanning Harvard, MIT,
6
33260
2000
전문가들을 모집하고
00:35
The American Heritage Dictionary, The Encyclopedia Britannica
7
35260
3000
아메리칸 헤리티지 사전, 브리태니커 백과사전
00:38
and even our proud sponsors,
8
38260
2000
그리고 심지어 우리의 자랑스런 후원,
00:40
the Google.
9
40260
3000
구글까지 포괄하는 팀을 구성했습니다.
00:43
And we cogitated about this
10
43260
2000
그리고 우리는 이것에 대해
00:45
for about four years.
11
45260
2000
약 4년 동안 깊이있게 연구했죠.
00:47
And we came to a startling conclusion.
12
47260
5000
우리는 놀라운 결론에 도달했습니다.
00:52
Ladies and gentlemen, a picture is not worth a thousand words.
13
52260
3000
신사 숙녀 여러분, 한 그림은 천 단어의 가치가 없습니다. [역: '일견'이 백문의 가치가 되지 않습니다.]
00:55
In fact, we found some pictures
14
55260
2000
사실, 우리는 몇 가지 사진들의 경우
00:57
that are worth 500 billion words.
15
57260
5000
5천억 단어 정도의 가치가 있음을 발견했죠.
01:02
Jean-Baptiste Michel: So how did we get to this conclusion?
16
62260
2000
미셸 : 어떻게 우리가 이 결론에 도달했을까요?
01:04
So Erez and I were thinking about ways
17
64260
2000
이레즈와 전, 연구 방법에 대해 생각하고 있었습니다.
01:06
to get a big picture of human culture
18
66260
2000
어떻게 하면 인간 문화와 역사의 큰 그림을
01:08
and human history: change over time.
19
68260
3000
얻을 수 있을까: 시간에 따라 변화되는 것을 포함해서
01:11
So many books actually have been written over the years.
20
71260
2000
실제로 수 많은 책들은 지난 수년 동안 기록되었습니다.
01:13
So we were thinking, well the best way to learn from them
21
73260
2000
그래서 우리가 그들로 부터 배울 수 있는 가장 좋은 방법은
01:15
is to read all of these millions of books.
22
75260
2000
이 수천 수만권의 책들을 다 읽는거라 생각했습니다.
01:17
Now of course, if there's a scale for how awesome that is,
23
77260
3000
물론, 저 일이 얼마나 멋진 일인지 측정할 수 있다면
01:20
that has to rank extremely, extremely high.
24
80260
3000
저것은 매우, 아주 높은 순위가 매겨질 것입니다.
01:23
Now the problem is there's an X-axis for that,
25
83260
2000
문제는, 그곳에 x축이 있다는 거죠.
01:25
which is the practical axis.
26
85260
2000
실용성을 나타내는 축이죠.
01:27
This is very, very low.
27
87260
2000
이 축에서의 점수는 매우 낮습니다.
01:29
(Applause)
28
89260
3000
(박수)
01:32
Now people tend to use an alternative approach,
29
92260
3000
현재, 사람들은 대안으로 몇 가지 소스들을
01:35
which is to take a few sources and read them very carefully.
30
95260
2000
선택해서 그것들을 주의깊게 읽어나가죠.
01:37
This is extremely practical, but not so awesome.
31
97260
2000
이 방식은 매우 실용적이지만 아주 멋지지는 않습니다.
01:39
What you really want to do
32
99260
3000
당신이 정말하고 원하는 것은
01:42
is to get to the awesome yet practical part of this space.
33
102260
3000
아주 멋진 일을 아주 실용적으로 하는 거죠.
01:45
So it turns out there was a company across the river called Google
34
105260
3000
그래서 보니 강 건너에 구글이라 불리는 회사가 있더군요.
01:48
who had started a digitization project a few years back
35
108260
2000
몇 년 전에 디지털화 프로젝트를 시작했었던 회사죠.
01:50
that might just enable this approach.
36
110260
2000
그것이 우리의 접근방식을 가능케 할수도 있겠더군요.
01:52
They have digitized millions of books.
37
112260
2000
그들은 수백만권의 책을 디지털화 했습니다.
01:54
So what that means is, one could use computational methods
38
114260
3000
그것이 무슨 뜻인고 하니, 누군가 원하면 단 하나의 클릭으로
01:57
to read all of the books in a click of a button.
39
117260
2000
책을 한권을 훑어볼 수 있다는 뜻이죠.
01:59
That's very practical and extremely awesome.
40
119260
3000
아주 실용적이이며 극도로 멋진 일이죠.
02:03
ELA: Let me tell you a little bit about where books come from.
41
123260
2000
이레즈: 제가 책들이 어디서 왔는지 설명을 좀 하죠.
02:05
Since time immemorial, there have been authors.
42
125260
3000
태고적부터, 작가는 늘 존재해 왔습니다.
02:08
These authors have been striving to write books.
43
128260
3000
이 저자들은 책을 쓰기 위해 분투해왔죠.
02:11
And this became considerably easier
44
131260
2000
그 일은 점점 쉬워졋습니다.
02:13
with the development of the printing press some centuries ago.
45
133260
2000
몇 세기전의 인쇄기 발달과 함께말이죠.
02:15
Since then, the authors have won
46
135260
3000
그 이후로 부터는 저자들의 승리였죠.
02:18
on 129 million distinct occasions,
47
138260
2000
뚜렷이 1억2천9백만번 동안
02:20
publishing books.
48
140260
2000
책을 출판했으니까요
02:22
Now if those books are not lost to history,
49
142260
2000
역사 속에 분실되지 않았다면 해당 도서는
02:24
then they are somewhere in a library,
50
144260
2000
지금 어느 도서관 어딘가에 있는 것입니다.
02:26
and many of those books have been getting retrieved from the libraries
51
146260
3000
그 도서의 대부분이 도서관에서 회수되어져
02:29
and digitized by Google,
52
149260
2000
구글에 의해 디지털화 되고 있습니다.
02:31
which has scanned 15 million books to date.
53
151260
2000
현재까지 천오백만권의 도서를 스캔했습니다.
02:33
Now when Google digitizes a book, they put it into a really nice format.
54
153260
3000
지금 구글이 책을 디지털화하면, 좋은 포맷으로 바꿔두죠.
02:36
Now we've got the data, plus we have metadata.
55
156260
2000
이제 우리는 데이터가 있고 그에 관한 속성 정보까지 있죠.
02:38
We have information about things like where was it published,
56
158260
3000
우리에겐 그것이 어디서 출판되었고 누가 썼으며
02:41
who was the author, when was it published.
57
161260
2000
언제 발행되었는지에 관한 정보도 있습니다.
02:43
And what we do is go through all of those records
58
163260
3000
해서, 우리가 가진 모든 자료들을 훑어서
02:46
and exclude everything that's not the highest quality data.
59
166260
4000
상태가 좋지않은 데이터는 전부 제하여
02:50
What we're left with
60
170260
2000
추려서 남은 것이
02:52
is a collection of five million books,
61
172260
3000
오백만권의 책 입니다.
02:55
500 billion words,
62
175260
3000
5천억개의 단어들,
02:58
a string of characters a thousand times longer
63
178260
2000
일렬로 나열했을 경우
03:00
than the human genome --
64
180260
3000
우리 유전자의 총체, 인간 게놈보다 천배 이상 긴 겁니다.
03:03
a text which, when written out,
65
183260
2000
이 텍스트들을 모두 모아서
03:05
would stretch from here to the Moon and back
66
185260
2000
한 줄로 쓰면 여기서 달까지
03:07
10 times over --
67
187260
2000
10번 왔다갔다 할 만큼 나오죠.
03:09
a veritable shard of our cultural genome.
68
189260
4000
진정 우리 문화 게놈의 한 조각이라 할 수 있죠.
03:13
Of course what we did
69
193260
2000
물론 이런 말도 안되는 과장에 직면하게 되면
03:15
when faced with such outrageous hyperbole ...
70
195260
3000
우리가 할 수 있는 일이라곤
03:18
(Laughter)
71
198260
2000
(웃음)
03:20
was what any self-respecting researchers
72
200260
3000
자존감있는 연구원이라면
03:23
would have done.
73
203260
3000
누구나 했을 법한 일이죠.
03:26
We took a page out of XKCD,
74
206260
2000
XKCD의 한 페이지를 꺼내 들고
03:28
and we said, "Stand back.
75
208260
2000
외치는 거죠. "뒤로 물러나.
03:30
We're going to try science."
76
210260
2000
우리는 이제 과학을 시도 할 것이야."
03:32
(Laughter)
77
212260
2000
(웃음) [역: XKCD.com 미국의 유명 웹툰. 웹사이트에서 해당 문구의 티셔츠를 판매하고 있음]
03:34
JM: Now of course, we were thinking,
78
214260
2000
JM은 : 지금은 물론, 우리는 생각하고 있었죠,
03:36
well let's just first put the data out there
79
216260
2000
물론 그냥 먼저 밖으로 데이터를 넣어 봅시다
03:38
for people to do science to it.
80
218260
2000
그것을 할 과학을 하는 사람들을 위해서말이죠.
03:40
Now we're thinking, what data can we release?
81
220260
2000
지금 우리가 생각하고, 우리는 어떤 데이터를 공개할 수 있습니까?
03:42
Well of course, you want to take the books
82
222260
2000
그럼요, 당신은 책을 취해서
03:44
and release the full text of these five million books.
83
224260
2000
이러한 오백만 도서의 전체 텍스트를 놓고 싶어합니다.
03:46
Now Google, and Jon Orwant in particular,
84
226260
2000
특히 이제 Google과 존 Orwant,
03:48
told us a little equation that we should learn.
85
228260
2000
우리가 배워야할 방정식이 조금있다고 말했습니다.
03:50
So you have five million, that is, five million authors
86
230260
3000
그래서 5 백만 작가, 즉, 5 백만 달러를 가지고
03:53
and five million plaintiffs is a massive lawsuit.
87
233260
3000
그리고 5 백만 원고측은 대규모의 소송이다.
03:56
So, although that would be really, really awesome,
88
236260
2000
그럼, 그건 정말 굉장한 것이긴 하지만
03:58
again, that's extremely, extremely impractical.
89
238260
3000
다시말해, 그건 극히, 극히 비실용적입니다.
04:01
(Laughter)
90
241260
2000
(웃음)
04:03
Now again, we kind of caved in,
91
243260
2000
이제 다시, 우리는 굴복한것처럼 되어서,
04:05
and we did the very practical approach, which was a bit less awesome.
92
245260
3000
그리고 약간 덜 굉장하지만, 아주 실용적인 접근을 하게 되었습니다.
04:08
We said, well instead of releasing the full text,
93
248260
2000
우리가 말하길, "글쎄, 전체 텍스트를 발표하는 대신
04:10
we're going to release statistics about the books.
94
250260
2000
우리는 도서에 대한 통계를 공개할거야.
04:12
So take for instance "A gleam of happiness."
95
252260
2000
예를 들어, '행복의 광채"를 봅시다.
04:14
It's four words; we call that a four-gram.
96
254260
2000
그것은 네 단어입니다; 우리는 4 그램이라고 부릅니다.
04:16
We're going to tell you how many times a particular four-gram
97
256260
2000
우리는 특정 4 그램이 1801, 1802, 1803,
04:18
appeared in books in 1801, 1802, 1803,
98
258260
2000
2008년까지 죽 올라가서 책에
04:20
all the way up to 2008.
99
260260
2000
몇번이나 나타나는지 여러분께 말할겁니다.
04:22
That gives us a time series
100
262260
2000
그것은 우리에게 이 특정 문장은 시간이 지남에 따라 얼마나 자주 사용되었는지
04:24
of how frequently this particular sentence was used over time.
101
264260
2000
시간 시리즈를 제공합니다.
04:26
We do that for all the words and phrases that appear in those books,
102
266260
3000
우리가 그 도서에 나타나는 모든 단어와 구문에 대해 그렇게 하면,
04:29
and that gives us a big table of two billion lines
103
269260
3000
그것은 우리에게 이십억 줄의 큰 테이블을 제공하는데
04:32
that tell us about the way culture has been changing.
104
272260
2000
그것은 방식 문화가 변경되는 방법에 관해서 우리에게 알려줍니다.
04:34
ELA: So those two billion lines,
105
274260
2000
ELA : 그럼 그 이십억 라인,
04:36
we call them two billion n-grams.
106
276260
2000
우리는 그들 이십억 N -그램.
04:38
What do they tell us?
107
278260
2000
그들이 우리에게 뭐라고 할까요?
04:40
Well the individual n-grams measure cultural trends.
108
280260
2000
그럼 각각의 N - 그램은 문화동향을 측정합니다.
04:42
Let me give you an example.
109
282260
2000
한가지 예를 들어 드리겠습니다.
04:44
Let's suppose that I am thriving,
110
284260
2000
내가 번성하고 있다고 가정해 봅시다
04:46
then tomorrow I want to tell you about how well I did.
111
286260
2000
그러면 내일은 내가 얼마나 잘했는지 말해주고 싶어요.
04:48
And so I might say, "Yesterday, I throve."
112
288260
3000
그래서 난 "어제 내가 번성했어요(throve)."말할지도 모릅니다.
04:51
Alternatively, I could say, "Yesterday, I thrived."
113
291260
3000
또 저는 "어제, 내가 번창했어요 (thrived)." 라고 할 수 도 있습니다.
04:54
Well which one should I use?
114
294260
3000
글쎄, 어떤것을 사용해야 할까요?
04:57
How to know?
115
297260
2000
어떻게 압니까?
04:59
As of about six months ago,
116
299260
2000
약 6 개월 전의 시기에,
05:01
the state of the art in this field
117
301260
2000
이 분야에서 예술의 상태는
05:03
is that you would, for instance,
118
303260
2000
예를 들어, 당신이,
05:05
go up to the following psychologist with fabulous hair,
119
305260
2000
멋진 머리를 가진 심리학자를 따라 올라가,
05:07
and you'd say,
120
307260
2000
당신이 말하길,
05:09
"Steve, you're an expert on the irregular verbs.
121
309260
3000
"스티브, 당신은 불규칙 동사에 관한 전문가입니다.
05:12
What should I do?"
122
312260
2000
제가 어떻게 해야 할까요? "
05:14
And he'd tell you, "Well most people say thrived,
123
314260
2000
그거면 그는, "글쎄요, 대부분의 사람들이 말하길 번성했다(thrive) 고 했지만,
05:16
but some people say throve."
124
316260
3000
몇몇 사람은 번창했다(throve) 라고 했어요."
05:19
And you also knew, more or less,
125
319260
2000
그래서 여러분은 당신은 또한 다소는
05:21
that if you were to go back in time 200 years
126
321260
3000
만일 이백년전 이전으로 거슬러 올라가서
05:24
and ask the following statesman with equally fabulous hair,
127
324260
3000
그리고, 똑같이 멋진 머리를 가진 다음의 정치가에게 묻는다면,
05:27
(Laughter)
128
327260
3000
(웃음)
05:30
"Tom, what should I say?"
129
330260
2000
"톰, 내가 무슨 말을해야합니까?"
05:32
He'd say, "Well, in my day, most people throve,
130
332260
2000
그는 "글쎄, 나의 세대는 대부분의 사람들이 번성했다 (throve) 라고 말했지만
05:34
but some thrived."
131
334260
3000
몇몇사람은 번창했다 (thrive)라고 말했어요." 할겁니다.
05:37
So now what I'm just going to show you is raw data.
132
337260
2000
그래서 제가 여러분에게 그냥 보여드리려고 하는것은 원래의 데이터입니다.
05:39
Two rows from this table of two billion entries.
133
339260
4000
이십억 항목의 이 테이블에서 두 줄입니다.
05:43
What you're seeing is year by year frequency
134
343260
2000
여러분이 지금보고 계시는 것은 번성했다(throve)와 번창했다(thrive)의
05:45
of "thrived" and "throve" over time.
135
345260
3000
오랜시간에 걸친 각 년도의 빈도입니다.
05:49
Now this is just two
136
349260
2000
이제 이십억 행에서
05:51
out of two billion rows.
137
351260
3000
이 두 개만 있습니다
05:54
So the entire data set
138
354260
2000
따라서 전체 데이터 세트는
05:56
is a billion times more awesome than this slide.
139
356260
3000
이 슬라이드보다 억 배 이상 굉장한 것입니다.
05:59
(Laughter)
140
359260
2000
(웃음)
06:01
(Applause)
141
361260
4000
(박수)
06:05
JM: Now there are many other pictures that are worth 500 billion words.
142
365260
2000
JM : 지금 5 백조개단어의 가치가 있는 많은 다른 그림이 있습니다.
06:07
For instance, this one.
143
367260
2000
예를 들어,이것을 보세요.
06:09
If you just take influenza,
144
369260
2000
여러분이 독감을 취할경우,
06:11
you will see peaks at the time where you knew
145
371260
2000
여러분은 큰 독감 전염병이 전세계의 사람을 죽이고 있었던것을
06:13
big flu epidemics were killing people around the globe.
146
373260
3000
알았던 지점의 가장 최고점 시간을 볼 수 있습니다.
06:16
ELA: If you were not yet convinced,
147
376260
3000
ELA : 여러분이 아직도 납득되지 않으셨다면,
06:19
sea levels are rising,
148
379260
2000
해수면이 상승하고 있으며,
06:21
so is atmospheric CO2 and global temperature.
149
381260
3000
그래서 대기 CO2와 지구의 온도도 상승하고 있습니다.
06:24
JM: You might also want to have a look at this particular n-gram,
150
384260
3000
JM : 당신은 또한,이 특정 N - 그램을 보고싶어할지도 모르고,
06:27
and that's to tell Nietzsche that God is not dead,
151
387260
3000
그것은 니체에게 하나님이 죽은것이 아니라고 말하는 것입니다,
06:30
although you might agree that he might need a better publicist.
152
390260
3000
여러분은 니체가 더 나은 홍보가가 필요하다는데 동의할 지 모르지만요.
06:33
(Laughter)
153
393260
2000
(웃음)
06:35
ELA: You can get at some pretty abstract concepts with this sort of thing.
154
395260
3000
ELA : 당신은 이런 비슷한것들로 꽤 추상적인 개념을 얻을 수 있습니다.
06:38
For instance, let me tell you the history
155
398260
2000
예를 들어, 내가 여러분에게 1950년도의 역사를
06:40
of the year 1950.
156
400260
2000
알려드리겠습니다.
06:42
Pretty much for the vast majority of history,
157
402260
2000
역사의 대부분에 대해서
06:44
no one gave a damn about 1950.
158
404260
2000
그 누구도 1950에 대해 주의를 기울이지 않았습니다
06:46
In 1700, in 1800, in 1900,
159
406260
2000
1700 년, 1800 년, 1900 년에,
06:48
no one cared.
160
408260
3000
그 누구도 신경 쓰지 않았어요.
06:52
Through the 30s and 40s,
161
412260
2000
30년대와 40년대를 통과하며,
06:54
no one cared.
162
414260
2000
그 누구도 신경 쓰지 않았어요.
06:56
Suddenly, in the mid-40s,
163
416260
2000
갑자기 40 년대 중반에
06:58
there started to be a buzz.
164
418260
2000
얘깃거리가 생기기 시작했습니다.
07:00
People realized that 1950 was going to happen,
165
420260
2000
사람들은 1950 년이 일어날 것이라는것과
07:02
and it could be big.
166
422260
2000
그게 큰일일 것이라는 것을 깨닫게 되었지요.
07:04
(Laughter)
167
424260
3000
(웃음)
07:07
But nothing got people interested in 1950
168
427260
3000
그러나 아무것도 1950 년과 같이
07:10
like the year 1950.
169
430260
3000
1950년에 사람들에게 관심이있는것은 없었습니다.
07:13
(Laughter)
170
433260
3000
(웃음)
07:16
People were walking around obsessed.
171
436260
2000
사람들은 집착해서 돌아나녔습니다
07:18
They couldn't stop talking
172
438260
2000
그들은 그들이 1950 년 한 모든 것에 대해,
07:20
about all the things they did in 1950,
173
440260
3000
말을 멈출수 없었습니다,
07:23
all the things they were planning to do in 1950,
174
443260
3000
그들이 1950년에 할 준비를 하고있던 모든것들,
07:26
all the dreams of what they wanted to accomplish in 1950.
175
446260
5000
그들이 1950 년에 달성하고 싶어했던 모든 꿈에 대해.
07:31
In fact, 1950 was so fascinating
176
451260
2000
사실 1950 년 정말 매혹적이어서
07:33
that for years thereafter,
177
453260
2000
그 이후 년 동안
07:35
people just kept talking about all the amazing things that happened,
178
455260
3000
사람들은 51년, 52년, 53년에
07:38
in '51, '52, '53.
179
458260
2000
일어난 모든 놀라운 일들에 대해 얘기를 계속했습니다.
07:40
Finally in 1954,
180
460260
2000
결국 1954년에,
07:42
someone woke up and realized
181
462260
2000
누군가가 잠에 깨어 일어나서는
07:44
that 1950 had gotten somewhat passé.
182
464260
4000
1950은 다소 지나갔다는것을 깨달았습니다.
07:48
(Laughter)
183
468260
2000
(웃음)
07:50
And just like that, the bubble burst.
184
470260
2000
그리고 그냥 그렇게, 그 거품이 터졌지요.
07:52
(Laughter)
185
472260
2000
(웃음)
07:54
And the story of 1950
186
474260
2000
그리고 1950 년 이야기는
07:56
is the story of every year that we have on record,
187
476260
2000
우리가 기록을 보유하고 있는 매년의 이야기가
07:58
with a little twist, because now we've got these nice charts.
188
478260
3000
지금은 이 좋은 차트를 가지고 있기 때문에 약간 꼬여 있어요.
08:01
And because we have these nice charts, we can measure things.
189
481260
3000
그리고 우리가이 멋진 차트를 가지고 있기 때문에, 우리는 물건을 측정할 수 있습니다.
08:04
We can say, "Well how fast does the bubble burst?"
190
484260
2000
우리는 "글쎄 얼마나 빨리 거품이 터질까?" 라고 말할 수도 있습니다.
08:06
And it turns out that we can measure that very precisely.
191
486260
3000
그리고 그것은 우리가 매우 정확하게 측정할 수있다는 게 밝혀졌습니다.
08:09
Equations were derived, graphs were produced,
192
489260
3000
방정식이 도출되었고, 그래프가 만들어졌고,
08:12
and the net result
193
492260
2000
그리고 그 실제 결과는
08:14
is that we find that the bubble bursts faster and faster
194
494260
3000
우리가 그 거품이 터지는것이 각 지나가는 해와 더불어
08:17
with each passing year.
195
497260
2000
점점 더 빨라지는것을 발견했다는 것입니다.
08:19
We are losing interest in the past more rapidly.
196
499260
5000
우리는 더 빨리 과거에 흥미를 잃어 가고있습니다.
08:24
JM: Now a little piece of career advice.
197
504260
2000
JM : 지금 경력 조언의 작은 조각.
08:26
So for those of you who seek to be famous,
198
506260
2000
그래서 유명한 사람이 되기를 추구하는 여러분들을 위해,
08:28
we can learn from the 25 most famous political figures,
199
508260
2000
우리는 25에서 가장 유명한 정치적 인물들에게서,
08:30
authors, actors and so on.
200
510260
2000
저자, 배우 등등에게서 배울 수 있습니다.
08:32
So if you want to become famous early on, you should be an actor,
201
512260
3000
당신이 빨리 유명해지고 싶다면, 당신은 배우가 되어야합니다
08:35
because then fame starts rising by the end of your 20s --
202
515260
2000
그리고 명성이 20대의 마지막에 상승하기 시작하기 때문에 -
08:37
you're still young, it's really great.
203
517260
2000
여러분이 아직 어리다면, 정말 좋아요.
08:39
Now if you can wait a little bit, you should be an author,
204
519260
2000
당신은 조금 기다릴 수있다면, 이제 당신은 저자되어야합니다
08:41
because then you rise to very great heights,
205
521260
2000
다음 아주 좋은 높이로 상승하기 때문인데,
08:43
like Mark Twain, for instance: extremely famous.
206
523260
2000
극히 유명한 사람과 같이 말이죠.
08:45
But if you want to reach the very top,
207
525260
2000
하지만 당신이 맨 상위에 도달하려는 경우,
08:47
you should delay gratification
208
527260
2000
당신은 만족을 지연해야하고
08:49
and, of course, become a politician.
209
529260
2000
그리고, 물론, 정치가가 되야 합니다.
08:51
So here you will become famous by the end of your 50s,
210
531260
2000
그럼 여기서 당신은 당신의 50 대 말까지 유명 될 것입니다
08:53
and become very, very famous afterward.
211
533260
2000
그리고 그 이후에는 아주 유명하게 됩니다.
08:55
So scientists also tend to get famous when they're much older.
212
535260
3000
그래서 과학자들은 또한 훨씬 나이들었을 때 유명해지는 경향이 있습니다.
08:58
Like for instance, biologists and physics
213
538260
2000
예를 들어, 생물학 및 물리학에 대한 마찬가지로
09:00
tend to be almost as famous as actors.
214
540260
2000
배우만큼이나 유명해지는 경향이 있습니다.
09:02
One mistake you should not do is become a mathematician.
215
542260
3000
당신이 범하지 말아야 할 한가지 실수는 수학자가 되는 것입니다.
09:05
(Laughter)
216
545260
2000
(웃음)
09:07
If you do that,
217
547260
2000
만약 당신이 그렇게한다면,
09:09
you might think, "Oh great. I'm going to do my best work when I'm in my 20s."
218
549260
3000
당신은 "좋아. 아 내가 내가 20대에 있을 때 내 최고의 작업을 할거야."라고 생각할 수도 있지만
09:12
But guess what, nobody will really care.
219
552260
2000
그러나 짐작해보세요, 아무도 상관하지 않습니다.
09:14
(Laughter)
220
554260
3000
(웃음)
09:17
ELA: There are more sobering notes
221
557260
2000
ELA: N-그램사이에
09:19
among the n-grams.
222
559260
2000
보다 냉정한 노트가 있습니다.
09:21
For instance, here's the trajectory of Marc Chagall,
223
561260
2000
예를 들어, 여기, 1887년에 태어난
09:23
an artist born in 1887.
224
563260
2000
마크 샤갈의 탄도가 있습니다.
09:25
And this looks like the normal trajectory of a famous person.
225
565260
3000
그리고 이것은 유명한 사람의 정상적인 궤도 같습니다.
09:28
He gets more and more and more famous,
226
568260
4000
그는 점점 더 유명해집니다,
09:32
except if you look in German.
227
572260
2000
독일어로 여러분이 보는 경우를 제외하고는요.
09:34
If you look in German, you see something completely bizarre,
228
574260
2000
당신이 독일어로 보면, 당신은 완전히 이상한 무언가를 봅니다,
09:36
something you pretty much never see,
229
576260
2000
당신은 거의 못 볼 것을말이죠,
09:38
which is he becomes extremely famous
230
578260
2000
그것은 그가 극도로 유명하게되고
09:40
and then all of a sudden plummets,
231
580260
2000
그리고 갑자기 곤두박질을 하는것입니다,
09:42
going through a nadir between 1933 and 1945,
232
582260
3000
1933과 1945년 사이의 최하점을 겪으면서,
09:45
before rebounding afterward.
233
585260
3000
그 이후 복귀하기 전에요.
09:48
And of course, what we're seeing
234
588260
2000
그리고 물론, 우리가 보는것은
09:50
is the fact Marc Chagall was a Jewish artist
235
590260
3000
사실 마크 샤갈은 나치 독일에서의
09:53
in Nazi Germany.
236
593260
2000
유대인 예술가였다는 사실입니다.
09:55
Now these signals
237
595260
2000
지금 이러한 신호들은
09:57
are actually so strong
238
597260
2000
실제로 대단히 강해서
09:59
that we don't need to know that someone was censored.
239
599260
3000
우리는 누군가가 검열 받았는지 알 필요가 없습니다.
10:02
We can actually figure it out
240
602260
2000
우리는 실제로 기본적인 신호 처리를 사용해서
10:04
using really basic signal processing.
241
604260
2000
실제로 그것을 알아낼 수 있습니다.
10:06
Here's a simple way to do it.
242
606260
2000
여기 그것을하는 간단한 방법이 있습니다.
10:08
Well, a reasonable expectation
243
608260
2000
음, 합리적인 기대는
10:10
is that somebody's fame in a given period of time
244
610260
2000
주어진 시간안에 누군가의 명성은
10:12
should be roughly the average of their fame before
245
612260
2000
대략 그들의 명성의 이전과 이후의 평균으로
10:14
and their fame after.
246
614260
2000
되어야 합니다.
10:16
So that's sort of what we expect.
247
616260
2000
그래서 그것은 우리가 기대하는 어떤것입니다.
10:18
And we compare that to the fame that we observe.
248
618260
3000
그리고 우리는 우리가 관찰하는 명성에 그것을 비교합니다.
10:21
And we just divide one by the other
249
621260
2000
그리고 우리는 다른 것을 1로 나누어서
10:23
to produce something we call a suppression index.
250
623260
2000
우리가 억제 지수라고 부르는 무언가를 생산합니다.
10:25
If the suppression index is very, very, very small,
251
625260
3000
만일 그 억제 지수가 매우, 매우, 매우 작으면,
10:28
then you very well might be being suppressed.
252
628260
2000
그다음에 당신은 잘 억압될 수도 있습니다.
10:30
If it's very large, maybe you're benefiting from propaganda.
253
630260
3000
만일 그것이 매우 크면, 아마 당신이 선전에서 혜택을 받는것일겁니다.
10:34
JM: Now you can actually look at
254
634260
2000
JM이 : 이제 여러분은
10:36
the distribution of suppression indexes over whole populations.
255
636260
3000
전체 인구에 대한 억제 지수의 분포를 실제로 볼 수 있습니다.
10:39
So for instance, here --
256
639260
2000
따라서 예를 들어, 여기에 -
10:41
this suppression index is for 5,000 people
257
641260
2000
이 억제 지수는 알려진 억압이 없는 곳에서
10:43
picked in English books where there's no known suppression --
258
643260
2000
영어로 쓰여진 도서를 고른 5,000 명에 대한 것인데-
10:45
it would be like this, basically tightly centered on one.
259
645260
2000
그것은 기본적으로 긴밀하게 하나를 중심으로 한 이것과 같은 것입니다.
10:47
What you expect is basically what you observe.
260
647260
2000
예상할 수 있는것은 기본적으로 여러분이 관찰하는 것입니다.
10:49
This is distribution as seen in Germany --
261
649260
2000
독일에서 보여진것과 같이 이 배포는 -
10:51
very different, it's shifted to the left.
262
651260
2000
매우 다릅니다, 그것은 왼쪽으로 이동되어 있지요.
10:53
People talked about it twice less as it should have been.
263
653260
3000
사람들은 그것이 해 졌어야만 할 것보다 두 번 이하로 얘기했습니다.
10:56
But much more importantly, the distribution is much wider.
264
656260
2000
그러나 더 중요하게, 그 배포는 훨씬 더 넓다는 것입니다.
10:58
There are many people who end up on the far left on this distribution
265
658260
3000
이 배포판에서 맨 왼쪽에 결국 많은 사람들은
11:01
who are talked about 10 times fewer than they should have been.
266
661260
3000
그들이 있었어야 할 것보다 10 배 이하로 얘기한 사람들입니다.
11:04
But then also many people on the far right
267
664260
2000
하지만 그다음에는 선전의 혜택을 받은것처럼 보이는
11:06
who seem to benefit from propaganda.
268
666260
2000
맨 오른쪽에도 많은 사람들이있습니다.
11:08
This picture is the hallmark of censorship in the book record.
269
668260
3000
이 사진은 책에 기록에 검열의 특징이다.
11:11
ELA: So culturomics
270
671260
2000
ELA : 그래서 우리는 이 방법을
11:13
is what we call this method.
271
673260
2000
컬쳐로믹스라고 부릅니다.
11:15
It's kind of like genomics.
272
675260
2000
그것은 같은 게놈의 일종 이죠.
11:17
Except genomics is a lens on biology
273
677260
2000
게노믹스가 인간 게놈에있는 기반의 순서의 창문을 통한
11:19
through the window of the sequence of bases in the human genome.
274
679260
3000
생물학에서는 렌즈라는것을 제외하고는 말입니다.
11:22
Culturomics is similar.
275
682260
2000
컬쳐로믹스는 비슷합니다.
11:24
It's the application of massive-scale data collection analysis
276
684260
3000
그것은 인간 문화의 연구에
11:27
to the study of human culture.
277
687260
2000
거대한 규모의 데이터 수집 분석 응용 프로그램입니다.
11:29
Here, instead of through the lens of a genome,
278
689260
2000
여기에서는, 게놈의 렌즈를 통하는것을 대신해서,
11:31
through the lens of digitized pieces of the historical record.
279
691260
3000
역사 기록의 디지털화된 조각의 렌즈를 통합니다.
11:34
The great thing about culturomics
280
694260
2000
컬쳐로믹스에 대한 굉장한 점은
11:36
is that everyone can do it.
281
696260
2000
모든 사람이 그것을 할 수 있다는 것 입니다.
11:38
Why can everyone do it?
282
698260
2000
왜 다들 그것을 할 수 있을까요?
11:40
Everyone can do it because three guys,
283
700260
2000
누구나 할 수 있기 때문에 세 남자,
11:42
Jon Orwant, Matt Gray and Will Brockman over at Google,
284
702260
3000
존 오르완트, 매트 그레이와 윌 브록만이 구글에서
11:45
saw the prototype of the Ngram Viewer,
285
705260
2000
N 그램의 뷰어의 프로토 타입을 보고,
11:47
and they said, "This is so fun.
286
707260
2000
그리고 그들이 말하기를, "이건 정말 재미있네.
11:49
We have to make this available for people."
287
709260
3000
우리는 사람들이 이걸 사용할 수 있도록해야하겠는걸 "이라고 말했습니다.
11:52
So in two weeks flat -- the two weeks before our paper came out --
288
712260
2000
그래서 2 주를 쫙 깔아서-- 우리 신문이 나온 두 주 전에 ---
11:54
they coded up a version of the Ngram Viewer for the general public.
289
714260
3000
그들은 일반 대중을 위한 N그램 뷰어의 버전을 코드화 했습니다 .
11:57
And so you too can type in any word or phrase that you're interested in
290
717260
3000
그래서 당신도 당신이 관심이 있는 어떤 단어 또는 구절이든지 타이프칠 수 있고
12:00
and see its n-gram immediately --
291
720260
2000
그 즉시 N 그램을 볼 수 있고 -
12:02
also browse examples of all the various books
292
722260
2000
또한 여러분의 N그램에 나타나는
12:04
in which your n-gram appears.
293
724260
2000
다양한 도서의 사례를 탐색할 수 있습니다.
12:06
JM: Now this was used over a million times on the first day,
294
726260
2000
JM : 이제 이것은 첫날에 백만 번 이상 사용되었고,
12:08
and this is really the best of all the queries.
295
728260
2000
이것은 정말 모든 질문중 최고입니다.
12:10
So people want to be their best, put their best foot forward.
296
730260
3000
그래서 사람들은 앞으로 최선의 발차취로 그 자신들의 최고가 되고 싶어합니다.
12:13
But it turns out in the 18th century, people didn't really care about that at all.
297
733260
3000
하지만 18 세기에 밝혀졌듯이, 사람들은 전혀 신경 쓰지 않았습니다.
12:16
They didn't want to be their best, they wanted to be their beft.
298
736260
3000
그들은 그들의 최고가 되고 싶지 않아했습니다, 그들은 그들의 방어인들이 되고 싶어했어요.
12:19
So what happened is, of course, this is just a mistake.
299
739260
3000
그래서 무슨 일이 일어났는가 하면, 이건 실수입니다.
12:22
It's not that strove for mediocrity,
300
742260
2000
이것은, 평범을위한 투지가 아니에요
12:24
it's just that the S used to be written differently, kind of like an F.
301
744260
3000
그것은 S가 F 비슷하게 다르게 쓰여지곤 했다는 것입니다.
12:27
Now of course, Google didn't pick this up at the time,
302
747260
3000
지금은 물론, 구글은 당시에 이것을 알아차리지 못했습니다,
12:30
so we reported this in the science article that we wrote.
303
750260
3000
그래서 우리는 우리가 쓴 과학 기사에서 이것을 보도했습니다.
12:33
But it turns out this is just a reminder
304
753260
2000
그러나 그것은 이것이 단지 이것이 아주 재미있지만,
12:35
that, although this is a lot of fun,
305
755260
2000
여러분이 이 그래프를 해석할 때,
12:37
when you interpret these graphs, you have to be very careful,
306
757260
2000
여러분이 매우 신중해야 한다는 것을,
12:39
and you have to adopt the base standards in the sciences.
307
759260
3000
그리고 과학에서 기본 표준을 채택해야만 한다는 것을 상기시켜주는 것입니다.
12:42
ELA: People have been using this for all kinds of fun purposes.
308
762260
3000
ELA : 사람들은 재미 목적인 종류에 이것을 사용하고 있습니다.
12:45
(Laughter)
309
765260
7000
(웃음)
12:52
Actually, we're not going to have to talk,
310
772260
2000
사실, 우리는 얘기를 할 수 없어야만 하는 않을 것입니다,
12:54
we're just going to show you all the slides and remain silent.
311
774260
3000
우리는 당신에게 모든 슬라이드를 보여하고 조용히 있을겁니다.
12:57
This person was interested in the history of frustration.
312
777260
3000
이 사람은 좌절의 역사에 관심이 있었습니다.
13:00
There's various types of frustration.
313
780260
3000
다양한 종류의 좌절이 있었습니다.
13:03
If you stub your toe, that's a one A "argh."
314
783260
3000
만일 여러분이 여러분의 발가락을 찌른다면, 그것은 하나의 A "argh."입니다.
13:06
If the planet Earth is annihilated by the Vogons
315
786260
2000
만일 지구가 성간 우회를 위한 공간을 마련하기 위한,
13:08
to make room for an interstellar bypass,
316
788260
2000
보곤에 의해 전멸당하게 되면,
13:10
that's an eight A "aaaaaaaargh."
317
790260
2000
그것은 여덟개의 A "argh" 입니다.
13:12
This person studies all the "arghs,"
318
792260
2000
이 사람은 모든 "argh" 를
13:14
from one through eight A's.
319
794260
2000
하나에서부터 8 A를 통해서 공부합니다.
13:16
And it turns out
320
796260
2000
그리고 그것은
13:18
that the less-frequent "arghs"
321
798260
2000
그 "arghs" 가 덜 빈번하게 나올때,
13:20
are, of course, the ones that correspond to things that are more frustrating --
322
800260
3000
물론, 이것들에 해당하는 것들은 더 어렵게됩니다--
13:23
except, oddly, in the early 80s.
323
803260
3000
이상하게도 초기 80 년대에서를 제외하고는요.
13:26
We think that might have something to do with Reagan.
324
806260
2000
우리는 레이건과 뭔가 관련이 있을지 모른다고 생각합니다.£
13:28
(Laughter)
325
808260
2000
(웃음)
13:30
JM: There are many usages of this data,
326
810260
3000
JM :이 데이터의 여러 용도가 있습니다,
13:33
but the bottom line is that the historical record is being digitized.
327
813260
3000
하지만 요점은 역사적 기록이 디지털화 되고 있다는 점입니다.
13:36
Google has started to digitize 15 million books.
328
816260
2000
Google은 천오백만권의 책을 디지털화하기 시작했습니다.
13:38
That's 12 percent of all the books that have ever been published.
329
818260
2000
그것은 사상 출판된 모든 책들의 12 % 입니다.
13:40
It's a sizable chunk of human culture.
330
820260
3000
그것은 인간 문화의 상당한 부분입니다.
13:43
There's much more in culture: there's manuscripts, there newspapers,
331
823260
3000
문화에는 훨씬 더 있습니다: 거기에는 원고, 신문이 있고,
13:46
there's things that are not text, like art and paintings.
332
826260
2000
예술과 그림과 같은, 텍스트가 아닌 것들이 있습니다.
13:48
These all happen to be on our computers,
333
828260
2000
이것들은 모두 우리의 컴퓨터위에서 일어났습니다,
13:50
on computers across the world.
334
830260
2000
전세계에 걸쳐 컴퓨터위에서.
13:52
And when that happens, that will transform the way we have
335
832260
3000
그리고 그것이 일어나는 때면, 우리가 우리의 과거, 현재, 그리고 미래를 이해하는
13:55
to understand our past, our present and human culture.
336
835260
2000
우리의 과거, 현재 우리의 인간 문화를 이해합니다.
13:57
Thank you very much.
337
837260
2000
정말 감사합니다.
13:59
(Applause)
338
839260
3000
(박수)
New videos
이 웹사이트 정보
이 사이트는 영어 학습에 유용한 YouTube 동영상을 소개합니다. 전 세계 최고의 선생님들이 가르치는 영어 수업을 보게 될 것입니다. 각 동영상 페이지에 표시되는 영어 자막을 더블 클릭하면 그곳에서 동영상이 재생됩니다. 비디오 재생에 맞춰 자막이 스크롤됩니다. 의견이나 요청이 있는 경우 이 문의 양식을 사용하여 문의하십시오.