Kenneth Cukier: Big data is better data

532,959 views ・ 2014-09-23

TED


아래 영문자막을 더블클릭하시면 영상이 재생됩니다.

번역: Kyo young Chu 검토: Jeong-Lan Kinser
00:12
America's favorite pie is?
0
12787
3845
미국인들이 가장 좋아하는 파이는?
00:16
Audience: Apple. Kenneth Cukier: Apple. Of course it is.
1
16632
3506
청중: 사과요. 케네스 쿠키어: 당연히 사과죠.
00:20
How do we know it?
2
20138
1231
어떻게 알았을까요?
00:21
Because of data.
3
21369
2753
데이터가 있으니까 알죠.
00:24
You look at supermarket sales.
4
24122
2066
슈퍼마켓의 매출을 보면 됩니다.
00:26
You look at supermarket sales of 30-centimeter pies
5
26188
2866
30 센치 크기의 냉동 파이 매출을 보면
00:29
that are frozen, and apple wins, no contest.
6
29054
4075
사과 파이가 선두입니다. 경쟁이 안 되죠.
00:33
The majority of the sales are apple.
7
33129
5180
대부분의 매출이 사과 파이입니다.
00:38
But then supermarkets started selling
8
38309
2964
하지만 슈퍼마켓들이 11센치의 작은파이들을 판매하기 시작했고,
00:41
smaller, 11-centimeter pies,
9
41273
2583
00:43
and suddenly, apple fell to fourth or fifth place.
10
43856
4174
그러자 사과 파이는 4번째, 5번째로 추락했죠.
00:48
Why? What happened?
11
48030
2875
왜요? 무슨 일이 일어난 걸까요?
00:50
Okay, think about it.
12
50905
2818
생각해봅시다.
00:53
When you buy a 30-centimeter pie,
13
53723
3848
30센치 파이를 살 때는
00:57
the whole family has to agree,
14
57571
2261
가족 전원이 동의를 해야 합니다.
00:59
and apple is everyone's second favorite.
15
59832
3791
그리고 사과는 모두가 두 번째로 좋아하는 파이였던 겁니다.
01:03
(Laughter)
16
63623
1935
(웃음)
01:05
But when you buy an individual 11-centimeter pie,
17
65558
3615
하지만 개인이 먹을 11센치 파이를 살 때는
01:09
you can buy the one that you want.
18
69173
3745
자기가 원하는 것을 살 수 있어요.
01:12
You can get your first choice.
19
72918
4015
자기가 가장 원하는 것을 살 수 있는 것이죠.
01:16
You have more data.
20
76933
1641
자료가 더 많아진 겁니다.
01:18
You can see something
21
78574
1554
여러분은 적은 양의 데이터였을 때는 볼 수 없는 뭔가를 볼 수 있죠.
01:20
that you couldn't see
22
80128
1132
01:21
when you only had smaller amounts of it.
23
81260
3953
01:25
Now, the point here is that more data
24
85213
2475
여기서의 요점은 더 많은 데이터가 단지
01:27
doesn't just let us see more,
25
87688
2283
우리가 보는 같은 것에서 더 많은 것만을 보여주는 것이 아니라는 겁니다.
01:29
more of the same thing we were looking at.
26
89971
1854
01:31
More data allows us to see new.
27
91825
3613
더 많은 데이터는 새로운 걸 볼 수 있게 해주죠.
01:35
It allows us to see better.
28
95438
3094
우리가 더 잘 보게 해주고, 우리가 다른 것을 보게 해주고,
01:38
It allows us to see different.
29
98532
3656
01:42
In this case, it allows us to see
30
102188
3173
이 경우에는, 미국인들이 가장 좋아하는 파이가 사과가 아니란 걸 알려줍니다.
01:45
what America's favorite pie is:
31
105361
2913
01:48
not apple.
32
108274
2542
01:50
Now, you probably all have heard the term big data.
33
110816
3614
다들 빅데이터라는 말을 들어보셨을 겁니다.
01:54
In fact, you're probably sick of hearing the term
34
114430
2057
사실, 그, 빅데이터라는 단어에 식상하셨을거예요.
01:56
big data.
35
116487
1630
01:58
It is true that there is a lot of hype around the term,
36
118117
3330
빅데이터가 구설수에 오르는 건 사실이지만,
02:01
and that is very unfortunate,
37
121447
2332
굉장히 안타깝게 생각합니다.
02:03
because big data is an extremely important tool
38
123779
3046
왜냐하면 빅데이터는 사회의 발전에 있어서 굉장히 중요한 도구이기 때문입니다.
02:06
by which society is going to advance.
39
126825
3734
02:10
In the past, we used to look at small data
40
130559
3561
과거에, 우리는 소량의 자료를 보며
02:14
and think about what it would mean
41
134120
1704
세상을 이해하려 노력하는 게 무엇을 의미하는지 생각했습니다.
02:15
to try to understand the world,
42
135824
1496
02:17
and now we have a lot more of it,
43
137320
1991
지금 우리는 그 어느 때보다도
02:19
more than we ever could before.
44
139311
2722
많은 자료를 가지고 있습니다.
02:22
What we find is that when we have
45
142033
1877
방대한 양의 자료가 있으면
02:23
a large body of data, we can fundamentally do things
46
143910
2724
근본적으로 더 적은 자료로는
02:26
that we couldn't do when we only had smaller amounts.
47
146634
3276
할 수 없었던 것들을 할 수 있다는 것을 깨달았습니다.
02:29
Big data is important, and big data is new,
48
149910
2641
빅데이터는 중요하고, 빅데이터는 새롭습니다.
02:32
and when you think about it,
49
152551
1777
여러분이 생각해 보시면, 기아와 의료 지원, 전력 공급,
02:34
the only way this planet is going to deal
50
154328
2216
02:36
with its global challenges —
51
156544
1789
02:38
to feed people, supply them with medical care,
52
158333
3537
02:41
supply them with energy, electricity,
53
161870
2810
02:44
and to make sure they're not burnt to a crisp
54
164680
1789
기상변화로그들이 고통받는 문제와 같은 세계적인 난관들을 해쳐나갈 수 있었던
02:46
because of global warming —
55
166469
1238
02:47
is because of the effective use of data.
56
167707
4195
유일한 방법은 데이터를 효과적으로 사용했기 때문이죠.
02:51
So what is new about big data? What is the big deal?
57
171902
3870
그러면 빅 데이터가 새롭고 중요한 이유는 뭘까요?
02:55
Well, to answer that question, let's think about
58
175772
2517
글쎄요, 그 질문에 대답 하기 위해,
02:58
what information looked like,
59
178289
1896
과거에는 정보라는 것이 물리적으로 어떤 형태였는지 알아보죠.
03:00
physically looked like in the past.
60
180185
3034
03:03
In 1908, on the island of Crete,
61
183219
3611
1908년에, 크레테 섬에서,
03:06
archaeologists discovered a clay disc.
62
186830
4735
고고학자들이 진흙 접시를 하나 발견했습니다.
03:11
They dated it from 2000 B.C., so it's 4,000 years old.
63
191565
4059
기원전2000년의 접시로 추정했으니 4000년 정도 됐겠네요.
03:15
Now, there's inscriptions on this disc,
64
195624
2004
그 접시에 뭔가 새겨진 게 있었는데요,
03:17
but we actually don't know what it means.
65
197628
1327
뭘 의미하는 지는 모릅니다. 완전히 미지의 것이지만,
03:18
It's a complete mystery, but the point is that
66
198955
2098
요점은, 4000년 전에는 정보가 이런 형태였다는 사실입니다.
03:21
this is what information used to look like
67
201053
1928
03:22
4,000 years ago.
68
202981
2089
03:25
This is how society stored
69
205070
2548
그 사회는 정보를 이런 형태로 저장하고 전파한 것입니다.
03:27
and transmitted information.
70
207618
3524
03:31
Now, society hasn't advanced all that much.
71
211142
4160
아직 사회는 그리 많이 발달하진 않았어요.
03:35
We still store information on discs,
72
215302
3474
우리는 지금도 여전히 디스크에 정보를 저장해요.
03:38
but now we can store a lot more information,
73
218776
3184
하지만 이전의 그 어느때 보다 훨씬 더 많은 양을 저장할 수 있죠.
03:41
more than ever before.
74
221960
1260
03:43
Searching it is easier. Copying it easier.
75
223220
3093
수색하는 것이 더 쉽고, 복사하는 것도 더 쉽고,
03:46
Sharing it is easier. Processing it is easier.
76
226313
3500
공유하기도 더 쉽고, 처리도 더 쉬워졌습니다.
03:49
And what we can do is we can reuse this information
77
229813
2766
우리가 이제 할 수 있는 것은
데이터를 처음 수집했을 때는 상상하지 못한 방법으로
03:52
for uses that we never even imagined
78
232579
1834
03:54
when we first collected the data.
79
234413
3195
이 정보를 다시 사용할 수 있다는 겁니다.
03:57
In this respect, the data has gone
80
237608
2252
이러한 관점에서,
03:59
from a stock to a flow,
81
239860
3532
데이터는 저장된 것에서 흐름으로,
04:03
from something that is stationary and static
82
243392
3938
고정되고 변하지 않는 것에서
04:07
to something that is fluid and dynamic.
83
247330
3609
움직이고 변화하는 유동적인 것으로 바뀌었습니다.
04:10
There is, if you will, a liquidity to information.
84
250939
4023
여기에 정보의 유동성이 있는 것입니다.
04:14
The disc that was discovered off of Crete
85
254962
3474
크레테 섬에서 발견된 접시는
04:18
that's 4,000 years old, is heavy,
86
258436
3764
4,000년이나 지났고, 무거웠으며,
04:22
it doesn't store a lot of information,
87
262200
1962
정보의 양도 많지 않았고,
04:24
and that information is unchangeable.
88
264162
3116
이를 바꿀 수도 없었죠.
04:27
By contrast, all of the files
89
267278
4011
이와는 대조적으로
미국 국가안보국에서 에드워드 스노든이 빼낸 모든 파일은
04:31
that Edward Snowden took
90
271289
1861
04:33
from the National Security Agency in the United States
91
273150
2621
04:35
fits on a memory stick
92
275771
2419
손톱만한 메모리 스틱에
04:38
the size of a fingernail,
93
278190
3010
다 들어갔고,
04:41
and it can be shared at the speed of light.
94
281200
4745
빛의 속도로 공유할 수 있었습니다.
04:45
More data. More.
95
285945
5255
더 많은 자료는 계속 늘어갑니다.
04:51
Now, one reason why we have so much data in the world today
96
291200
1974
오늘날 세계에 데이터가 넘쳐나는 이유 중 하나는
04:53
is we are collecting things
97
293174
1432
정보를 제공 받은 자료들을 항상, 언제다 모으기 때문이고요,
04:54
that we've always collected information on,
98
294606
3280
04:57
but another reason why is we're taking things
99
297886
2656
또 다른 이유는
정보로써 가치는 있지만 자료의 형태로 가공되지 못했던 것을 이제는
05:00
that have always been informational
100
300542
2812
05:03
but have never been rendered into a data format
101
303354
2486
05:05
and we are putting it into data.
102
305840
2419
자료의 형태로 가공할 수 있게 되었기 때문입니다.
05:08
Think, for example, the question of location.
103
308259
3308
에를 들어, 위치에 대한 질문을 생각해보죠.
05:11
Take, for example, Martin Luther.
104
311567
2249
마틴 루터를 예로 들어 볼게요.
05:13
If we wanted to know in the 1500s
105
313816
1597
1500년 경에 마틴 루터의 위치를 파악하려면,
05:15
where Martin Luther was,
106
315413
2667
05:18
we would have to follow him at all times,
107
318080
2092
항상 그의 꽁무니를 쫓아다니면서
05:20
maybe with a feathery quill and an inkwell,
108
320172
2137
펜과 잉크병을 들고, 기록을 해야만했죠.
05:22
and record it,
109
322309
1676
05:23
but now think about what it looks like today.
110
323985
2183
하지만 지금의 모습은 어떤지 생각해 보세요.
05:26
You know that somewhere,
111
326168
2122
여러분들의 위치를 실시간으로 기록하는 스프레드시트나 아니면
05:28
probably in a telecommunications carrier's database,
112
328290
2446
05:30
there is a spreadsheet or at least a database entry
113
330736
3036
최소한 데이터베이스 입력 형태로 통신사 데이터베이스라던가,
05:33
that records your information
114
333772
2088
05:35
of where you've been at all times.
115
335860
2063
어딘가에는 아마 있을 겁니다. 휴대전화를 가지고 있고,
05:37
If you have a cell phone,
116
337923
1360
05:39
and that cell phone has GPS, but even if it doesn't have GPS,
117
339283
2847
그 전화에 GPS가 있다면, 아니 없다고 하더라도,
05:42
it can record your information.
118
342130
2385
여러분의 정보를 기록할 수 있습니다.
05:44
In this respect, location has been datafied.
119
344515
4084
즉, 이제 위치는 데이터화가 되었다는 말이죠.
05:48
Now think, for example, of the issue of posture,
120
348599
4601
이제 자세를 예로 들어 보겠습니다.
05:53
the way that you are all sitting right now,
121
353200
1285
여러분들이 앉아있는 자세요.
05:54
the way that you sit,
122
354485
2030
이 분의 자세와, 저 분의 자세, 또 저쪽 분의 자세는 모두 다릅니다.
05:56
the way that you sit, the way that you sit.
123
356515
2771
05:59
It's all different, and it's a function of your leg length
124
359286
2077
이는 다리 길이와 등, 또 등의 굽어진 정도에 따른 함수와 같거든요.
06:01
and your back and the contours of your back,
125
361363
2093
06:03
and if I were to put sensors, maybe 100 sensors
126
363456
2531
만약 여러분이 지금 앉아있는 의자에
06:05
into all of your chairs right now,
127
365987
1766
수많은 센서를 단다고 한다면,
06:07
I could create an index that's fairly unique to you,
128
367753
3600
개개인에 맞는 상수들을 다 만들 수 있었을 겁니다.
06:11
sort of like a fingerprint, but it's not your finger.
129
371353
4409
손가락은 아니지만, 지문과 비슷하겠군요.
06:15
So what could we do with this?
130
375762
2969
이걸로 뭘 할 수 있을까요?
06:18
Researchers in Tokyo are using it
131
378731
2397
도쿄의 연구자들은 이를 통해
06:21
as a potential anti-theft device in cars.
132
381128
4388
자동차 도난 방지기를 만드는 것을 모색하고 있습니다.
06:25
The idea is that the carjacker sits behind the wheel,
133
385516
2924
원리는 이렇습니다. 자동차 도둑이 운전석에 앉아서
06:28
tries to stream off, but the car recognizes
134
388440
2104
차를 움직이려고 하지만 자동차가 운전석에 앉은 사람이
06:30
that a non-approved driver is behind the wheel,
135
390544
2362
인증된 운전자가 아님을 인식하고
06:32
and maybe the engine just stops, unless you
136
392906
2164
엔진을 끄거나 할 겁니다.
06:35
type in a password into the dashboard
137
395070
3177
그 사람이 비밀번호를 입력하거나 해서
06:38
to say, "Hey, I have authorization to drive." Great.
138
398247
4658
자신이 허가받았다는 것을 알리지 않는 한 말이죠.
좋아요.
06:42
What if every single car in Europe
139
402905
2553
유럽에 있는 모든 차량에 이 기술이 적용되었다면 어떨까요?
06:45
had this technology in it?
140
405458
1457
06:46
What could we do then?
141
406915
3165
그러면 무엇을 할 수 있을까요?
06:50
Maybe, if we aggregated the data,
142
410080
2240
데이터를 모아 5초 후의 자동차사고를 예측할 수 있는 조짐을 알아낼 수 있죠.
06:52
maybe we could identify telltale signs
143
412320
3814
06:56
that best predict that a car accident
144
416134
2709
06:58
is going to take place in the next five seconds.
145
418843
5893
07:04
And then what we will have datafied
146
424736
2557
또 운전자의 피로를 데이터로 만들어서 운전자가 그 상태에 접어들게 되면
07:07
is driver fatigue,
147
427293
1783
07:09
and the service would be when the car senses
148
429076
2334
07:11
that the person slumps into that position,
149
431410
3437
차량이 이를 감지하고 자동적으로 내부 알람을 작동시키는 거죠.
07:14
automatically knows, hey, set an internal alarm
150
434847
3994
07:18
that would vibrate the steering wheel, honk inside
151
438841
2025
운전대가 진동한다던지, 내부에서, "정신차려! 도로를 봐야지!"하는
07:20
to say, "Hey, wake up,
152
440866
1721
07:22
pay more attention to the road."
153
442587
1904
경보가 울리게 하는 것처럼요.
07:24
These are the sorts of things we can do
154
444491
1853
우리의 삶을 더 분석할 수 있다면 이런 일들이 가능해집니다.
07:26
when we datafy more aspects of our lives.
155
446344
2821
07:29
So what is the value of big data?
156
449165
3675
그렇다면 빅데이터는 어떤 가치를 가지고 있을까요?
07:32
Well, think about it.
157
452840
2190
자, 생각해 보세요.
07:35
You have more information.
158
455030
2412
더 많은 정보가 있으면 전엔 할 수 없었던 일들을 할 수 있어요.
07:37
You can do things that you couldn't do before.
159
457442
3341
07:40
One of the most impressive areas
160
460783
1676
이런 일이 일어나는 가장 인상적인 분야 중 하나는 바로 기계 학습의 영역입니다.
07:42
where this concept is taking place
161
462459
1729
07:44
is in the area of machine learning.
162
464188
3307
07:47
Machine learning is a branch of artificial intelligence,
163
467495
3077
기계학습은 인공지능의 한 분야인데,
07:50
which itself is a branch of computer science.
164
470572
3378
인공지능은 컴퓨터 공학의 일부입니다.
07:53
The general idea is that instead of
165
473950
1543
쉽게 말하자면
07:55
instructing a computer what do do,
166
475493
2117
컴퓨터에게 지시를 내리는 대신에
07:57
we are going to simply throw data at the problem
167
477610
2620
데이터와 문제를 주고
08:00
and tell the computer to figure it out for itself.
168
480230
3206
스스로 알아내게 만드는 겁니다.
08:03
And it will help you understand it
169
483436
1777
그 기원으로 거슬러 올라가보면
08:05
by seeing its origins.
170
485213
3552
이해에 도움이 될 거예요.
08:08
In the 1950s, a computer scientist
171
488765
2388
1950년경에,
IBM의 컴퓨터 학자인 아서 사무엘은 첵커 게임을 즐겼어요.
08:11
at IBM named Arthur Samuel liked to play checkers,
172
491153
3592
08:14
so he wrote a computer program
173
494745
1402
그래서, 컴퓨터 프로그램을 짜서
08:16
so he could play against the computer.
174
496147
2813
컴퓨터를 상대로 게임을 했죠.
08:18
He played. He won.
175
498960
2711
게임을 했더니 이기고,
08:21
He played. He won.
176
501671
2103
게임을 했더니 또 이기고,
08:23
He played. He won,
177
503774
3015
계속해서 이겼죠.
08:26
because the computer only knew
178
506789
1778
왜냐하면 컴퓨터는 단지
08:28
what a legal move was.
179
508567
2227
게임규칙만 알았지만
08:30
Arthur Samuel knew something else.
180
510794
2087
아서 사무엘은 그 이상을 알았기 때문이죠.
08:32
Arthur Samuel knew strategy.
181
512881
4629
사무엘은 전략이라는 걸 알고 있었던 겁니다.
08:37
So he wrote a small sub-program alongside it
182
517510
2396
그래서 그는 보조 프로그램을 개발했어요.
08:39
operating in the background, and all it did
183
519906
1974
그 프로그램은 안에서 작동하면서 주어진 게임의 형국에서 움직일 때마다
08:41
was score the probability
184
521880
1817
08:43
that a given board configuration would likely lead
185
523697
2563
08:46
to a winning board versus a losing board
186
526260
2910
이길 형국과 질 형국으로 나아갈 확률만을 계산했습니다.
08:49
after every move.
187
529170
2508
08:51
He plays the computer. He wins.
188
531678
3150
그래도 컴퓨터랑 게임을 하면 이기고,
08:54
He plays the computer. He wins.
189
534828
2508
컴퓨터랑 게임을 하면, 또 이기고
08:57
He plays the computer. He wins.
190
537336
3731
컴퓨터랑 게임을 하면, 계속해서 이겼죠.
09:01
And then Arthur Samuel leaves the computer
191
541067
2277
그러고 나서 아서 사무엘은 컴퓨터가
09:03
to play itself.
192
543344
2227
혼자 게임을 하도록 놔뒀습니다.
09:05
It plays itself. It collects more data.
193
545571
3509
스스로 게임을 하면서 더 많은 데이터를 모았죠.
09:09
It collects more data. It increases the accuracy of its prediction.
194
549080
4309
자료가 많아질수록 예측의 정확도는 높아졌습니다.
09:13
And then Arthur Samuel goes back to the computer
195
553389
2104
그리고 난 다음에, 사무엘이 컴퓨터와 다시 게임을 했고, 그는 졌습니다.
09:15
and he plays it, and he loses,
196
555493
2318
09:17
and he plays it, and he loses,
197
557811
2069
그는 게임을 하고, 지고
09:19
and he plays it, and he loses,
198
559880
2047
게임을하고 또 졌습니다.
09:21
and Arthur Samuel has created a machine
199
561927
2599
마침내 자신이 가르친 일에 대해서
09:24
that surpasses his ability in a task that he taught it.
200
564526
6288
본인의 능력을 초과하는 기계를 만들어 낸겁니다.
09:30
And this idea of machine learning
201
570814
2498
그리고 이 기계학습의 개념은
09:33
is going everywhere.
202
573312
3927
여러 곳으로 전파 되죠.
09:37
How do you think we have self-driving cars?
203
577239
3149
어떻게 무인자동차가 나왔다고 생각하세요?
09:40
Are we any better off as a society
204
580388
2137
소프트웨어에 길에 대한 모든 규칙을 모셔놓은 것이 더 나은
09:42
enshrining all the rules of the road into software?
205
582525
3285
사회로 가는 길일까요?
09:45
No. Memory is cheaper. No.
206
585810
2598
아닙니다. 기억장치가 더 싸기 때문도 아닙니다.
09:48
Algorithms are faster. No. Processors are better. No.
207
588408
3994
알고리즘이 더 빨라져서도 아니고. 프로세서가 더 나아서도 아닙니다.
09:52
All of those things matter, but that's not why.
208
592402
2772
이 모든 것들이 중요하긴 하지만 근본적인 이유는 아닙니다.
09:55
It's because we changed the nature of the problem.
209
595174
3141
이유는 우리가 문제의 성격을 바꾸었기 때문입니다.
09:58
We changed the nature of the problem from one
210
598315
1530
컴퓨터에게 운전하는 법을 과도하고 자세하게 설명하려했던 것을 다음처럼 바꾸었죠:
09:59
in which we tried to overtly and explicitly
211
599845
2245
10:02
explain to the computer how to drive
212
602090
2581
10:04
to one in which we say,
213
604671
1316
10:05
"Here's a lot of data around the vehicle.
214
605987
1876
"여기 차량에 대한 많은 자료가 있어. 네가 알아서 잘 해봐.
10:07
You figure it out.
215
607863
1533
10:09
You figure it out that that is a traffic light,
216
609396
1867
저게 신호등인지도 알아내고,
10:11
that that traffic light is red and not green,
217
611263
2081
저 신호등이 초록색이 아니라 빨간색인 것도 직접 알아내야해.
10:13
that that means that you need to stop
218
613344
2014
그건 앞으로 가라는 게 아니라 멈추라는 말인 것도 말이야."
10:15
and not go forward."
219
615358
3083
10:18
Machine learning is at the basis
220
618441
1518
기계학습은 인터넷에서 많은 것들의 기반입니다.
10:19
of many of the things that we do online:
221
619959
1991
10:21
search engines,
222
621950
1857
그 중에는 검색엔진이나 아마존의 개인화 알고리즘, 컴퓨터 번역,
10:23
Amazon's personalization algorithm,
223
623807
3801
10:27
computer translation,
224
627608
2212
10:29
voice recognition systems.
225
629820
4290
그리고 음성 인식 시스템들이 있죠.
10:34
Researchers recently have looked at
226
634110
2835
연구자들은 최근에 암세포 조직 검사를 살펴보고 있습니다.
10:36
the question of biopsies,
227
636945
3195
10:40
cancerous biopsies,
228
640140
2767
10:42
and they've asked the computer to identify
229
642907
2315
컴퓨터가 데이터와 생존율로 세포들이 실제로 암세포인지를 판별했죠.
10:45
by looking at the data and survival rates
230
645222
2471
10:47
to determine whether cells are actually
231
647693
4667
10:52
cancerous or not,
232
652360
2544
10:54
and sure enough, when you throw the data at it,
233
654904
1778
당연히 데이터를 주면 기계학습 알고리즘을 통해
10:56
through a machine-learning algorithm,
234
656682
2047
10:58
the machine was able to identify
235
658729
1877
유방암 조직의 검사가 암인지를 예측할 수 있는 12개의 조짐을 판별할 수 있었죠.
11:00
the 12 telltale signs that best predict
236
660606
2262
11:02
that this biopsy of the breast cancer cells
237
662868
3299
11:06
are indeed cancerous.
238
666167
3218
11:09
The problem: The medical literature
239
669385
2498
문제는 의학 저서에는 단지 9개만이 알려저 있다는 겁니다.
11:11
only knew nine of them.
240
671883
2789
11:14
Three of the traits were ones
241
674672
1800
사람은 살펴볼 필요가 없었던 3가지 특성을 기계가 포착한 겁니다.
11:16
that people didn't need to look for,
242
676472
2975
11:19
but that the machine spotted.
243
679447
5531
11:24
Now, there are dark sides to big data as well.
244
684978
5925
자, 빅데이터의 어두운 면도 있습니다.
11:30
It will improve our lives, but there are problems
245
690903
2074
빅데이터는 우리의 삶을 나아지게 만들 겁니다.
11:32
that we need to be conscious of,
246
692977
2640
하지만 문제점이 있다는 사실도 우리는 알고 있어야 합니다.
11:35
and the first one is the idea
247
695617
2623
첫 번째는
우리가 예측에 의해 처벌을 받을 수도 있다는 개념입니다.
11:38
that we may be punished for predictions,
248
698240
2686
11:40
that the police may use big data for their purposes,
249
700926
3870
경찰이 영화, "마이너리티 리포트"처럼
자신들의 목적을 위해 빅데이터를 사용할 수도 있다는 겁니다.
11:44
a little bit like "Minority Report."
250
704796
2351
11:47
Now, it's a term called predictive policing,
251
707147
2441
이를 예측 치안, 또는 논리 범죄학 이라고 합니다.
11:49
or algorithmic criminology,
252
709588
2363
11:51
and the idea is that if we take a lot of data,
253
711951
2036
과거에 범죄가 일어난 지역에 데이터를 많이 모은다면
11:53
for example where past crimes have been,
254
713987
2159
11:56
we know where to send the patrols.
255
716146
2543
어디로 순찰을 보내야할 지 알 수 있다는 겁니다.
11:58
That makes sense, but the problem, of course,
256
718689
2115
맞는 말이죠. 하지만 문제는,
12:00
is that it's not simply going to stop on location data,
257
720804
4544
단순히 위치 자료에만 머무는 것이 아니라
12:05
it's going to go down to the level of the individual.
258
725348
2959
개인 수준에까지 이를 것이라는 겁니다.
12:08
Why don't we use data about the person's
259
728307
2250
개인의 고등학교 성적표에 대한 자료를 사용하는 건 어떨까요?
12:10
high school transcript?
260
730557
2228
12:12
Maybe we should use the fact that
261
732785
1561
사람들의 고용 상태나, 신용점수, 인터넷 이용 행적, 또는
12:14
they're unemployed or not, their credit score,
262
734346
2028
12:16
their web-surfing behavior,
263
736374
1552
12:17
whether they're up late at night.
264
737926
1878
밤에 자지않고 깨어있는 지의 상태 등을 써야할 지도 모르죠.
12:19
Their Fitbit, when it's able to identify biochemistries,
265
739804
3161
Fitbit이 신체 생리를 알 수 있다면
12:22
will show that they have aggressive thoughts.
266
742965
4236
사람들이 공격적인 생각을 하고 있는지 보여줄 겁니다.
12:27
We may have algorithms that are likely to predict
267
747201
2221
우리가 취할 행동을 예상하는 알고리즘을
12:29
what we are about to do,
268
749422
1633
가질 수도 있을 것이고,
12:31
and we may be held accountable
269
751055
1244
행동을 취하기도 전에 그것에 대해 책임을 져야할 지도 모릅니다.
12:32
before we've actually acted.
270
752299
2590
12:34
Privacy was the central challenge
271
754889
1732
자료가 적을 당시에는 사생활 보호가 쟁점이었습니다.
12:36
in a small data era.
272
756621
2880
12:39
In the big data age,
273
759501
2149
빅데이터 시대에는
12:41
the challenge will be safeguarding free will,
274
761650
4523
자유의지, 도덕적 선택, 인간의 의지, 또 선택을 보호하는 게 쟁점이 됩니다.
12:46
moral choice, human volition,
275
766173
3779
12:49
human agency.
276
769952
3068
12:54
There is another problem:
277
774540
2225
또 다른 문제가 있어요.
12:56
Big data is going to steal our jobs.
278
776765
3556
빅데이터 때문에 일자리는 줄어들 겁니다.
13:00
Big data and algorithms are going to challenge
279
780321
3512
빅데이터와 알고리즘은
21세기의 전문 지식분야의 일에 종사하고 있는
13:03
white collar, professional knowledge work
280
783833
3061
13:06
in the 21st century
281
786894
1653
화이트 칼라에 도전장을 내밀 것입니다.
13:08
in the same way that factory automation
282
788547
2434
20세기에 공장 자동화와 생산 라인이
13:10
and the assembly line
283
790981
2189
블루 칼라 노동자들에게 도전한 것처럼 말이죠.
13:13
challenged blue collar labor in the 20th century.
284
793170
3026
13:16
Think about a lab technician
285
796196
2092
현미경으로 암 조직검사를 살펴보고 암인지를 판별하는 실험실의 연구자를 떠올려보세요.
13:18
who is looking through a microscope
286
798288
1409
13:19
at a cancer biopsy
287
799697
1624
13:21
and determining whether it's cancerous or not.
288
801321
2637
13:23
The person went to university.
289
803958
1972
대학도 나왔고, 부동산도 사고, 투표도 하고, 또 사회의 구성원이죠.
13:25
The person buys property.
290
805930
1430
13:27
He or she votes.
291
807360
1741
13:29
He or she is a stakeholder in society.
292
809101
3666
13:32
And that person's job,
293
812767
1394
그 직업군 뿐만 아니라, 비슷한 직종에 있는 모든 사람들은,
13:34
as well as an entire fleet
294
814161
1609
13:35
of professionals like that person,
295
815770
1969
13:37
is going to find that their jobs are radically changed
296
817739
3150
자신들의 직업이 엄청나게 변하거나, 완전히 사라지는 것을 보게 될 겁니다.
13:40
or actually completely eliminated.
297
820889
2357
13:43
Now, we like to think
298
823246
1284
우리는 단기의 손실 후, 장기간에 걸쳐 기술은 일자리를 만든다고 알고 있죠.
13:44
that technology creates jobs over a period of time
299
824530
3187
13:47
after a short, temporary period of dislocation,
300
827717
3465
13:51
and that is true for the frame of reference
301
831182
1941
그리고 우리가 겪은 산업혁명기간 동안이 이랬기에 맞다고 생각이라고 할 수 있죠.
13:53
with which we all live, the Industrial Revolution,
302
833123
2142
13:55
because that's precisely what happened.
303
835265
2328
13:57
But we forget something in that analysis:
304
837593
2333
하지만 그 분석에서, 우리가 잊은 게 있습니다.
13:59
There are some categories of jobs
305
839926
1830
어떤 직업들은 없어지고나서 다시 생기진 않았습니다.
14:01
that simply get eliminated and never come back.
306
841756
3420
14:05
The Industrial Revolution wasn't very good
307
845176
2004
여러분이 말이었다면
14:07
if you were a horse.
308
847180
4002
산업혁명은 결코 좋은 게 아니었을 겁니다.
14:11
So we're going to need to be careful
309
851182
2055
우리는 주의를 많이 기울여야 하고,
14:13
and take big data and adjust it for our needs,
310
853237
3514
빅데이터를 우리 인간의 필요에 맞게 조정해야 할 것입니다.
14:16
our very human needs.
311
856751
3185
14:19
We have to be the master of this technology,
312
859936
1954
우리는 이 기술의 노예가 아니라 주인이 되어야만 합니다.
14:21
not its servant.
313
861890
1656
14:23
We are just at the outset of the big data era,
314
863546
2958
빅데이터 시대는 이제 막 시작됐고, 솔직히 우리는 현재의 자료를 다루는 것도
14:26
and honestly, we are not very good
315
866504
3150
14:29
at handling all the data that we can now collect.
316
869654
4207
제대로 못하고 있습니다.
14:33
It's not just a problem for the National Security Agency.
317
873861
3330
국가안보국만의 문제가 아닙니다.
14:37
Businesses collect lots of data, and they misuse it too,
318
877191
3038
기업들도 많은 자료를 모아서 오용하고 있습니다.
14:40
and we need to get better at this, and this will take time.
319
880229
3667
이를 더 잘해야 하는데 시간이 좀 걸리긴 할 겁니다.
14:43
It's a little bit like the challenge that was faced
320
883896
1822
원시인이 불을 처음 봤을 때의 어려움과 비슷하다고 할 수 있겠네요.
14:45
by primitive man and fire.
321
885718
2407
14:48
This is a tool, but this is a tool that,
322
888125
1885
빅데이터는 도구이지만
14:50
unless we're careful, will burn us.
323
890010
3559
조심하지 않으면 데일 위험이 있는 도구입니다.
14:56
Big data is going to transform how we live,
324
896008
3120
빅데이터는 우리가 살고, 일하고,
14:59
how we work and how we think.
325
899128
2801
생각하는 방식을 바꿔놓을 겁니다.
15:01
It is going to help us manage our careers
326
901929
1889
빅데이터는 우리의 경력 관리에 도움을 주고, 만족스럽고 희망찬,
15:03
and lead lives of satisfaction and hope
327
903818
3634
그리고 행복하고 건강한 삶으로 우리를 이끌어 줄 겁니다.
15:07
and happiness and health,
328
907452
2992
15:10
but in the past, we've often looked at information technology
329
910444
3306
하지만 과거에 우리는 정보 기술을 종종 떠올렸습니다.
15:13
and our eyes have only seen the T,
330
913750
2208
우리의 눈은 기술과 제품에만 눈을 뒀습니다.
15:15
the technology, the hardware,
331
915958
1686
15:17
because that's what was physical.
332
917644
2262
물질적인 것이니까요.
15:19
We now need to recast our gaze at the I,
333
919906
2924
이제는 정보로 눈을 돌려야 할 때죠. 덜 가시적이지만
15:22
the information,
334
922830
1380
15:24
which is less apparent,
335
924210
1373
15:25
but in some ways a lot more important.
336
925583
4109
어떤 의미에서는 더욱 중요한 것이죠.
15:29
Humanity can finally learn from the information
337
929692
3465
세상과 그 안에서의 우리의 위치를 이해하는
15:33
that it can collect,
338
933157
2418
무한한 탐험의 일부로써
15:35
as part of our timeless quest
339
935575
2115
인류는 마침내 우리가 수집할 수 있는 정보로부터
15:37
to understand the world and our place in it,
340
937690
3159
많은 것을 배울 수 있습니다.
15:40
and that's why big data is a big deal.
341
940849
5631
그리고 이게 빅데이터가 중요한 관건인 이유입니다.
15:46
(Applause)
342
946480
3568
(박수)
이 웹사이트 정보

이 사이트는 영어 학습에 유용한 YouTube 동영상을 소개합니다. 전 세계 최고의 선생님들이 가르치는 영어 수업을 보게 될 것입니다. 각 동영상 페이지에 표시되는 영어 자막을 더블 클릭하면 그곳에서 동영상이 재생됩니다. 비디오 재생에 맞춰 자막이 스크롤됩니다. 의견이나 요청이 있는 경우 이 문의 양식을 사용하여 문의하십시오.

https://forms.gle/WvT1wiN1qDtmnspy7