How bad data keeps us from good AI | Mainak Mazumdar

48,448 views ・ 2021-03-05

TED


아래 영문자막을 더블클릭하시면 영상이 재생됩니다.

00:00
Transcriber: Leslie Gauthier Reviewer: Joanna Pietrulewicz
0
0
7000
번역: Jihyun Lee 검토: JY Kang
AI로 세계 경제 규모가 16조 달러나 늘어날 수 있습니다.
10년 후에 말이죠.
이제 경제를 끌고 가는 것은
00:13
AI could add 16 trillion dollars to the global economy
1
13750
4351
인간이나 공장이 아닌 컴퓨터와 알고리즘이 될 것입니다.
00:18
in the next 10 years.
2
18125
2268
00:20
This economy is not going to be built by billions of people
3
20417
4642
우리는 이미 AI로부터 엄청난 혜택을 누리고 있습니다.
00:25
or millions of factories,
4
25083
2143
업무를 단순화하고
00:27
but by computers and algorithms.
5
27250
2643
효율성을 올리며
00:29
We have already seen amazing benefits of AI
6
29917
4684
우리의 삶을 개선시켰죠.
하지만 공정하고 공평한 정책 의사결정에 대해서는
00:34
in simplifying tasks,
7
34625
2184
00:36
bringing efficiencies
8
36833
1601
00:38
and improving our lives.
9
38458
2393
기대에 부응하지 못했는데요.
00:40
However, when it comes to fair and equitable policy decision-making,
10
40875
5976
AI는 경제의 문지기가 되어
취업에 성공할 사람과
00:46
AI has not lived up to its promise.
11
46875
3143
대출을 받을 수 있는 사람을 결정하고 있습니다.
00:50
AI is becoming a gatekeeper to the economy,
12
50042
2892
AI는 사회적 영향을 받아 우리가 가진 편견을 강화하고
00:52
deciding who gets a job
13
52958
2185
그 속도와 규모를 가속화할 뿐입니다.
00:55
and who gets an access to a loan.
14
55167
3434
00:58
AI is only reinforcing and accelerating our bias
15
58625
4309
AI가 우리에게 도움을 주지 못하는 걸까요?
편향되고 잘못된 결정을 내리려고 알고리즘을 제작하는 걸까요?
01:02
at speed and scale
16
62958
1851
01:04
with societal implications.
17
64833
2393
01:07
So, is AI failing us?
18
67250
2226
데이터 과학자로서 말씀드리겠습니다.
01:09
Are we designing these algorithms to deliver biased and wrong decisions?
19
69500
5417
문제는 알고리즘이 아니라
편향된 데이터입니다.
데이터에 따라서 의사 결정이 달라지는 것이죠.
01:16
As a data scientist, I'm here to tell you,
20
76292
2892
인류와 사회를 위한 AI를 만들려면
01:19
it's not the algorithm,
21
79208
1685
01:20
but the biased data
22
80917
1476
긴급 재정비를 거쳐야 합니다.
01:22
that's responsible for these decisions.
23
82417
3059
알고리즘이 아니라 데이터에 집중해야 합니다.
01:25
To make AI possible for humanity and society,
24
85500
4434
현재 우리는 AI 기술에 많은 시간과 돈을 들입니다.
01:29
we need an urgent reset.
25
89958
2351
많은 비용을 들여 양질의 관련 자료를 설계, 수집하죠.
01:32
Instead of algorithms,
26
92333
2101
01:34
we need to focus on the data.
27
94458
2310
01:36
We're spending time and money to scale AI
28
96792
2642
우리는 이런 데이터들과
이미 보유하고 있는 편향된 데이터 사용을 멈추고
01:39
at the expense of designing and collecting high-quality and contextual data.
29
99458
6018
세 가지에 집중해야 합니다.
데이터 관련 기반시설,
01:45
We need to stop the data, or the biased data that we already have,
30
105500
4268
데이터의 품질,
데이터 문해력.
지난 6월, 당황스러운 일이 있었습니다.
01:49
and focus on three things:
31
109792
2392
01:52
data infrastructure,
32
112208
1601
듀크 대학의 AI 모델인 PULSE가
01:53
data quality
33
113833
1393
01:55
and data literacy.
34
115250
2101
흐릿한 사진을 개선해서
01:57
In June of this year,
35
117375
1309
01:58
we saw embarrassing bias in the Duke University AI model
36
118708
4768
인식 가능한 인물 사진으로 바꾸었는데
02:03
called PULSE,
37
123500
1559
잘못된 알고리즘이 유색인종을 백인처럼 만드는 결과를 만들었습니다.
02:05
which enhanced a blurry image
38
125083
3018
02:08
into a recognizable photograph of a person.
39
128125
4018
학습 단계에서 흑인 사진을 적게 제공했기 때문에
02:12
This algorithm incorrectly enhanced a nonwhite image into a Caucasian image.
40
132167
6166
잘못된 결정과 예측으로 이어진 것이죠.
02:19
African-American images were underrepresented in the training set,
41
139042
5017
아마 이번이 처음은 아닐 거예요.
AI가 흑인의 사진을 잘못 인식한 걸 보신 적이 있을 겁니다.
02:24
leading to wrong decisions and predictions.
42
144083
3417
AI 방법론이 개선되었음에도 불구하고
02:28
Probably this is not the first time
43
148333
2143
02:30
you have seen an AI misidentify a Black person's image.
44
150500
4768
다양한 인종, 민족성의 대표성이 부족하여
여전히 편향된 결과를 안겨주었습니다.
02:35
Despite an improved AI methodology,
45
155292
3892
이 연구는 학문적이지만,
02:39
the underrepresentation of racial and ethnic populations
46
159208
3810
모든 데이터 성향이 학문적인 것은 아닙니다.
02:43
still left us with biased results.
47
163042
2684
편견이 진짜 결과를 보여주는 겁니다.
02:45
This research is academic,
48
165750
2018
2020년 미국 인구 조사를 보시죠.
02:47
however, not all data biases are academic.
49
167792
3976
인구 조사는
02:51
Biases have real consequences.
50
171792
3142
많은 사회, 경제 정책 결정을 위한 주춧돌 역할을 합니다.
02:54
Take the 2020 US Census.
51
174958
2334
그렇기에 미국 내 총 인구 수를 100% 계산해야 합니다.
02:58
The census is the foundation
52
178042
1726
02:59
for many social and economic policy decisions,
53
179792
4392
그러나, 팬데믹과
03:04
therefore the census is required to count 100 percent of the population
54
184208
4518
시민권에 대한 정치적인 문제로 인해
03:08
in the United States.
55
188750
2018
소수 집단을 실제 인구 수보다 적게 세는 일이 일어납니다.
03:10
However, with the pandemic
56
190792
2476
소수 집단 인구 수 차이가 매우 클 거라고 생각해요.
03:13
and the politics of the citizenship question,
57
193292
3267
조사를 위해 거주지를 찾고, 연락하고, 설득하고, 인터뷰하기가 힘드니까요.
03:16
undercounting of minorities is a real possibility.
58
196583
3393
03:20
I expect significant undercounting of minority groups
59
200000
4309
계산 오류는 편견을 갖게 하고
03:24
who are hard to locate, contact, persuade and interview for the census.
60
204333
5268
데이터 기반의 질을 떨어뜨립니다.
2010년 인구 조사에서 과소 집계된 결과를 봅시다.
03:29
Undercounting will introduce bias
61
209625
3393
1천 6백만 명이 최종 집계에서 누락되었습니다.
03:33
and erode the quality of our data infrastructure.
62
213042
3184
그 숫자가 어느 정도 규모냐 하면
03:36
Let's look at undercounts in the 2010 census.
63
216250
3976
애리조나, 아칸소, 오클라호마,
03:40
16 million people were omitted in the final counts.
64
220250
3934
그리고 아이오와 주의 전체 인구를 합친 것과 같죠.
03:44
This is as large as the total population
65
224208
3143
그리고 2010년 인구 조사에서는 5세 이하 아동이 약 100만 명 정도나
03:47
of Arizona, Arkansas, Oklahoma and Iowa put together for that year.
66
227375
5809
적게 계산되었습니다.
현재, 소수 집단에 대한 계산 오류는
03:53
We have also seen about a million kids under the age of five undercounted
67
233208
4310
다른 국가의 인구 조사에서도 흔하게 일어납니다.
03:57
in the 2010 Census.
68
237542
2101
소수 집단은 접근성이 떨어지니까요.
03:59
Now, undercounting of minorities
69
239667
2976
그들은 정부를 불신하거나
04:02
is common in other national censuses,
70
242667
2976
정치적으로 불안한 지역에 거주하는데요.
04:05
as minorities can be harder to reach,
71
245667
3184
예를 들어,
2016년 호주 인구 조사에서는
04:08
they're mistrustful towards the government
72
248875
2059
04:10
or they live in an area under political unrest.
73
250958
3476
호주 원주민과 토레스 해협 내 인구를 더 적게 계산했습니다.
04:14
For example,
74
254458
1810
약 17.5% 정도 차이가 났죠.
04:16
the Australian Census in 2016
75
256292
2934
2020년 인구조사 오차는
04:19
undercounted Aboriginals and Torres Strait populations
76
259250
3934
2010년보다 훨씬 클 것입니다.
04:23
by about 17.5 percent.
77
263208
3060
이런 편차가 가진 영향력은 정말 어마어마하죠.
04:26
We estimate undercounting in 2020
78
266292
3142
인구 조사 데이터의 영향력을 봅시다.
04:29
to be much higher than 2010,
79
269458
3018
04:32
and the implications of this bias can be massive.
80
272500
2917
인구 조사는 가장 신뢰도 높은 양질의 공공 데이터로서
04:36
Let's look at the implications of the census data.
81
276625
3208
인구 구성과 특징에 대한 정보를 제공합니다.
04:40
Census is the most trusted, open and publicly available rich data
82
280917
5559
기업은 소비자에 대해 적정 정보를 보유하는 반면에
인구 조사 기관은 정확한 인구 수를 보고하기 위해
04:46
on population composition and characteristics.
83
286500
3851
나이와 성별, 민족성, 인종, 취업 상태, 가족 구성까지 반영합니다.
04:50
While businesses have proprietary information
84
290375
2184
04:52
on consumers,
85
292583
1393
04:54
the Census Bureau reports definitive, public counts
86
294000
4143
지리적 분포뿐만 아니고 말이죠,
그것들이 인구 데이터 기반의 기초 자료가 됩니다.
04:58
on age, gender, ethnicity,
87
298167
2434
05:00
race, employment, family status,
88
300625
2851
만약 소수 집단을 더 적게 계산하면
05:03
as well as geographic distribution,
89
303500
2268
대중교통, 주택, 보건, 보험을 지원하는 AI 모델이
05:05
which are the foundation of the population data infrastructure.
90
305792
4184
그런 서비스를 가장 필요로 하는 지역 주민들을 간과하기 쉽습니다.
05:10
When minorities are undercounted,
91
310000
2393
05:12
AI models supporting public transportation,
92
312417
2976
05:15
housing, health care,
93
315417
1434
더 나은 결과를 얻기 위한 첫 단계는
05:16
insurance
94
316875
1268
인구 통계 자료마다 나이와 성별, 민족성, 인종을 대표하는
05:18
are likely to overlook the communities that require these services the most.
95
318167
5392
데이터베이스를 만드는 겁니다.
05:23
First step to improving results
96
323583
2185
05:25
is to make that database representative
97
325792
2392
인구 조사가 중요한 만큼
100% 정확히 세기 위해 최선의 노력을 기울여야 합니다.
05:28
of age, gender, ethnicity and race
98
328208
3268
05:31
per census data.
99
331500
1292
데이터의 품질과 정확성에 투자하는 것은
05:33
Since census is so important,
100
333792
1642
05:35
we have to make every effort to count 100 percent.
101
335458
4101
AI를 구현하는 데 필수적입니다.
일부 특권층을 위해서가 아니라
05:39
Investing in this data quality and accuracy
102
339583
4060
사회의 모두를 위해서요.
05:43
is essential to making AI possible,
103
343667
3226
대부분의 AI 시스템이 사용하는 데이터는
기존에 가지고 있었거나 다른 목적으로 수집된 것들입니다.
05:46
not for only few and privileged,
104
346917
2226
05:49
but for everyone in the society.
105
349167
2517
간편하고 저렴하니까요.
05:51
Most AI systems use the data that's already available
106
351708
3560
하지만 데이터의 품질에는 책임이 뒤따릅니다.
05:55
or collected for some other purposes
107
355292
2434
진짜 책임이요.
05:57
because it's convenient and cheap.
108
357750
2268
데이터 품질의 정의와 데이터 수집, 편향성 측정에 주목하는 것은
06:00
Yet data quality is a discipline that requires commitment --
109
360042
4684
좋은 평가를 받지 못할 뿐만 아니라
06:04
real commitment.
110
364750
1768
06:06
This attention to the definition,
111
366542
2809
속도와 규모, 편리성을 추구하는 요즘 세상에는
06:09
data collection and measurement of the bias,
112
369375
2768
아예 무시되기도 합니다..
저는 닐슨 데이터 과학 팀의 일원으로서
06:12
is not only underappreciated --
113
372167
2476
06:14
in the world of speed, scale and convenience,
114
374667
3267
데이터를 수집하기 위해 현장을 방문했습니다.
상하이와 방갈로어 외곽에 위치한 상점이었는데요.
06:17
it's often ignored.
115
377958
1810
06:19
As part of Nielsen data science team,
116
379792
2809
방문의 목적은 상점의 판매액을 측정하는 것이었습니다.
06:22
I went to field visits to collect data,
117
382625
2351
06:25
visiting retail stores outside Shanghai and Bangalore.
118
385000
3934
도시 밖으로 수 km를 달려
작은 가게들을 방문했습니다.
06:28
The goal of that visit was to measure retail sales from those stores.
119
388958
5060
허름하고 접근성이 떨어지는 가게들이죠.
이제 여러분은 궁금하실 겁니다.
왜 이런 작은 가게에 관심을 가졌을까요?
06:34
We drove miles outside the city,
120
394042
2184
06:36
found these small stores --
121
396250
1976
도시에 있는 상점을 선택할 수도 있었는데 말이죠.
06:38
informal, hard to reach.
122
398250
2059
도시는 전자 데이터가 잔송망을 통해 쉽게 통합되어
06:40
And you may be wondering --
123
400333
2018
06:42
why are we interested in these specific stores?
124
402375
3518
비용이 저렴하고 편리하며 쉽게 확보할 수 있는데,
06:45
We could have selected a store in the city
125
405917
2142
왜 시골 가게의 데이터의 질과 정확성에 그렇게 집착했던 걸까요?
06:48
where the electronic data could be easily integrated into a data pipeline --
126
408083
4101
06:52
cheap, convenient and easy.
127
412208
2851
정답은 간단합니다.
이런 시골 가게의 데이터가 중요하기 때문이죠.
06:55
Why are we so obsessed with the quality
128
415083
3060
06:58
and accuracy of the data from these stores?
129
418167
2976
국제 노동 기구에 따르면,
07:01
The answer is simple:
130
421167
1559
07:02
because the data from these rural stores matter.
131
422750
3250
중국인 40%와 인도인 65%가 농촌 지역에 거주합니다.
07:07
According to the International Labour Organization,
132
427708
3726
그에 따른 편향된 결정을 상상해보세요.
07:11
40 percent Chinese
133
431458
1768
인도 내 소비 주체의 65%가 분석 모델에서 배제되어
07:13
and 65 percent of Indians live in rural areas.
134
433250
4643
도시만 혜택을 보게 될 겁니다.
07:17
Imagine the bias in decision
135
437917
1892
07:19
when 65 percent of consumption in India is excluded in models,
136
439833
5226
시골과 도시 상황을 모르고
생계 수단, 생활 방식, 경제, 가치에 대한 신호를 알 수 없다면,
07:25
meaning the decision will favor the urban over the rural.
137
445083
3834
소매 기업은 가격 결정과 광고, 마케팅에 잘못된 투자를 하게 될 것입니다.
07:29
Without this rural-urban context
138
449583
2268
07:31
and signals on livelihood, lifestyle, economy and values,
139
451875
5226
혹은 도시 편향적인 데이터로 인해
07:37
retail brands will make wrong investments on pricing, advertising and marketing.
140
457125
5792
농촌 지역의 보건과 재정 투입에 관한 잘못된 정책 결정을 내릴 수도 있죠.
07:43
Or the urban bias will lead to wrong rural policy decisions
141
463750
4893
잘못된 의사결정은 AI 알고리즘만의 문제가 아닙니다.
07:48
with regards to health and other investments.
142
468667
3517
데이터의 문제에요.
애초에 측정하려던 지역이 배제된 편향된 데이터가 문제죠.
07:52
Wrong decisions are not the problem with the AI algorithm.
143
472208
3625
07:56
It's a problem of the data
144
476792
2142
일관된 데이터가 우선입니다.
07:58
that excludes areas intended to be measured in the first place.
145
478958
4792
알고리즘이 아니라요.
다른 예시를 보겠습니다.
저는 오레곤 주에서 외딴 이동주택 지역과
08:04
The data in the context is a priority,
146
484917
2392
08:07
not the algorithms.
147
487333
1935
뉴욕 시 아파트를 방문했습니다.
08:09
Let's look at another example.
148
489292
2267
방문 목적은 해당 가정들을 닐슨 자문단으로 모시기 위해서였는데요.
08:11
I visited these remote, trailer park homes in Oregon state
149
491583
4560
자문단은 통계 분석에서 대표 표본이 되는 가구로서
08:16
and New York City apartments
150
496167
1642
선정 후 일정 기간 동안 통계 조사에 참여하게 됩니다.
08:17
to invite these homes to participate in Nielsen panels.
151
497833
3976
08:21
Panels are statistically representative samples of homes
152
501833
3601
우리는 모든 대상을 조사에 포함시켜야 했고
남미 출신 가정과 흑인 가정의 데이터도 수집했습니다.
08:25
that we invite to participate in the measurement
153
505458
2601
08:28
over a period of time.
154
508083
2018
08:30
Our mission to include everybody in the measurement
155
510125
3309
그들 가정은 지상파 TV 수신에 안테나를 사용하고 있었죠.
08:33
led us to collect data from these Hispanic and African homes
156
513458
5101
닐슨 데이터에 따르면
이런 가정이 미국 전체의 15%를 차지합니다.
08:38
who use over-the-air TV reception to an antenna.
157
518583
3834
약 4천 5백만 명에 달하는데요.
08:43
Per Nielsen data,
158
523292
1601
08:44
these homes constitute 15 percent of US households,
159
524917
4851
우수한 데이터를 약속하고 이에 집중하려면
15%에 달하는 소외 그룹의 정보를 수집하기 위해 노력해야 합니다.
08:49
which is about 45 million people.
160
529792
2726
08:52
Commitment and focus on quality means we made every effort
161
532542
4684
그게 왜 중요할까요?
08:57
to collect information
162
537250
1559
이 집단은 규모가 상당해서
08:58
from these 15 percent, hard-to-reach groups.
163
538833
4601
판촉과 상품 측면에서도 아주 아주 중요합니다.
미디어 회사뿐만 아니라요.
09:03
Why does it matter?
164
543458
1459
그 데이터가 없다면
09:05
This is a sizeable group
165
545875
1309
판촉과 상품 그리고 영업 모델에 있어서
09:07
that's very, very important to the marketers, brands,
166
547208
3310
그들에게 접근성도 떨어집니다.
09:10
as well as the media companies.
167
550542
2601
중요한 소수 집단 인구 대상의 광고 노출은 매우 중요하기 때문이죠.
09:13
Without the data,
168
553167
1351
09:14
the marketers and brands and their models
169
554542
2892
광고 수익이 없다면
09:17
would not be able to reach these folks,
170
557458
2393
텔레문도와 유니비전과 같은 방송사는
09:19
as well as show ads to these very, very important minority populations.
171
559875
4684
무료 콘텐츠를 제공할 수 없을 것입니다.
09:24
And without the ad revenue,
172
564583
1976
민주주의에 있어 가장 기본이 되는 뉴스 미디어를 포함해서요.
09:26
the broadcasters such as Telemundo or Univision,
173
566583
4060
09:30
would not be able to deliver free content,
174
570667
3142
이 데이터는 기업체와 사회에 반드시 필요합니다.
09:33
including news media,
175
573833
2101
09:35
which is so foundational to our democracy.
176
575958
3560
AI가 가진 편견을 없애기 위한 절호의 기회를 잡으려면
09:39
This data is essential for businesses and society.
177
579542
3541
데이터부터 시작해야 합니다.
새 알고리즘을 만드는 데에 경쟁하기보다
09:44
Our once-in-a-lifetime opportunity to reduce human bias in AI
178
584000
4601
개선된 데이터 기반을 구축하는 것이 저의 목표입니다.
09:48
starts with the data.
179
588625
2309
그래야 윤리적인 AI를 만들 수 있으니까요.
09:50
Instead of racing to build new algorithms,
180
590958
3476
여러분도 동참해주시길 바랍니다.
09:54
my mission is to build a better data infrastructure
181
594458
3851
감사합니다.
09:58
that makes ethical AI possible.
182
598333
3060
10:01
I hope you will join me in my mission as well.
183
601417
3559
10:05
Thank you.
184
605000
1250
이 웹사이트 정보

이 사이트는 영어 학습에 유용한 YouTube 동영상을 소개합니다. 전 세계 최고의 선생님들이 가르치는 영어 수업을 보게 될 것입니다. 각 동영상 페이지에 표시되는 영어 자막을 더블 클릭하면 그곳에서 동영상이 재생됩니다. 비디오 재생에 맞춰 자막이 스크롤됩니다. 의견이나 요청이 있는 경우 이 문의 양식을 사용하여 문의하십시오.

https://forms.gle/WvT1wiN1qDtmnspy7