How bad data keeps us from good AI | Mainak Mazumdar

48,448 views ・ 2021-03-05

TED


Vui lòng nhấp đúp vào phụ đề tiếng Anh bên dưới để phát video.

00:00
Transcriber: Leslie Gauthier Reviewer: Joanna Pietrulewicz
0
0
7000
Translator: Thịnh Phạm Reviewer: Thu Ha Tran
AI có thể sẽ đóng góp 16 tỉ đô la cho nền kinh tế toàn cầu
trong 10 năm tới.
Nền kinh tế này sẽ không được xây dựng bởi hàng tỉ người,
00:13
AI could add 16 trillion dollars to the global economy
1
13750
4351
hay hàng triệu nhà máy,
00:18
in the next 10 years.
2
18125
2268
mà bởi máy tính và thuật toán.
00:20
This economy is not going to be built by billions of people
3
20417
4642
Chúng ta đã thấy những lợi ích tuyệt vời của AI
00:25
or millions of factories,
4
25083
2143
trong việc đơn giản hóa các nhiệm vụ,
00:27
but by computers and algorithms.
5
27250
2643
mang lại hiệu quả cao,
00:29
We have already seen amazing benefits of AI
6
29917
4684
và cải thiện đời sống của chúng ta.
Tuy nhiên, khi nói đến công bằng và chính sách ra quyết định công bằng,
00:34
in simplifying tasks,
7
34625
2184
00:36
bringing efficiencies
8
36833
1601
00:38
and improving our lives.
9
38458
2393
AI đã không thực hiện đúng lời hứa của nó.
00:40
However, when it comes to fair and equitable policy decision-making,
10
40875
5976
AI trở thành người gác đền của nền kinh tế
quyết định ai sẽ nhận được công việc
00:46
AI has not lived up to its promise.
11
46875
3143
và ai sẽ được vay.
00:50
AI is becoming a gatekeeper to the economy,
12
50042
2892
AI chỉ củng cố và tăng sự thiên kiến của chúng
00:52
deciding who gets a job
13
52958
2185
ở tốc độ và quy mô
00:55
and who gets an access to a loan.
14
55167
3434
với các công tác xã hội.
00:58
AI is only reinforcing and accelerating our bias
15
58625
4309
Vậy có phải AI đang làm chúng ta thất vọng?
Chúng ta có đang thiết kế những thuật toán để đưa ra
01:02
at speed and scale
16
62958
1851
01:04
with societal implications.
17
64833
2393
những quyết định thiên vị và sai lầm?
01:07
So, is AI failing us?
18
67250
2226
Là một nhà khoa học dữ liệu, tôi ở đây để nói với bạn,
01:09
Are we designing these algorithms to deliver biased and wrong decisions?
19
69500
5417
nó không phải thuật toán,
nhưng dữ liệu có tính thiên kiến
chịu trách nhiệm cho những quyết định.
01:16
As a data scientist, I'm here to tell you,
20
76292
2892
Để làm AI khả thi với con người và xã hội,
01:19
it's not the algorithm,
21
79208
1685
01:20
but the biased data
22
80917
1476
chúng ta cần khẩn cấp thiết lập lại.
01:22
that's responsible for these decisions.
23
82417
3059
Thay vì những thuật toán,
01:25
To make AI possible for humanity and society,
24
85500
4434
chúng ta cần tập trung vào dữ liệu.
Chúng ta đang dành thời gian và tiền bạc để mở rộng quy mô AI
01:29
we need an urgent reset.
25
89958
2351
về chi phí thiết kế, thu thập nguồn dữ liệu chất lượng cao.
01:32
Instead of algorithms,
26
92333
2101
01:34
we need to focus on the data.
27
94458
2310
01:36
We're spending time and money to scale AI
28
96792
2642
Chúng ta cần ngừng dữ liệu, hay dữ liệu thiên kiến mà chúng ta có,
01:39
at the expense of designing and collecting high-quality and contextual data.
29
99458
6018
và tập trung vào ba thứ:
cơ sở hạ tầng dữ liệu,
01:45
We need to stop the data, or the biased data that we already have,
30
105500
4268
chất lượng dữ liệu,
và hiểu biết dữ liệu.
Trong tháng sáu năm nay,
01:49
and focus on three things:
31
109792
2392
chúng ta đã thấy sự thiên kiến đáng xấu hổ trong mô hình AI của đại học Duke
01:52
data infrastructure,
32
112208
1601
01:53
data quality
33
113833
1393
01:55
and data literacy.
34
115250
2101
tên PULSE,
nó đã biến một bức ảnh mờ
01:57
In June of this year,
35
117375
1309
01:58
we saw embarrassing bias in the Duke University AI model
36
118708
4768
thành bức ảnh của một người và ta có thể dễ dàng nhận diện.
02:03
called PULSE,
37
123500
1559
Thuật toán này đã được xây dựng không đúng
02:05
which enhanced a blurry image
38
125083
3018
từ hình ảnh của một người da màu thành hình ảnh của một người da trắng.
02:08
into a recognizable photograph of a person.
39
128125
4018
Hình ảnh người Mỹ gốc Phi không được mô tả đúng mức trong dữ liệu đào tạo,
02:12
This algorithm incorrectly enhanced a nonwhite image into a Caucasian image.
40
132167
6166
dẫn đến quyết định và dự đoán sai lầm.
02:19
African-American images were underrepresented in the training set,
41
139042
5017
Có lẽ đó không phải là lần đầu tiên
bạn thấy AI nhận định sai hình ảnh của một người da đen.
02:24
leading to wrong decisions and predictions.
42
144083
3417
Mặc dù có một số phương pháp để cải tiến AI
02:28
Probably this is not the first time
43
148333
2143
02:30
you have seen an AI misidentify a Black person's image.
44
150500
4768
nhưng việc mô tả chưa đúng về chủng tộc
vẫn sẽ để lại cho ta một kết quả mang tính thiên kiến.
02:35
Despite an improved AI methodology,
45
155292
3892
Nghiên cứu này mang tính học thuật,
02:39
the underrepresentation of racial and ethnic populations
46
159208
3810
tuy nhiên, không phải tất cả dữ liệu thiên kiến
đều mang tính học thuật.
02:43
still left us with biased results.
47
163042
2684
Những thiên kiến thực sự gây ra nhiều hậu quả.
02:45
This research is academic,
48
165750
2018
Ví dụ cuộc điều tra dân số Hoa Kỳ năm 2020.
02:47
however, not all data biases are academic.
49
167792
3976
Điều tra dân số là nền tảng
02:51
Biases have real consequences.
50
171792
3142
cho sự quyết định chính sách về xã hội và kinh tế.
02:54
Take the 2020 US Census.
51
174958
2334
Vì vậy điều tra dân số được yêu cầu tính 100% dân số
02:58
The census is the foundation
52
178042
1726
02:59
for many social and economic policy decisions,
53
179792
4392
ở Hoa Kỳ.
Tuy nhiên, dịch bệnh
03:04
therefore the census is required to count 100 percent of the population
54
184208
4518
và những vấn đề chính trị về quyền công dân,
03:08
in the United States.
55
188750
2018
bỏ sót các dân tộc thiểu số là một khả năng có thể xảy ra.
03:10
However, with the pandemic
56
190792
2476
Tôi cho rằng việc bỏ sót các dân tộc thiểu số là đáng kể,
03:13
and the politics of the citizenship question,
57
193292
3267
những dân tộc mà khó để xác định ví trí, liên lạc,
03:16
undercounting of minorities is a real possibility.
58
196583
3393
thuyết phục hay phỏng vấn họ cho cuộc điều tra dân số.
03:20
I expect significant undercounting of minority groups
59
200000
4309
Bỏ sót sẽ dẫn đến sai lệch
03:24
who are hard to locate, contact, persuade and interview for the census.
60
204333
5268
và làm giảm chất lượng cơ sở hạ tầng dữ liệu của chúng ta.
Hãy nhìn sự bỏ sót của cuộc điều tra dân số năm 2010.
03:29
Undercounting will introduce bias
61
209625
3393
16 triệu người đã bị bỏ sót trong lần tính cuối cùng.
03:33
and erode the quality of our data infrastructure.
62
213042
3184
Nó bằng tổng dân số
03:36
Let's look at undercounts in the 2010 census.
63
216250
3976
của 3 bang Arizona, Arkansas, Oklahoma gộp lại.
03:40
16 million people were omitted in the final counts.
64
220250
3934
03:44
This is as large as the total population
65
224208
3143
Chúng ta cũng thấy hàng triệu đứa trẻ dưới năm tuổi bị bỏ sót
03:47
of Arizona, Arkansas, Oklahoma and Iowa put together for that year.
66
227375
5809
trong cuộc điều tra dân số năm 2010.
Ngày này, việc bỏ sót các dân tộc thiểu số
03:53
We have also seen about a million kids under the age of five undercounted
67
233208
4310
là điều phổ biến trong các cuộc điều tra dân số,
03:57
in the 2010 Census.
68
237542
2101
vì dân tộc thiểu số khó tiếp cận hơn,
03:59
Now, undercounting of minorities
69
239667
2976
họ không tin tưởng vào chính phủ,
04:02
is common in other national censuses,
70
242667
2976
hay họ sống ở khu vực bất ổn chính trị.
04:05
as minorities can be harder to reach,
71
245667
3184
Ví dụ,
cuộc điều tra dân số ở Úc năm 2016,
04:08
they're mistrustful towards the government
72
248875
2059
04:10
or they live in an area under political unrest.
73
250958
3476
dân số Aboriginals và Torres bị bỏ sót
04:14
For example,
74
254458
1810
chiếm khoảng 17.5%.
04:16
the Australian Census in 2016
75
256292
2934
Chúng ta ước tính sự bỏ sót năm 2020
04:19
undercounted Aboriginals and Torres Strait populations
76
259250
3934
sẽ cao hơn rất nhiều so với năm 2010,
04:23
by about 17.5 percent.
77
263208
3060
và tác động của sự thiên tính này sẽ rất lớn.
04:26
We estimate undercounting in 2020
78
266292
3142
Hãy nhìn vào tác động của dữ liệu của cuộc điều tra dân số.
04:29
to be much higher than 2010,
79
269458
3018
04:32
and the implications of this bias can be massive.
80
272500
2917
Điều tra dân số là nguồn dữ liệu đáng tin cậy nhất
với những số liệu phong phú và công khai
04:36
Let's look at the implications of the census data.
81
276625
3208
về thành phần và các đặc điểm của dân số.
04:40
Census is the most trusted, open and publicly available rich data
82
280917
5559
Trong khi đó các doanh nghiệp có thông tin độc quyền
của khách hàng,
Cục điều tra dân số báo cáo số lượng công khai, chính xác
04:46
on population composition and characteristics.
83
286500
3851
về tuổi, giới tính, dân tộc
04:50
While businesses have proprietary information
84
290375
2184
04:52
on consumers,
85
292583
1393
chủng tộc, việc làm, tình trạng gia đình
04:54
the Census Bureau reports definitive, public counts
86
294000
4143
cũng như phân bố địa lý,
tất cả những điều trên là nền tảng cho cơ sở hạ tầng dữ liệu về dân số.
04:58
on age, gender, ethnicity,
87
298167
2434
05:00
race, employment, family status,
88
300625
2851
Khi các dân tộc thiểu số bị bỏ sót,
05:03
as well as geographic distribution,
89
303500
2268
mô hình AI hỗ trợ phương tiện công cộng,
05:05
which are the foundation of the population data infrastructure.
90
305792
4184
nhà ở, chăm sóc sức khỏe,
bảo hiểm
có khả năng bỏ sẽ qua các cộng đồng cần những dịch vụ này nhất.
05:10
When minorities are undercounted,
91
310000
2393
05:12
AI models supporting public transportation,
92
312417
2976
05:15
housing, health care,
93
315417
1434
Bước đầu tiên để cải thiện kết quả
05:16
insurance
94
316875
1268
là làm cho cơ sở dữ liệu thể hiện được
05:18
are likely to overlook the communities that require these services the most.
95
318167
5392
tuổi, giới tính, dân tộc và chủng tộc
05:23
First step to improving results
96
323583
2185
theo dữ liệu của cuộc điều tra dân số.
05:25
is to make that database representative
97
325792
2392
Do điều tra dân số rất quan trọng,
chúng ta cần phải nỗ lực để tính được 100% dân số.
05:28
of age, gender, ethnicity and race
98
328208
3268
05:31
per census data.
99
331500
1292
Đầu tư vào chất lượng và độ chính xác của dữ liệu
05:33
Since census is so important,
100
333792
1642
05:35
we have to make every effort to count 100 percent.
101
335458
4101
là quan trọng để thực hiện hóa mô hình AI,
không chỉ cho một số ít người
05:39
Investing in this data quality and accuracy
102
339583
4060
mà là cho mọi người trong xã hội.
05:43
is essential to making AI possible,
103
343667
3226
Hầu hết các hệ thống AI sử dụng dữ liệu có sẵn
05:46
not for only few and privileged,
104
346917
2226
hoặc được thu thập cho những mục đích khác
05:49
but for everyone in the society.
105
349167
2517
bởi vì nó tiện và ít tốn chi phí.
05:51
Most AI systems use the data that's already available
106
351708
3560
Tuy nhiên, chất lượng dữ liệu là nguyên tắc đòi hỏi sự cam kết--
05:55
or collected for some other purposes
107
355292
2434
một sự cam kết thực sự.
05:57
because it's convenient and cheap.
108
357750
2268
Điều này làm ta chú ý đến định nghĩa,
06:00
Yet data quality is a discipline that requires commitment --
109
360042
4684
thu thập dữ liệu và tính toán thiên kiến,
không chỉ bị đánh giá thấp
06:04
real commitment.
110
364750
1768
06:06
This attention to the definition,
111
366542
2809
trong một thế giới của tốc độ, quy mô và sự tiện lợi,
06:09
data collection and measurement of the bias,
112
369375
2768
mà nó còn thường bị bỏ qua.
Là một phần của đội khoa học dữ liệu Nielsen,
06:12
is not only underappreciated --
113
372167
2476
06:14
in the world of speed, scale and convenience,
114
374667
3267
tôi đã đi khảo sát thực tế để thu thập dữ liệu,
đến các cửa hàng bán lẻ ở ngoại ô Thượng Hải và Bangalore.
06:17
it's often ignored.
115
377958
1810
06:19
As part of Nielsen data science team,
116
379792
2809
Mục đích của chuyến đi là đo lường doanh số bán lẻ của các cửa hàng đó.
06:22
I went to field visits to collect data,
117
382625
2351
06:25
visiting retail stores outside Shanghai and Bangalore.
118
385000
3934
Chúng tôi đã lái xe hàng dặm ở ngoại ô,
tìm những cửa hàng nhỏ
06:28
The goal of that visit was to measure retail sales from those stores.
119
388958
5060
không chính thức và khó để tiếp cận.
Và có thể bạn sẽ tự hỏi
tại sao chúng tôi lại quan tâm tới những cửa hàng cụ thể như vậy?
06:34
We drove miles outside the city,
120
394042
2184
06:36
found these small stores --
121
396250
1976
Chúng tôi có thể chọn những cửa hàng ở nội đô,
06:38
informal, hard to reach.
122
398250
2059
nơi mà dữ liệu điện tử có thể dễ dàng nhập vào đường dẫn dữ liệu
06:40
And you may be wondering --
123
400333
2018
06:42
why are we interested in these specific stores?
124
402375
3518
rẻ, tiện lợi và dễ dàng.
06:45
We could have selected a store in the city
125
405917
2142
Tại sao chúng tôi bị ám ảnh bởi chất lượng
06:48
where the electronic data could be easily integrated into a data pipeline --
126
408083
4101
và độ chính xác của dữ liệu từ những cửa hàng này?
06:52
cheap, convenient and easy.
127
412208
2851
Câu trả lời đơn giản là:
bởi vì dữ liệu từ những cửa hàng nông thôn này rất quan trọng.
06:55
Why are we so obsessed with the quality
128
415083
3060
06:58
and accuracy of the data from these stores?
129
418167
2976
Theo Tổ chức Lao động Quốc tế,
07:01
The answer is simple:
130
421167
1559
07:02
because the data from these rural stores matter.
131
422750
3250
40% người Trung Quốc
và 65% người Ấn Độ sống ở khu vực nông thôn.
07:07
According to the International Labour Organization,
132
427708
3726
Hãy tưởng tượng sự thiên kiến trong quyết định
07:11
40 percent Chinese
133
431458
1768
khi 65% lượng tiêu thụ ở Ấn Độ không được tính trong mô hình,
07:13
and 65 percent of Indians live in rural areas.
134
433250
4643
điều đó có nghĩa khi đưa ra quyết định, sẽ có lợi cho thành thị hơn là nông thôn.
07:17
Imagine the bias in decision
135
437917
1892
07:19
when 65 percent of consumption in India is excluded in models,
136
439833
5226
Không có bối cảnh nông thôn - thành thị sai lầm trong việc
và các tín hiệu về sinh kế, cách sống, kinh tế và trị giá,
07:25
meaning the decision will favor the urban over the rural.
137
445083
3834
các thương hiệu bán lẻ sẽ đầu tư sai về giá cả, quảng cáo và tiếp thị.
07:29
Without this rural-urban context
138
449583
2268
07:31
and signals on livelihood, lifestyle, economy and values,
139
451875
5226
Hay sự thiên kiến về thành thị sẽ dẫn đến sai lầm trong việc
07:37
retail brands will make wrong investments on pricing, advertising and marketing.
140
457125
5792
đưa ra các chính sách cho khu vực nông thôn
liên quan đến sức khỏe hay các khoản đầu tư khác.
07:43
Or the urban bias will lead to wrong rural policy decisions
141
463750
4893
Quyết định sai lầm không phải lỗi do thuật toán AI.
07:48
with regards to health and other investments.
142
468667
3517
Nó thuộc về dữ liệu,
dữ liệu đã bỏ qua các khu vực dự định được đo lường ngay từ ban đầu.
07:52
Wrong decisions are not the problem with the AI algorithm.
143
472208
3625
07:56
It's a problem of the data
144
476792
2142
Dữ liệu trong các bối cảnh là ưu tiên hàng đầu,
07:58
that excludes areas intended to be measured in the first place.
145
478958
4792
không phải thuật toán.
Hãy nhìn một ví dụ khác.
Tôi đã đến các vùng xa xôi này, các ngôi nhà di động ở bang Oregon
08:04
The data in the context is a priority,
146
484917
2392
08:07
not the algorithms.
147
487333
1935
và các căn hộ ở thành phố New York
08:09
Let's look at another example.
148
489292
2267
để mời mọi người tham gia bảng khảo sát Nielsen.
08:11
I visited these remote, trailer park homes in Oregon state
149
491583
4560
Nó thống kê các hộ gia đình
08:16
and New York City apartments
150
496167
1642
mà chúng tôi mời tham gia đo lường
08:17
to invite these homes to participate in Nielsen panels.
151
497833
3976
trong một khoảng thời gian.
08:21
Panels are statistically representative samples of homes
152
501833
3601
Nhiệm vụ của chúng tôi bao gồm mọi người trong cuộc đo lường này
là thu thập dữ liệu từ các hộ gia đình người gốc Tây Ban Nha và gốc Phi
08:25
that we invite to participate in the measurement
153
505458
2601
08:28
over a period of time.
154
508083
2018
08:30
Our mission to include everybody in the measurement
155
510125
3309
sử dụng ăng-ten truyền hình.
08:33
led us to collect data from these Hispanic and African homes
156
513458
5101
Theo dữ liệu Nielsen,
những hộ gia đình này chiếm 15% trên tổng số hộ gia đình ở Hoa Kỳ,
08:38
who use over-the-air TV reception to an antenna.
157
518583
3834
khoảng 45 triệu người.
08:43
Per Nielsen data,
158
523292
1601
08:44
these homes constitute 15 percent of US households,
159
524917
4851
Cam kết và tập trung vào chất lượng có nghĩa là chúng tôi sẽ nỗ lực
để thu thập dữ liệu
08:49
which is about 45 million people.
160
529792
2726
từ 15% này - nhóm đối tượng khó tiếp cận.
08:52
Commitment and focus on quality means we made every effort
161
532542
4684
Tại sao nó quan trọng?
08:57
to collect information
162
537250
1559
Đây là một nhóm khá lớn,
08:58
from these 15 percent, hard-to-reach groups.
163
538833
4601
nó rất quan trọng đối với nhà tiếp thị, nhãn hàng,
cũng như các công ty giải trí.
09:03
Why does it matter?
164
543458
1459
Nếu không có dữ liệu,
09:05
This is a sizeable group
165
545875
1309
các nhãn hàng và mô hình của họ
09:07
that's very, very important to the marketers, brands,
166
547208
3310
sẽ không thể tiếp cận tới nhóm đối tượng này,
09:10
as well as the media companies.
167
550542
2601
cũng như việc chạy quảng cáo cho nhóm đối tượng thiểu số rất quan trọng này.
09:13
Without the data,
168
553167
1351
09:14
the marketers and brands and their models
169
554542
2892
Và nếu không có doanh thu quảng cáo,
09:17
would not be able to reach these folks,
170
557458
2393
các đài truyền hình như Telemundo hay Univision,
09:19
as well as show ads to these very, very important minority populations.
171
559875
4684
sẽ không thể phát sóng các nội dung miễn phí,
09:24
And without the ad revenue,
172
564583
1976
bao gồm các phương tiện truyền thông mới--
09:26
the broadcasters such as Telemundo or Univision,
173
566583
4060
nền tảng của nền dân chủ chúng ta.
09:30
would not be able to deliver free content,
174
570667
3142
Dữ liệu này cũng cần thiết đối với doanh nghiệp và xã hội.
09:33
including news media,
175
573833
2101
09:35
which is so foundational to our democracy.
176
575958
3560
Cách tốt nhất để giảm thiểu sự thiên kiến của AI
09:39
This data is essential for businesses and society.
177
579542
3541
hãy bắt đầu với dữ liệu.
Thay vì chạy đua để xây dựng những thuật toán mới,
09:44
Our once-in-a-lifetime opportunity to reduce human bias in AI
178
584000
4601
nhiệm vụ của tôi là xây dựng một cơ sở hạ tầng dữ liệu tốt hơn
09:48
starts with the data.
179
588625
2309
để AI có thể cân nhắc các yếu tố đạo đức.
09:50
Instead of racing to build new algorithms,
180
590958
3476
Tôi hi vọng bạn sẽ cùng tham gia với tôi trong nhiệm vụ này.
09:54
my mission is to build a better data infrastructure
181
594458
3851
Xin cảm ơn.
09:58
that makes ethical AI possible.
182
598333
3060
10:01
I hope you will join me in my mission as well.
183
601417
3559
10:05
Thank you.
184
605000
1250
Về trang web này

Trang web này sẽ giới thiệu cho bạn những video YouTube hữu ích cho việc học tiếng Anh. Bạn sẽ thấy các bài học tiếng Anh được giảng dạy bởi các giáo viên hàng đầu từ khắp nơi trên thế giới. Nhấp đúp vào phụ đề tiếng Anh hiển thị trên mỗi trang video để phát video từ đó. Phụ đề cuộn đồng bộ với phát lại video. Nếu bạn có bất kỳ nhận xét hoặc yêu cầu nào, vui lòng liên hệ với chúng tôi bằng biểu mẫu liên hệ này.

https://forms.gle/WvT1wiN1qDtmnspy7