How bad data keeps us from good AI | Mainak Mazumdar

48,347 views ・ 2021-03-05

TED


يرجى النقر نقرًا مزدوجًا فوق الترجمة الإنجليزية أدناه لتشغيل الفيديو.

00:00
Transcriber: Leslie Gauthier Reviewer: Joanna Pietrulewicz
0
0
7000
المترجم: Hani Eldalees المدقّق: omar idmassaoud
يمكن أن يضيف الذكاء الصناعي 16 مليار دولار للاقتصاد العالمي
خلال 10 سنوات القادمة.
لن يصنع هذا الاقتصاد من خلال مليارات الناس
00:13
AI could add 16 trillion dollars to the global economy
1
13750
4351
أو ملايين المصانع،
ولكن من خلال أجهزة الكمبيوتر الخوارزميات.
شاهدنا لغاية الآن منافع عظيمة للذكاء الصناعي
00:18
in the next 10 years.
2
18125
2268
00:20
This economy is not going to be built by billions of people
3
20417
4642
من خلال تبسيط المهام،
وايجاد الكفاءة
00:25
or millions of factories,
4
25083
2143
وتحسين جودة حياتنا.
00:27
but by computers and algorithms.
5
27250
2643
ومع ذلك، عندما يتعلق الأمر بالإنصاف وصنع القرار السياسي العادل،
00:29
We have already seen amazing benefits of AI
6
29917
4684
00:34
in simplifying tasks,
7
34625
2184
لم يرقى الذكاء الصناعي للمستوى المتوقع منه.
00:36
bringing efficiencies
8
36833
1601
00:38
and improving our lives.
9
38458
2393
أصبح الذكاء الصناعي حارس البوابة للإقتصاد،
00:40
However, when it comes to fair and equitable policy decision-making,
10
40875
5976
ليقرر من يحصل على الوظائف
ومن يمكنه الحصول على القروض.
00:46
AI has not lived up to its promise.
11
46875
3143
يعزز الذكاء الصناعي ويسرع من تحيزنا
00:50
AI is becoming a gatekeeper to the economy,
12
50042
2892
بسرعة وعلى نطاق
00:52
deciding who gets a job
13
52958
2185
تترتب عليه آثار مجتمعية.
00:55
and who gets an access to a loan.
14
55167
3434
إذّا، هل يخذلنا الذكاء الصناعي؟
هل نصمم تلك الخوارزميات لتنتج عنها قرارات متحيزة وخاطئة؟
00:58
AI is only reinforcing and accelerating our bias
15
58625
4309
01:02
at speed and scale
16
62958
1851
01:04
with societal implications.
17
64833
2393
كعالم للبيانات، أنا هنا لأقول لكم
01:07
So, is AI failing us?
18
67250
2226
المشكلة ليست الخوازميات،
بل البيانات المتحيزة
01:09
Are we designing these algorithms to deliver biased and wrong decisions?
19
69500
5417
المسؤولة عن تلك القرارات.
لكي نجعل الذكاء الصناعي متاحًا للإنسانية والمجتمعات،
01:16
As a data scientist, I'm here to tell you,
20
76292
2892
نحتاج لإعادة تشغيل عاجلة.
01:19
it's not the algorithm,
21
79208
1685
01:20
but the biased data
22
80917
1476
بدلًا من الخوارزميات
01:22
that's responsible for these decisions.
23
82417
3059
نحتاج أن نركز على البيانات.
نحن ننفق الوقت والمال للتوسع في الذكاء الصناعي
01:25
To make AI possible for humanity and society,
24
85500
4434
على حساب التصميم وتجميع بيانات عالية الجودة ومتناسقة.
01:29
we need an urgent reset.
25
89958
2351
01:32
Instead of algorithms,
26
92333
2101
يجب أن نوقف البيانات المتحيزة التي لدينا حاليًا،
01:34
we need to focus on the data.
27
94458
2310
01:36
We're spending time and money to scale AI
28
96792
2642
ونركز على 3 نقاط:
01:39
at the expense of designing and collecting high-quality and contextual data.
29
99458
6018
البنية التحتية للبيانات،
جودة البيانات
ومحو أمية البيانات.
01:45
We need to stop the data, or the biased data that we already have,
30
105500
4268
في شهر يونيو لهذا العام،
شاهدنا تحيز الذكاء الصناعي في جامعة ديوك بشكل مخجل
01:49
and focus on three things:
31
109792
2392
وهو يسمى “بلص“،
01:52
data infrastructure,
32
112208
1601
01:53
data quality
33
113833
1393
وهو يقوم بإيضاح صورة مبهمة
01:55
and data literacy.
34
115250
2101
ليتكون منها صورة واضحة يمكن تميز شخص ما منها.
01:57
In June of this year,
35
117375
1309
01:58
we saw embarrassing bias in the Duke University AI model
36
118708
4768
قامت تلك الخوارزمية بشكل خاطئ بايضاح صورة لشخص غير أبيض لشخص ذو بشرة بيضاء.
02:03
called PULSE,
37
123500
1559
02:05
which enhanced a blurry image
38
125083
3018
كانت المواد التدريبية فقرة المحتوى للأشخاص من ذوي البشرة السمراء،
02:08
into a recognizable photograph of a person.
39
128125
4018
02:12
This algorithm incorrectly enhanced a nonwhite image into a Caucasian image.
40
132167
6166
ما أدى لحدوث قرارات واتنتاجات خاطئة.
لعلها لم تكن المرة الأولى
التي ترى ذكاء صناعي يخطئ في التعرف على صورة أشخاص ذوي بشرة سمراء.
02:19
African-American images were underrepresented in the training set,
41
139042
5017
على الرغم من منهجية محسنة للذكاء الصناعي،
02:24
leading to wrong decisions and predictions.
42
144083
3417
قلة المحتوى الخاص للأعراق والإثنيات المختلفة
02:28
Probably this is not the first time
43
148333
2143
02:30
you have seen an AI misidentify a Black person's image.
44
150500
4768
مازال يتركنا مع نتائج منحازة.
هذا بحث أكاديمي،
02:35
Despite an improved AI methodology,
45
155292
3892
ولكن ليست جميع تحيزات البيانات أكاديمية.
02:39
the underrepresentation of racial and ethnic populations
46
159208
3810
التحير له عواقب حقيقية.
خذ مثلًا تعداد السكان للولايات المتحدة عام 2020.
02:43
still left us with biased results.
47
163042
2684
02:45
This research is academic,
48
165750
2018
التعداد هو الأساس
02:47
however, not all data biases are academic.
49
167792
3976
للعديد من السياسات والقرارات الإجتماعية والإقتصادية،
02:51
Biases have real consequences.
50
171792
3142
لذا يجب أن يشتمل التعداد 100% من جميع السكان
02:54
Take the 2020 US Census.
51
174958
2334
في الولايات المتحدة.
02:58
The census is the foundation
52
178042
1726
ولكن مع الوباء
02:59
for many social and economic policy decisions,
53
179792
4392
والسياسة ومسألة المواطنة،
03:04
therefore the census is required to count 100 percent of the population
54
184208
4518
عدم اجراء تعداد كامل للأقليات هو أمر محتمل الوقوع.
أتوقع حدوث عدم احصاء كامل للأقليات
03:08
in the United States.
55
188750
2018
03:10
However, with the pandemic
56
190792
2476
اللذين من الصعب تحديد موقعهم أو التواصل معهم أو حثهم للمشاركة في الإحصاء.
03:13
and the politics of the citizenship question,
57
193292
3267
03:16
undercounting of minorities is a real possibility.
58
196583
3393
القصور في الإحصاء سيتسبب في التحيز
03:20
I expect significant undercounting of minority groups
59
200000
4309
ويقوض جودة البنية التحتية لبياناتنا.
03:24
who are hard to locate, contact, persuade and interview for the census.
60
204333
5268
لننظر في القصور في إحصاء عام 2010.
تم اقصاء 16 مليون شخص في الإحصاء الأخير.
03:29
Undercounting will introduce bias
61
209625
3393
وهذا يساوي تعداد السكان كاملًا
03:33
and erode the quality of our data infrastructure.
62
213042
3184
لكل من أريزونا وأركنساس وأوكلاهوما وأيوا مجتمعين.
03:36
Let's look at undercounts in the 2010 census.
63
216250
3976
03:40
16 million people were omitted in the final counts.
64
220250
3934
كما شهدنا اقصاء مليون طفل تحت سنة 5 سنوات من الإحصاء
03:44
This is as large as the total population
65
224208
3143
خلال تعداد 2010.
03:47
of Arizona, Arkansas, Oklahoma and Iowa put together for that year.
66
227375
5809
الحقيقة، القصور في تعداد الأقليات
أمر معتاد في إحصاءات وطنية أخرى،
03:53
We have also seen about a million kids under the age of five undercounted
67
233208
4310
حيث من الصعب الوصول بعض الأقليات،
إنهم لا يثقون في الحكومة
03:57
in the 2010 Census.
68
237542
2101
أو أنهم يعيشون في منطقة تعاني من عدم الاستقرار السياسي.
03:59
Now, undercounting of minorities
69
239667
2976
04:02
is common in other national censuses,
70
242667
2976
مثلًا،
الإحصاء في أستراليا عام 2016
04:05
as minorities can be harder to reach,
71
245667
3184
لم يتم عد السكان الأصليين وسكان مضيق توريس
04:08
they're mistrustful towards the government
72
248875
2059
04:10
or they live in an area under political unrest.
73
250958
3476
بنسبة 17.5%
04:14
For example,
74
254458
1810
نتوقع القصور في الإحصاء عام 2020
04:16
the Australian Census in 2016
75
256292
2934
سيكون أعلى بكثير من تعداد 2010،
04:19
undercounted Aboriginals and Torres Strait populations
76
259250
3934
وعواقب هذا التحيز ستكون هائلة.
04:23
by about 17.5 percent.
77
263208
3060
لننظر لنتائج بيانات الإحصاء.
04:26
We estimate undercounting in 2020
78
266292
3142
التعداد هي أكثر البيانات الثرية ثقة وانفتاحًا ومتاحة للجمهور
04:29
to be much higher than 2010,
79
269458
3018
04:32
and the implications of this bias can be massive.
80
272500
2917
بخصوص التركيبة السكانية وخصائصها.
04:36
Let's look at the implications of the census data.
81
276625
3208
وفي حين أن الشركات لديها معلوماتها الخاصة
04:40
Census is the most trusted, open and publicly available rich data
82
280917
5559
عن المستهلكين،
تقارير هيئة الإحصاء دقيقة وعامة
04:46
on population composition and characteristics.
83
286500
3851
بخصوص العمر والجنس والعرق
السلالة والحالة الوظيفية والإجتماعية
04:50
While businesses have proprietary information
84
290375
2184
والتوزيع الجغرافي،
04:52
on consumers,
85
292583
1393
والتي تعتبر الأساس للبنية التحتية معلومات الشعب كاملًا.
04:54
the Census Bureau reports definitive, public counts
86
294000
4143
وحين يتم تقليل حجم تعداد الأقليات،
04:58
on age, gender, ethnicity,
87
298167
2434
05:00
race, employment, family status,
88
300625
2851
تكون نماذج الذكاء الصناعي التي تتعامل مع المواصلات العامة،
05:03
as well as geographic distribution,
89
303500
2268
الإسكان والرعاية الصحية
التأمين
05:05
which are the foundation of the population data infrastructure.
90
305792
4184
من المرجح أنها ستتغاضى عن المجتمعات التي تحتاج هذه الخدمات بصورة أكبر.
05:10
When minorities are undercounted,
91
310000
2393
الخطوة الأولى لتحسين النتائج
05:12
AI models supporting public transportation,
92
312417
2976
هي جعل قواعد البيانات أكثر شمولية
05:15
housing, health care,
93
315417
1434
05:16
insurance
94
316875
1268
للعمر والجنس والعرق
05:18
are likely to overlook the communities that require these services the most.
95
318167
5392
لكل بيانات التعداد.
بما أن الإحصاء هام للغاية،
05:23
First step to improving results
96
323583
2185
يجب بذل كل ما نستطيع لجعل نسبة التعداد 100%.
05:25
is to make that database representative
97
325792
2392
الإستشمار في جودة ودقة هذه البيانات
05:28
of age, gender, ethnicity and race
98
328208
3268
05:31
per census data.
99
331500
1292
هو أمر أساسي لجعل الذكاء الصناعي أمرًا ممكنًا،
05:33
Since census is so important,
100
333792
1642
ليس فقط للقليل وذوي الامتياز،
05:35
we have to make every effort to count 100 percent.
101
335458
4101
ولكن لكل شخص في المجتمع.
05:39
Investing in this data quality and accuracy
102
339583
4060
تستخدم معظم نماذج الذكاء الصناعي البيانات المتوفرة حاليًا
05:43
is essential to making AI possible,
103
343667
3226
أو تم تجميعها لأغراض أخرى
لأنها متاحة ورخيصة.
05:46
not for only few and privileged,
104
346917
2226
تتطلب جودة البيانات الانضباط والالتزام
05:49
but for everyone in the society.
105
349167
2517
05:51
Most AI systems use the data that's already available
106
351708
3560
التزام حقيقي.
هذا الالتزام بالايضاح
05:55
or collected for some other purposes
107
355292
2434
05:57
because it's convenient and cheap.
108
357750
2268
جمع البيانات وقياس نسبة التحيز،
06:00
Yet data quality is a discipline that requires commitment --
109
360042
4684
الاهتمام بهذا الأمر قليل للغاية
في عالم السرعة، الحجم والراحة،
06:04
real commitment.
110
364750
1768
يتم اهمال هذا الأمر غالبًا.
06:06
This attention to the definition,
111
366542
2809
كجزء من فريق علوم بيانات نيسلين،
06:09
data collection and measurement of the bias,
112
369375
2768
ذهبت في رحلات ميدانية لتجميع البيانات،
06:12
is not only underappreciated --
113
372167
2476
أزور متاجر تقع خارج شنغهاي وبانجلور.
06:14
in the world of speed, scale and convenience,
114
374667
3267
كان الهدف من تلك الزيارة قياس مبيعات التجزئة من تلك المتاجر.
06:17
it's often ignored.
115
377958
1810
06:19
As part of Nielsen data science team,
116
379792
2809
06:22
I went to field visits to collect data,
117
382625
2351
قدنا لأميال خارج المدينة،
ووجدنا تلك المتاجر الصغيرة
06:25
visiting retail stores outside Shanghai and Bangalore.
118
385000
3934
غير رسمية، يصعب الوصول لها.
06:28
The goal of that visit was to measure retail sales from those stores.
119
388958
5060
وربما كنت تتسائل
لماذا نحن معتمين بتلك المتاجر بالتحديد؟
كان بمقدورنا اختيار أحد المتاجر في المدينة
06:34
We drove miles outside the city,
120
394042
2184
06:36
found these small stores --
121
396250
1976
حيث يمكن للبيانات الالكترونية أن تدمج بسهولة في عملية جميع البيانات
06:38
informal, hard to reach.
122
398250
2059
06:40
And you may be wondering --
123
400333
2018
غير مكلفة ومتاحة وسهلة.
06:42
why are we interested in these specific stores?
124
402375
3518
لماذا نحن مهووسون في جودة
06:45
We could have selected a store in the city
125
405917
2142
ودقة البيانات من تلك المتاجر؟
06:48
where the electronic data could be easily integrated into a data pipeline --
126
408083
4101
الإجابة بسيطة:
لأن البيانات من تلك المتاجر النائية مهم.
06:52
cheap, convenient and easy.
127
412208
2851
06:55
Why are we so obsessed with the quality
128
415083
3060
بحسب منظمة العمل الدولية،
06:58
and accuracy of the data from these stores?
129
418167
2976
40% من الصينيين
07:01
The answer is simple:
130
421167
1559
و65% من الهنود يعيشون في مناطق نائية.
07:02
because the data from these rural stores matter.
131
422750
3250
تخيل التحيز في القرارات
07:07
According to the International Labour Organization,
132
427708
3726
عندما يتم تهميش 65% من الاتسهلاك في الهند من النماذج،
07:11
40 percent Chinese
133
431458
1768
07:13
and 65 percent of Indians live in rural areas.
134
433250
4643
ما يعني أن القرارات ستفضل المدن على المناطق الريفية.
07:17
Imagine the bias in decision
135
437917
1892
وبدون هذا السياق الريفي الحضري
07:19
when 65 percent of consumption in India is excluded in models,
136
439833
5226
وبيانات أسلوب العيش نمط الحياة والاقتصاد والقيم،
07:25
meaning the decision will favor the urban over the rural.
137
445083
3834
ماركات البيع بالتجزئة ستقوم باستثمارات خاطئة على الأسعار والإعلان والتسويق.
07:29
Without this rural-urban context
138
449583
2268
07:31
and signals on livelihood, lifestyle, economy and values,
139
451875
5226
تحيزنا المدني سيقودنا لقرارات وسياسات خاطئة للمناطق النائية
فيما يتعلق بالصحة واستثمارات اخرى.
07:37
retail brands will make wrong investments on pricing, advertising and marketing.
140
457125
5792
القرارات الخاطئة ليست مشكلة بخوارزميات الذكاء الصناعي.
07:43
Or the urban bias will lead to wrong rural policy decisions
141
463750
4893
بل هي مشكلة في البيانات
التي لم تشمل مناطق كانت مستهدفه في المقام الأول.
07:48
with regards to health and other investments.
142
468667
3517
07:52
Wrong decisions are not the problem with the AI algorithm.
143
472208
3625
وجود البيانات في سياق معين مهم،
وليست الخوارزميات.
07:56
It's a problem of the data
144
476792
2142
لننظر لمثال آخر.
07:58
that excludes areas intended to be measured in the first place.
145
478958
4792
زرت حدائق توقف المقطورات المنزلية النائية في ولاية اوريجون
08:04
The data in the context is a priority,
146
484917
2392
وشقق في ولاية نيويورك
لدعوة سكانها للمشاركة في اجتماعات نيلسون.
08:07
not the algorithms.
147
487333
1935
08:09
Let's look at another example.
148
489292
2267
تمثل تلك الاجتماعات بشكل احصائي عينة من تلك المنازل
08:11
I visited these remote, trailer park homes in Oregon state
149
491583
4560
اليتي دعوناها للمشاركة في تلك الاحصائيات
08:16
and New York City apartments
150
496167
1642
خلال فترة زمنية معينة.
08:17
to invite these homes to participate in Nielsen panels.
151
497833
3976
مهمتنا لضمان مشاركة الجميع في تلك الاحصائيات
08:21
Panels are statistically representative samples of homes
152
501833
3601
قادنا لتجميع بيانات من منازل ذوي اصول لاتينية وافريقية
08:25
that we invite to participate in the measurement
153
505458
2601
الذين يستخدمون هوائي استقبال لمشاهدة التلفاز في منازلهم.
08:28
over a period of time.
154
508083
2018
08:30
Our mission to include everybody in the measurement
155
510125
3309
طبقًا لبيانات نيلسون،
تشكل هذه المنازل ١٥٪؜ من مجموع المنازل الامريكية،
08:33
led us to collect data from these Hispanic and African homes
156
513458
5101
والذي يبلغ 45 مليون شخص.
08:38
who use over-the-air TV reception to an antenna.
157
518583
3834
التزامنا وتركيزنا على الجودة جعلنا نبذل كل جهد ممكن
08:43
Per Nielsen data,
158
523292
1601
08:44
these homes constitute 15 percent of US households,
159
524917
4851
لجمع البيانات
من تلك 15٪؜ اللتي من الصعب الوصل لها
08:49
which is about 45 million people.
160
529792
2726
لماذا هذا مهم؟
08:52
Commitment and focus on quality means we made every effort
161
532542
4684
هذه المجموعة التي لها وزن
هي هامة للغاية للاسواق والعلامات التجارية
08:57
to collect information
162
537250
1559
08:58
from these 15 percent, hard-to-reach groups.
163
538833
4601
كما هو ذات الامر للشركات الاعلامية.
وبون تلك البيانات،
فإن الأسواق والعلامات التجارية ومنتجاتها
09:03
Why does it matter?
164
543458
1459
09:05
This is a sizeable group
165
545875
1309
لن تكون قادرة للوصول لهؤلاء الناس،
09:07
that's very, very important to the marketers, brands,
166
547208
3310
وبث اعلانات تستهدف تلك الاقليات ذات الأهمية الشديدة.
09:10
as well as the media companies.
167
550542
2601
وبدن العوائد الإعلانية،
09:13
Without the data,
168
553167
1351
09:14
the marketers and brands and their models
169
554542
2892
فان شركات البث مثل تيليمندو وينيفيجن،
09:17
would not be able to reach these folks,
170
557458
2393
لن تكون قادر على تقديم محتوى مجاني،
09:19
as well as show ads to these very, very important minority populations.
171
559875
4684
بما فيها شركات الاخبار،
وهو اهم اساسي للغاية لديموقراطيتنا.
09:24
And without the ad revenue,
172
564583
1976
09:26
the broadcasters such as Telemundo or Univision,
173
566583
4060
هذه البيانات اساسية للاعمال والمجتمع.
09:30
would not be able to deliver free content,
174
570667
3142
هذه الفرصة التي تاتي مره في العمل لتقليل الانحياز الانساني في الذكاء الصناعي
09:33
including news media,
175
573833
2101
09:35
which is so foundational to our democracy.
176
575958
3560
تبدا في البيانات.
بدلامن التسابق لصنع خوارزميات جديدة،
09:39
This data is essential for businesses and society.
177
579542
3541
مهمتي هي صنع بنية تحتية افضل للبيانات
09:44
Our once-in-a-lifetime opportunity to reduce human bias in AI
178
584000
4601
التي تجعل من الممكن الحصول على ذكاء صناعي اثني.
09:48
starts with the data.
179
588625
2309
اتمنى ان تنضموا الي في مهمتي.
09:50
Instead of racing to build new algorithms,
180
590958
3476
شكرا لكم.
09:54
my mission is to build a better data infrastructure
181
594458
3851
09:58
that makes ethical AI possible.
182
598333
3060
10:01
I hope you will join me in my mission as well.
183
601417
3559
10:05
Thank you.
184
605000
1250
حول هذا الموقع

سيقدم لك هذا الموقع مقاطع فيديو YouTube المفيدة لتعلم اللغة الإنجليزية. سترى دروس اللغة الإنجليزية التي يتم تدريسها من قبل مدرسين من الدرجة الأولى من جميع أنحاء العالم. انقر نقرًا مزدوجًا فوق الترجمة الإنجليزية المعروضة على كل صفحة فيديو لتشغيل الفيديو من هناك. يتم تمرير الترجمات بالتزامن مع تشغيل الفيديو. إذا كان لديك أي تعليقات أو طلبات ، يرجى الاتصال بنا باستخدام نموذج الاتصال هذا.

https://forms.gle/WvT1wiN1qDtmnspy7