How bad data keeps us from good AI | Mainak Mazumdar

48,448 views ・ 2021-03-05

TED


Veuillez double-cliquer sur les sous-titres anglais ci-dessous pour lire la vidéo.

00:00
Transcriber: Leslie Gauthier Reviewer: Joanna Pietrulewicz
0
0
7000
Traducteur: Eva Marxer Relecteur: Elisabeth Buffard
L’IA pourrait enrichir l’économie mondiale de 16 trillions de dollars
dans les 10 prochaines années.
Cette économie ne sera pas construite pas des milliards de gens
00:13
AI could add 16 trillion dollars to the global economy
1
13750
4351
ou des millions d’industries,
00:18
in the next 10 years.
2
18125
2268
mais par des ordinateurs et des algorithmes.
00:20
This economy is not going to be built by billions of people
3
20417
4642
Nous avons déjà vu les grands bénéfices de l’IA
00:25
or millions of factories,
4
25083
2143
dans la simplification des tâches,
00:27
but by computers and algorithms.
5
27250
2643
l’apport d’efficacité
00:29
We have already seen amazing benefits of AI
6
29917
4684
et l’amélioration de nos vies.
Toutefois, quand on en vient à la prise de décision équitable et juste,
00:34
in simplifying tasks,
7
34625
2184
00:36
bringing efficiencies
8
36833
1601
00:38
and improving our lives.
9
38458
2393
l’IA ne tient pas ses promesses.
00:40
However, when it comes to fair and equitable policy decision-making,
10
40875
5976
L’IA devient une porte d’accès à l’économie,
et décide qui est embauché
00:46
AI has not lived up to its promise.
11
46875
3143
et qui a accès à un salaire.
00:50
AI is becoming a gatekeeper to the economy,
12
50042
2892
L’IA ne fait que renforcer et accélérer nos préjugés
00:52
deciding who gets a job
13
52958
2185
à grande vitesse et grande échelle
00:55
and who gets an access to a loan.
14
55167
3434
avec des implications sociétales.
00:58
AI is only reinforcing and accelerating our bias
15
58625
4309
Alors, l’IA nous déçoit-elle ?
Créons-nous des algorithmes pour prendre des décisions biaisées et mauvaises ?
01:02
at speed and scale
16
62958
1851
01:04
with societal implications.
17
64833
2393
01:07
So, is AI failing us?
18
67250
2226
En tant qu’expert des données, je suis là pour vous dire
01:09
Are we designing these algorithms to deliver biased and wrong decisions?
19
69500
5417
que ce n’est pas l’algorithme
mais la donnée biaisée
qui est responsable de ces décisions.
01:16
As a data scientist, I'm here to tell you,
20
76292
2892
Pour rendre l’IA possible pour l’humanité et la société,
01:19
it's not the algorithm,
21
79208
1685
01:20
but the biased data
22
80917
1476
il nous faut une réinitialisation de toute urgente.
01:22
that's responsible for these decisions.
23
82417
3059
À la place des algorithmes,
01:25
To make AI possible for humanity and society,
24
85500
4434
nous devons nous concentrer sur les données.
Nous dépensons du temps et de l’argent à faire évoluer l’IA
01:29
we need an urgent reset.
25
89958
2351
au détriment de la collection de données contextuelles de haute qualité.
01:32
Instead of algorithms,
26
92333
2101
01:34
we need to focus on the data.
27
94458
2310
01:36
We're spending time and money to scale AI
28
96792
2642
Nous devons arrêter les données, ou les données biaisées que nous avons déjà
01:39
at the expense of designing and collecting high-quality and contextual data.
29
99458
6018
et nous concentrer sur trois choses :
l’infrastructure des données,
01:45
We need to stop the data, or the biased data that we already have,
30
105500
4268
la qualité des données
et la maîtrise des données.
En juin de cette année,
01:49
and focus on three things:
31
109792
2392
nous avons connu des biais gênants dans le modèle d’IA de la Duke University
01:52
data infrastructure,
32
112208
1601
01:53
data quality
33
113833
1393
01:55
and data literacy.
34
115250
2101
appelé PULSE,
qui a transformé une image floue
01:57
In June of this year,
35
117375
1309
01:58
we saw embarrassing bias in the Duke University AI model
36
118708
4768
en photographie reconnaissable d’une personne.
02:03
called PULSE,
37
123500
1559
L’algorithme a transformé à tort un non-blanc en Caucasien.
02:05
which enhanced a blurry image
38
125083
3018
02:08
into a recognizable photograph of a person.
39
128125
4018
Les images d’afro-américains sont sous- représentées dans le kit d’entraînement,
02:12
This algorithm incorrectly enhanced a nonwhite image into a Caucasian image.
40
132167
6166
entraînant de mauvaises décisions et prédictions.
02:19
African-American images were underrepresented in the training set,
41
139042
5017
Ce n’est sûrement pas la première fois
que vous voyez une IA mal identifier l’image d’une personne noire.
02:24
leading to wrong decisions and predictions.
42
144083
3417
Malgré une amélioration de la méthodologie des IA,
02:28
Probably this is not the first time
43
148333
2143
02:30
you have seen an AI misidentify a Black person's image.
44
150500
4768
la sous-représentation des populations raciales et ethniques
entraîne encore des résultats biaisés.
02:35
Despite an improved AI methodology,
45
155292
3892
La recherche est académique,
02:39
the underrepresentation of racial and ethnic populations
46
159208
3810
mais tous les biais ne sont pas académiques.
02:43
still left us with biased results.
47
163042
2684
Les biais ont de réelles conséquences.
02:45
This research is academic,
48
165750
2018
Prenez le recensement américain de 2020.
02:47
however, not all data biases are academic.
49
167792
3976
Le recensement est la base
02:51
Biases have real consequences.
50
171792
3142
de nombreuses décisions sociales, économiques et politiques,
02:54
Take the 2020 US Census.
51
174958
2334
donc il est nécessaire pour compter 100% de la population
02:58
The census is the foundation
52
178042
1726
02:59
for many social and economic policy decisions,
53
179792
4392
aux États-Unis.
Cependant, avec la pandémie
03:04
therefore the census is required to count 100 percent of the population
54
184208
4518
et les politiques autour de la question de citoyenneté,
03:08
in the United States.
55
188750
2018
le sous-comptage des minorités est une réelle possibilité.
03:10
However, with the pandemic
56
190792
2476
Je m’attends à un sous-comptage significatif des minorités
03:13
and the politics of the citizenship question,
57
193292
3267
qui sont difficiles à localiser, contacter, persuader et interroger.
03:16
undercounting of minorities is a real possibility.
58
196583
3393
03:20
I expect significant undercounting of minority groups
59
200000
4309
Le sous-comptage introduira des biais
03:24
who are hard to locate, contact, persuade and interview for the census.
60
204333
5268
et érodera la qualité de nos infrastructures de données.
Regardons le sous-comptage dans le recensement de 2010.
03:29
Undercounting will introduce bias
61
209625
3393
16 millions de gens ont été omis dans les comptes finaux.
03:33
and erode the quality of our data infrastructure.
62
213042
3184
C’est autant que la population totale
03:36
Let's look at undercounts in the 2010 census.
63
216250
3976
de l’Arizona, de l’Arkansas, de l’Oklahoma et de l’Iowa réunis.
03:40
16 million people were omitted in the final counts.
64
220250
3934
03:44
This is as large as the total population
65
224208
3143
Nous avions aussi un million d’enfants de moins de cinq ans sous-comptés
03:47
of Arizona, Arkansas, Oklahoma and Iowa put together for that year.
66
227375
5809
dans le recensement de 2010.
Sous-compter des minorités
03:53
We have also seen about a million kids under the age of five undercounted
67
233208
4310
est commun dans les recensements nationaux,
03:57
in the 2010 Census.
68
237542
2101
puisque les minorités sont plus difficiles à atteindre,
03:59
Now, undercounting of minorities
69
239667
2976
elles sont méfiantes envers le gouvernement
04:02
is common in other national censuses,
70
242667
2976
ou vivent dans des endroits avec une agitation politique.
04:05
as minorities can be harder to reach,
71
245667
3184
Par exemple,
le recensement australien de 2016 a sous-compté
04:08
they're mistrustful towards the government
72
248875
2059
04:10
or they live in an area under political unrest.
73
250958
3476
les populations les aborigènes et celles du détroit de Torres
04:14
For example,
74
254458
1810
de près de 17.5%.
04:16
the Australian Census in 2016
75
256292
2934
Nous estimons que le sous-comptage en 2020
04:19
undercounted Aboriginals and Torres Strait populations
76
259250
3934
a été plus fort qu’en 2010,
04:23
by about 17.5 percent.
77
263208
3060
et les implications de ce biais peut être massif.
04:26
We estimate undercounting in 2020
78
266292
3142
Regardons les implications des données de recensement.
04:29
to be much higher than 2010,
79
269458
3018
04:32
and the implications of this bias can be massive.
80
272500
2917
Le recensement est la donnée la plus fiable, ouverte, disponible et complète
04:36
Let's look at the implications of the census data.
81
276625
3208
sur la composition et les caractéristiques de la population.
04:40
Census is the most trusted, open and publicly available rich data
82
280917
5559
Tandis que les entreprises ont des informations exclusives
sur les clients,
le Bureau de Recensement fait des comptes publics et définitifs
04:46
on population composition and characteristics.
83
286500
3851
sur l’âge, le genre, l’ethnicité,
04:50
While businesses have proprietary information
84
290375
2184
04:52
on consumers,
85
292583
1393
la race, l’emploi, le statut familial,
04:54
the Census Bureau reports definitive, public counts
86
294000
4143
ou la distribution géographique,
qui sont les bases de l’infrastructure de données de la population.
04:58
on age, gender, ethnicity,
87
298167
2434
05:00
race, employment, family status,
88
300625
2851
Quand les minorités sont sous-comptées,
05:03
as well as geographic distribution,
89
303500
2268
les modèles d’IA qui prennent en charge les transports publics,
05:05
which are the foundation of the population data infrastructure.
90
305792
4184
le logement, les soins de santé,
l’assurance,
sont susceptibles d’oublier les communautés qui en ont le plus besoin.
05:10
When minorities are undercounted,
91
310000
2393
05:12
AI models supporting public transportation,
92
312417
2976
05:15
housing, health care,
93
315417
1434
La première étape pour améliorer les résultats
05:16
insurance
94
316875
1268
est de rendre la base de données représentative
05:18
are likely to overlook the communities that require these services the most.
95
318167
5392
des âges, genres, ethnicités et races
05:23
First step to improving results
96
323583
2185
par données de recensement.
05:25
is to make that database representative
97
325792
2392
Puisque que le recensement est important,
nous devons faire des efforts pour compter à 100%.
05:28
of age, gender, ethnicity and race
98
328208
3268
05:31
per census data.
99
331500
1292
Investir dans cette qualité et cette précision de donnée
05:33
Since census is so important,
100
333792
1642
05:35
we have to make every effort to count 100 percent.
101
335458
4101
est essentielle pour rendre l’IA possible,
pas seulement pour quelques privilégiés
05:39
Investing in this data quality and accuracy
102
339583
4060
mais pour toute la société.
05:43
is essential to making AI possible,
103
343667
3226
La plupart des systèmes d’IA utilisent les données déjà disponibles
05:46
not for only few and privileged,
104
346917
2226
ou récoltées pour d’autres objectifs
05:49
but for everyone in the society.
105
349167
2517
car c’est pratique et peu cher.
05:51
Most AI systems use the data that's already available
106
351708
3560
Mais la qualité des données demande beaucoup d’engagement --
05:55
or collected for some other purposes
107
355292
2434
d’engagement réel.
05:57
because it's convenient and cheap.
108
357750
2268
L’attention à la définition la collecte de données
06:00
Yet data quality is a discipline that requires commitment --
109
360042
4684
n’est pas seulement sous-estimée --
06:04
real commitment.
110
364750
1768
06:06
This attention to the definition,
111
366542
2809
dans un monde de vitesse, d’échelle et de praticité,
06:09
data collection and measurement of the bias,
112
369375
2768
elle est souvent ignorée.
Je suis membre de l’équipe d’étude des données Nielsen.
06:12
is not only underappreciated --
113
372167
2476
J’ai fait des visites de terrain de collecte de données,
06:14
in the world of speed, scale and convenience,
114
374667
3267
et visité des points de vente en-dehors de Shanghai et Bangalore.
06:17
it's often ignored.
115
377958
1810
06:19
As part of Nielsen data science team,
116
379792
2809
Le but de cette visite était de mesurer les ventes au détail dans ces magasins.
06:22
I went to field visits to collect data,
117
382625
2351
06:25
visiting retail stores outside Shanghai and Bangalore.
118
385000
3934
Nous avons conduit loin en-dehors de la ville,
et trouvé ces petits magasins --
06:28
The goal of that visit was to measure retail sales from those stores.
119
388958
5060
informels, difficile à atteindre..
Et vous devez vous demander --
pourquoi s’intéresse-t-il à ces magasins spécifiques ?
06:34
We drove miles outside the city,
120
394042
2184
06:36
found these small stores --
121
396250
1976
Nous aurions pu choisir des magasins urbains
06:38
informal, hard to reach.
122
398250
2059
où les données électroniques pouvaient être facilement intégrées dans une base --
06:40
And you may be wondering --
123
400333
2018
06:42
why are we interested in these specific stores?
124
402375
3518
pas cher, pratique et facile.
06:45
We could have selected a store in the city
125
405917
2142
Pourquoi sommes-nous si obsédés par la qualité
06:48
where the electronic data could be easily integrated into a data pipeline --
126
408083
4101
et la précision des données de ces magasins ?
06:52
cheap, convenient and easy.
127
412208
2851
La réponse est simple :
car les données de ces magasins ruraux ont de l’importance.
06:55
Why are we so obsessed with the quality
128
415083
3060
06:58
and accuracy of the data from these stores?
129
418167
2976
Selon l’Organisation Mondiale du Travail,
07:01
The answer is simple:
130
421167
1559
07:02
because the data from these rural stores matter.
131
422750
3250
40% des Chinois
et 65% des Indiens vivent dans des zones rurales.
07:07
According to the International Labour Organization,
132
427708
3726
Imaginez les biais décisionnels
07:11
40 percent Chinese
133
431458
1768
quand 65% de la consommation de l’Inde est exclue des modèles,
07:13
and 65 percent of Indians live in rural areas.
134
433250
4643
ce qui signifie que la décision favorisera l’urbain par rapport au rural.
07:17
Imagine the bias in decision
135
437917
1892
07:19
when 65 percent of consumption in India is excluded in models,
136
439833
5226
Sans ce contexte rural-urbain
et des signaux sur les moyens de subsistance,
07:25
meaning the decision will favor the urban over the rural.
137
445083
3834
le mode de vie, l’économie et les valeurs,
les marques de détail feraient de mauvais investissements
07:29
Without this rural-urban context
138
449583
2268
07:31
and signals on livelihood, lifestyle, economy and values,
139
451875
5226
sur les prix, la publicité et le marketing.
Le biais urbain mènera à de mauvaises décisions politiques sur le rural
07:37
retail brands will make wrong investments on pricing, advertising and marketing.
140
457125
5792
dans la santé ou pour d’autres investissements.
07:43
Or the urban bias will lead to wrong rural policy decisions
141
463750
4893
Les mauvaises décisions ne sont pas le problème avec les algorithmes d’AI.
07:48
with regards to health and other investments.
142
468667
3517
C’est le problème des données
qui excluent des zones qu’on voulait mesure au départ.
07:52
Wrong decisions are not the problem with the AI algorithm.
143
472208
3625
07:56
It's a problem of the data
144
476792
2142
La donnée dans son contexte est une priorité,
07:58
that excludes areas intended to be measured in the first place.
145
478958
4792
pas l’algorithme.
Prenons un autre exemple.
J’ai visité ces maisons isolées de camping dans l’état de l’Oregon
08:04
The data in the context is a priority,
146
484917
2392
08:07
not the algorithms.
147
487333
1935
et des appartements à New York
08:09
Let's look at another example.
148
489292
2267
pour inviter les foyers à participer aux panels Nielsen.
08:11
I visited these remote, trailer park homes in Oregon state
149
491583
4560
Les panels sont des échantillons statistiquement représentatifs des foyers
08:16
and New York City apartments
150
496167
1642
que nous invitons à participer à la mesure
08:17
to invite these homes to participate in Nielsen panels.
151
497833
3976
sur une période temporelle donnée.
08:21
Panels are statistically representative samples of homes
152
501833
3601
Notre mission d’inclure tout le monde dans la mesure
nous a entraîné à récolter des données sur des foyers hispaniques et africains
08:25
that we invite to participate in the measurement
153
505458
2601
08:28
over a period of time.
154
508083
2018
08:30
Our mission to include everybody in the measurement
155
510125
3309
qui captent la télévision avec une antenne.
08:33
led us to collect data from these Hispanic and African homes
156
513458
5101
Selon les données Nielsen,
ces foyers constituent 15% des foyers américains,
08:38
who use over-the-air TV reception to an antenna.
157
518583
3834
ce qui représente 45 millions de personnes.
08:43
Per Nielsen data,
158
523292
1601
08:44
these homes constitute 15 percent of US households,
159
524917
4851
L’engagement et le focus sur la qualité signifie que nous faisons tous les efforts
pour récolter l’information
08:49
which is about 45 million people.
160
529792
2726
de ces 15% de groupes difficiles à atteindre.
08:52
Commitment and focus on quality means we made every effort
161
532542
4684
Pourquoi cela compte-t-il ?
08:57
to collect information
162
537250
1559
C’est un groupe mesurable
08:58
from these 15 percent, hard-to-reach groups.
163
538833
4601
qui est très, très important pour les marques, les commerciaux
et les entreprises de média.
09:03
Why does it matter?
164
543458
1459
Sans ces données,
09:05
This is a sizeable group
165
545875
1309
les commerciaux, les marques et leurs modèles
09:07
that's very, very important to the marketers, brands,
166
547208
3310
ne seraient pas capables d’atteindre ces gens,
09:10
as well as the media companies.
167
550542
2601
tout comme les publicités ne toucheraient pas ces minorités très importantes.
09:13
Without the data,
168
553167
1351
09:14
the marketers and brands and their models
169
554542
2892
Et sans le revenu publicitaire,
09:17
would not be able to reach these folks,
170
557458
2393
les diffuseurs comme Telemundo ou Univision,
09:19
as well as show ads to these very, very important minority populations.
171
559875
4684
ne seraient pas capable d’offrir du contenu gratuit,
09:24
And without the ad revenue,
172
564583
1976
comme les programmes d’information,
09:26
the broadcasters such as Telemundo or Univision,
173
566583
4060
qui sont fondamentaux pour notre démocratie.
09:30
would not be able to deliver free content,
174
570667
3142
Ces données sont essentielles pour les entreprises et la société.
09:33
including news media,
175
573833
2101
09:35
which is so foundational to our democracy.
176
575958
3560
Notre opportunité unique de réduire les biais humains dans l’IA
09:39
This data is essential for businesses and society.
177
579542
3541
commence par les données.
Au lieu de se dépêcher de créer de nouveaux algorithmes,
09:44
Our once-in-a-lifetime opportunity to reduce human bias in AI
178
584000
4601
ma mission est de créer une meilleure infrastructure de données,
09:48
starts with the data.
179
588625
2309
qui rend possible une IA éthique.
09:50
Instead of racing to build new algorithms,
180
590958
3476
J’espère que vous rejoindrez également ma mission.
09:54
my mission is to build a better data infrastructure
181
594458
3851
Merci.
09:58
that makes ethical AI possible.
182
598333
3060
10:01
I hope you will join me in my mission as well.
183
601417
3559
10:05
Thank you.
184
605000
1250
À propos de ce site Web

Ce site vous présentera des vidéos YouTube utiles pour apprendre l'anglais. Vous verrez des leçons d'anglais dispensées par des professeurs de premier ordre du monde entier. Double-cliquez sur les sous-titres anglais affichés sur chaque page de vidéo pour lire la vidéo à partir de là. Les sous-titres défilent en synchronisation avec la lecture de la vidéo. Si vous avez des commentaires ou des demandes, veuillez nous contacter en utilisant ce formulaire de contact.

https://forms.gle/WvT1wiN1qDtmnspy7