Why AI Needs a “Nutrition Label” | Kasia Chmielinski | TED

31,845 views ・ 2024-06-14

TED


Veuillez double-cliquer sur les sous-titres anglais ci-dessous pour lire la vidéo.

Traducteur: Claire Ghyselen Relecteur: eric vautier
00:04
Now, I haven't met most of you or really any of you,
0
4209
3295
Nous nous rencontrons pour la première fois,
00:07
but I feel a really good vibe in the room.
1
7504
2085
mais vous projetez des ondes positives.
00:09
(Laughter)
2
9631
1209
(Rires)
00:10
And so I think I'd like to treat you all to a meal.
3
10882
2503
J’aimerais bien vous inviter à manger un petit bout.
00:13
What do you think?
4
13426
1252
Ça vous tente ?
00:14
Yes? Great, so many new friends.
5
14678
1877
Oui ? Cool, plein de nouveaux amis.
00:17
So we're going to go to this cafe,
6
17681
1668
Nous allons dans un café où ils servent des sandwichs.
00:19
they serve sandwiches.
7
19349
1501
00:20
And the sandwiches are really delicious.
8
20850
2002
Ils sont super bons, mais sachez que parfois,
00:22
But I have to tell you that sometimes they make people really, really sick.
9
22852
4422
ils rendent les gens vraiment malades.
00:27
(Laughter)
10
27774
1335
(Rires)
00:29
And we don't know why.
11
29109
1251
On ne comprend pas.
00:30
Because the cafe won't tell us how they make the sandwich,
12
30402
2711
On ne nous dit pas comment on prépare les sandwichs,
00:33
they won't tell us about the ingredients.
13
33154
2044
ni les ingrédients.
00:35
And then the authorities have no way to fix the problem.
14
35198
3128
Et les autorités ignorent comment régler le problème.
00:38
But the offer still stands.
15
38702
1293
Mais je vous invite.
00:39
So who wants to get a sandwich?
16
39995
1543
Alors, qui veut un sandwich ?
00:41
(Laughter)
17
41538
1168
(Rires)
00:42
Some brave souls, we can talk after.
18
42747
1752
Il y a quelques courageux, rendez-vous plus tard.
00:45
But for the rest of you, I understand.
19
45000
2168
Mais je comprends tous les autres.
00:47
You don't have enough information
20
47210
1585
Il n’y a pas assez d’information
00:48
to make good choices about your safety
21
48795
1835
pour décider en préservant votre sécurité ou pour résoudre le souci.
00:50
or even fix the issue.
22
50672
1835
00:52
Now, before I further the anxiety here, I'm not actually trying to make you sick,
23
52507
3879
Avant de vous rendre vraiment anxieux, je ne vais pas vous rendre malade.
00:56
but this is an analogy to how we're currently making algorithmic systems,
24
56428
3545
C’est une analogie sur la façon dont les systèmes d’algorithmes sont développés,
00:59
also known as artificial intelligence or AI.
25
59973
3003
ce qu’on appelle l’intelligence artificielle, l’IA.
01:04
Now, for those who haven't thought about the relationship
26
64060
2753
Si vous n’aviez pas pensé aux ressemblances
01:06
between AI and sandwiches, don't worry about it,
27
66813
2586
entre l’IA et les sandwichs, ne vous inquiétez pas,
01:09
I'm here for you, I'm going to explain.
28
69441
2294
je suis là pour vous et je vais vous expliquer.
01:11
You see, AI systems, they provide benefit to society.
29
71776
3754
Les IA offrent des bénéfices à la société.
01:15
They feed us,
30
75530
1251
Elles nous nourrissent,
01:16
but they're also inconsistently making us sick.
31
76823
3670
mais elles nous rendent de temps en temps malades.
01:20
And we don't have access to the ingredients that go into the AI.
32
80535
4505
Nous n’avons pas non plus accès aux ingrédients de l’IA.
01:25
And so we can't actually address the issues.
33
85040
2460
On ne peut dès lors pas gérer les problèmes.
01:28
We also can't stop eating AI
34
88418
1793
On ne peut pas plus arrêter de manger l’IA,
01:30
like we can just stop eating a shady sandwich
35
90211
2128
qu’arrêter de manger un sandwich louche,
01:32
because it's everywhere,
36
92339
1209
car elle est partout
01:33
and we often don't even know that we're encountering a system
37
93590
2878
et on ignore souvent qu’on est face à un système
01:36
that's algorithmically based.
38
96509
1794
qui est fondé sur des algorithmes.
01:38
So today, I'm going to tell you about some of the AI trends that I see.
39
98345
3878
Je souhaite évoquer quelques tendances que je perçois dans l’IA.
01:42
I'm going to draw on my experience building these systems
40
102223
2711
Je me baserai sur mes 20 ans de programmation de ces systèmes
01:44
over the last two decades to tell you about the tools
41
104934
2545
pour évoquer les outils que j’ai développés avec d’autres
01:47
that I and others have built to look into these AI ingredients.
42
107520
3879
pour discerner les ingrédients de l’IA.
01:51
And finally, I'm going to leave you with three principles
43
111441
2711
Et je terminerai avec trois principes
01:54
that I think will give us a healthier relationship
44
114152
2336
qui selon moi, conduisent à une relation plus saine
01:56
to the companies that build artificial intelligence.
45
116488
2836
avec les entreprises qui développent des IA.
02:00
I'm going to start with the question, how did we get here?
46
120241
2878
Commençons avec la question : comment est-on arrivé là ?
02:03
AI is not new.
47
123745
2169
L’IA n’est pas nouvelle.
02:06
We have been living alongside AI for two decades.
48
126665
3378
On vit avec elle depuis 20 ans.
02:10
Every time that you apply for something online,
49
130418
2294
À chaque transaction en ligne,
02:12
you open a bank account or you go through passport control,
50
132712
3420
chaque ouverture de compte bancaire, ou d’un contrôle de passeport,
02:16
you're encountering an algorithmic system.
51
136132
2044
on croise un système algorithmique.
02:19
We've also been living with the negative repercussions of AI for 20 years,
52
139010
4088
On vit aussi avec les répercussions négatives de l’IA depuis 20 ans.
02:23
and this is how it makes us sick.
53
143139
1752
Et c’est cela qui nous rend malade.
02:25
These systems get deployed on broad populations,
54
145266
2920
Ces systèmes sont déployés sur de vastes populations,
02:28
and then certain subsets end up getting negatively disparately impacted,
55
148228
4921
et certains sous-groupes finissent par être influencés négativement
de façon hétérogène,
02:33
usually on the basis of race or gender or other characteristics.
56
153191
3504
habituellement sur base de la race, du genre ou d’autres caractéristiques.
02:37
We need to be able to understand the ingredients to these systems
57
157862
3087
Nous devons comprendre les ingrédients de ces systèmes
02:40
so that we can address the issues.
58
160990
2086
afin de régler les problèmes.
02:43
So what are the ingredients to an AI system?
59
163827
3086
Alors, quels sont ces ingrédients ?
02:46
Well, data fuels the AI.
60
166955
2294
Les données nourrissent l’IA.
02:49
The AI is going to look like the data that you gave it.
61
169290
2962
L’IA va ressembler aux données dont on l’a alimentée.
02:52
So for example,
62
172752
1293
Par exemple,
02:54
if I want to make a risk-assessment system for diabetes,
63
174087
4129
pour développer un système d’analyse de risques du diabète,
02:58
my training data set might be adults in a certain region.
64
178258
4337
mes données d’apprentissage seront des adultes de certaines régions.
03:02
And so I'll build that system,
65
182929
1460
Je vais construire mon AI qui fonctionnera bien pour cette cohorte,
03:04
it'll work really well for those adults in that region.
66
184389
2627
mais pas pour des adultes ailleurs, ou pour les enfants.
03:07
But it does not work for adults in other regions
67
187016
2294
03:09
or maybe at all for children.
68
189310
1419
03:10
So you can imagine if we deploy this for all those populations,
69
190770
3003
Donc, si on déploie ce système pour tout le monde,
cela affectera négativement beaucoup de personnes.
03:13
there are going to be a lot of people who are harmed.
70
193815
2502
C’est pourquoi il faut comprendre la qualité des données avant de les utiliser.
03:16
We need to be able to understand the quality of the data before we use it.
71
196317
4422
03:22
But I'm sorry to tell you that we currently live
72
202157
2252
Mais hélas, nous vivons dans un monde que j’ai surnommé le Far West des données
03:24
in what I call the Wild West of data.
73
204451
2502
03:26
It's really hard to assess quality of data before you use it.
74
206995
4171
où il est très difficile d’évaluer leur qualité avant de les utiliser.
03:31
There are no global standards for data quality assessment,
75
211166
2877
Il n’y a aucun standard pour évaluer la qualité des données
03:34
and there are very few data regulations around how you can use data
76
214085
3295
et très peu de réglementation sur l’usage que l’on peut en faire,
03:37
and what types of data you can use.
77
217422
2377
et sur le type de données que l’on peut utiliser.
03:40
This is kind of like in the food safety realm.
78
220967
2294
Cela ressemble un peu à la sécurité alimentaire.
03:43
If we couldn't understand where the ingredients were sourced,
79
223303
3545
Si on ignore la provenance des ingrédients,
03:46
we also had no idea whether they were safe for us to consume.
80
226890
3003
on n’a aucune idée si on peut les consommer en toute sécurité.
03:50
We also tend to stitch data together,
81
230643
2253
On a aussi tendance à agglomérer les données,
03:52
and every time we stitch this data together,
82
232937
2086
et chaque fois qu’on le fait,
03:55
which we might find on the internet, scrape, we might generate it,
83
235023
3128
avec des données trouvées sur Internet, captées ailleurs, générées
03:58
we could source it.
84
238151
1376
ou fournies par un tiers,
03:59
We lose information about the quality of the data.
85
239527
3128
on perd de l’information sur la qualité de ces données.
04:03
And the folks who are building the models
86
243156
1960
Or ceux qui développent les modèles ne sont pas ceux qui trouvent les données.
04:05
are not the ones that found the data.
87
245116
1919
04:07
So there's further information that's lost.
88
247076
2336
C’est une autre source de déperdition.
04:10
Now, I've been asking myself a lot of questions
89
250497
2210
J’ai retourné le problème dans tous les sens
04:12
about how can we understand the data quality before we use it.
90
252749
3754
de comment comprendre la qualité des données avant leur utilisation.
04:16
And this emerges from two decades of building these kinds of systems.
91
256544
4672
Ceci est issu de 20 ans de carrière à développer ces systèmes.
04:21
The way I was trained to build systems is similar to how people do it today.
92
261216
3920
Ma formation est similaire à celle de ceux qui font cela aujourd’hui.
04:25
You build for the middle of the distribution.
93
265178
2210
On développe un système selon une courbe de Gauss.
04:27
That's your normal user.
94
267430
1919
C’est l’utilisateur moyen.
04:29
So for me, a lot of my training data sets
95
269390
1961
Dans mon cas, mes données d’apprentissage
04:31
would include information about people from the Western world who speak English,
96
271392
4213
incluent des informations sur des populations de l’Occident, anglophones,
04:35
who have certain normative characteristics.
97
275605
2336
avec certaines caractéristiques normatives.
04:37
And it took me an embarrassingly long amount of time
98
277982
2461
Et je dois avouer que ça m’a pris beaucoup de temps
04:40
to realize that I was not my own user.
99
280443
2503
pour comprendre que je n’en faisais pas partie.
04:43
So I identify as non-binary, as mixed race,
100
283696
2628
Je m’identifie comme non binaire, de races mélangées,
04:46
I wear a hearing aid
101
286324
1668
j’ai une aide auditive.
04:47
and I just wasn't represented in the data sets that I was using.
102
287992
3587
Bref, je ne suis pas représentée dans les données que j’exploitais.
04:51
And so I was building systems that literally didn't work for me.
103
291621
3378
Je développais des systèmes qui ne fonctionneraient pas avec moi.
04:55
And for example, I once built a system that repeatedly told me
104
295041
3462
Par exemple, j’ai conçu un système qui m’affirmait continuellement
04:58
that I was a white Eastern-European lady.
105
298503
3670
que j’étais une femme blanche est-européenne.
05:02
This did a real number on my identity.
106
302966
2043
Ça m’a secouée dans mon identité !
05:05
(Laughter)
107
305051
1919
(Rires)
05:06
But perhaps even more worrying,
108
306970
1793
Mais plus inquiétant,
05:08
this was a system to be deployed in health care,
109
308805
2961
ce système était censé être déployé dans la santé,
05:11
where your background can determine things like risk scores for diseases.
110
311808
4296
où l’horizon génétique a une influence sur le risque d’avoir certaines maladies.
05:17
And so I started to wonder,
111
317605
1627
Alors, j’ai commencé à réfléchir
05:19
can I build tools and work with others to do this
112
319274
2794
si je pouvais développer des outils, avec d’autres,
05:22
so that I can look inside of a dataset before I use it?
113
322068
2836
afin d’observer la composition des données avant de les utiliser.
05:25
In 2018, I was part of a fellowship at Harvard and MIT,
114
325655
3629
En 2018, j’ai reçu à une bourse de Harvard et du MIT
05:29
and I, with some colleagues, decided to try to address this problem.
115
329284
4379
pour étudier ce problème avec d’autres collègues.
05:33
And so we launched the Data Nutrition Project,
116
333705
2836
C’est ainsi que nous avons lancé le « Data Nutrition Project »,
05:36
which is a research group and also a nonprofit
117
336541
2919
un groupe de recherche, qui est aussi une ONG,
05:39
that builds nutrition labels for datasets.
118
339502
2711
qui développe un nutriscore pour les données.
05:43
So similar to food nutrition labels,
119
343381
2628
L’idée est similaire aux labels de nutrition.
05:46
the idea here is that you can look inside of a data set before you use it.
120
346050
3504
On peut étudier la composition des données avant de les utiliser.
05:49
You can understand the ingredients,
121
349554
1710
On peut comprendre les ingrédients,
05:51
see whether it's healthy for the things that you want to do.
122
351264
2878
vérifier s’ils sont sains pour l’utilisation qu’on leur destine.
05:54
Now this is a cartoonified version of the label.
123
354142
2669
Voici une illustration de notre label.
05:56
The top part tells you about the completion of the label itself.
124
356811
4213
En haut, on a le taux de complétude du label.
06:01
And underneath that you have information about the data,
125
361065
2628
En dessous, on a les informations : la description, les mots clés, les tags,
06:03
the description, the keywords, the tags,
126
363693
2044
06:05
and importantly, on the right hand side,
127
365778
1919
et important, à droite,
06:07
how you should and should not use the data.
128
367697
2586
comment on doit utiliser, ou éviter d’utiliser, les données.
06:10
If you could scroll on this cartoon,
129
370700
1793
Si on déroule la vignette,
06:12
you would see information about risks and mitigation strategies
130
372493
3003
on trouve des informations sur les risques et les stratégies d’atténuation
06:15
across a number of vectors.
131
375496
1544
selon certains vecteurs.
06:17
And we launched this with two audiences in mind.
132
377707
2836
Nous avions deux publics cibles à l’esprit.
06:20
The first audience are folks who are building AI.
133
380543
3545
Le premier, ce sont les programmeurs qui développent des IA.
06:24
So they’re choosing datasets.
134
384130
1418
Ils choisissent les données.
06:25
We want to help them make a better choice.
135
385590
2294
On souhaite les épauler dans leurs choix.
06:27
The second audience are folks who are building datasets.
136
387926
3128
Le deuxième, ce sont les personnes qui développent les données.
06:31
And it turns out
137
391095
1168
Il s’avère
06:32
that when you tell someone they have to put a label on something,
138
392305
3086
que quand on dit à quelqu’un de poser une étiquette sur un objet,
06:35
they think about the ingredients beforehand.
139
395391
2086
il pense d’abord aux ingrédients.
06:38
The analogy here might be,
140
398102
1544
L’analogie dans notre cas,
06:39
if I want to make a sandwich and say that it’s gluten-free,
141
399687
2878
pour préparer un sandwich sans gluten, par exemple,
06:42
I have to think about all the components as I make the sandwich,
142
402607
3045
on doit penser aux ingrédients qui vont entrer dans la composition,
06:45
the bread and the ingredients, the sauces.
143
405652
2210
le pain, les garnitures, les sauces.
06:47
I can't just put it on a sandwich and put it in front of you
144
407904
2836
Je ne peux pas vous servir un sandwich comme ça
06:50
and tell you it's gluten-free.
145
410740
1960
et vous affirmer qu’il est sans gluten.
06:52
We're really proud of the work that we've done.
146
412700
2253
Nous sommes fiers du chemin parcouru.
06:54
We launched this as a design and then a prototype
147
414994
2336
Nous avons lancé le design, puis un prototype,
06:57
and ultimately a tool for others to make their own labels.
148
417330
3920
et enfin un outil destiné à tous pour créer ses étiquettes.
07:01
And we've worked with experts at places like Microsoft Research,
149
421709
3045
On a travaillé avec des spécialistes, chez Microsoft Research,
07:04
the United Nations and professors globally
150
424754
3045
aux Nations-Unies, et des professeurs partout dans le monde,
07:07
to integrate the label and the methodology
151
427840
2002
pour intégrer le label et la méthodologie
07:09
into their work flows and into their curricula.
152
429884
2628
dans leurs processus de travail et leurs cours.
07:13
But we know it only goes so far.
153
433096
1877
Mais tout cela a des limites.
Et c’est dû au fait qu’il est vraiment difficile d’obtenir un label
07:15
And that's because it's actually really hard to get a label
154
435014
2920
07:17
on every single dataset.
155
437976
2293
pour toutes les données.
07:20
And this comes down to the question
156
440311
1710
On en revient à la question de savoir pourquoi poser un label sur les données.
07:22
of why would you put a label on a dataset to begin with?
157
442063
3086
07:25
Well, the first reason is not rocket science.
158
445525
2169
La première raison n’est pas de la physique nucléaire : il faut le faire.
07:27
It's that you have to.
159
447735
1835
07:29
And this is, quite frankly, why food nutrition labels exist.
160
449570
2878
C’est pour cette raison que le nutriscore existe.
07:32
It's because if they didn't put them on the boxes, it would be illegal.
161
452490
3420
Sans label sur l’emballage, c’est illégal.
07:36
However, we don't really have AI regulation.
162
456703
2377
Toutefois, il n’y a pas de réglementation pour l’IA,
07:39
We don't have much regulation around the use of data.
163
459122
2627
ni pour l’utilisation des données.
07:42
Now there is some on the horizon.
164
462208
1960
Certes, cela se dessine à l’horizon.
07:44
For example, the EU AI Act just passed this week.
165
464168
3420
Par exemple, le règlement européen sur l’IA approuvé en mai 2024.
07:48
And although there are no requirements around making the training data available,
166
468381
4630
Même s’il n’y a pas d’exigence pour dévoiler les données d’apprentissage,
07:53
they do have provisions for creating transparency labeling
167
473052
4254
il y a des dispositions pour créer des labels de transparence,
07:57
like the dataset nutrition label, data sheets, data statements.
168
477348
3879
comme un label nutritionnel, des informations et des déclarations.
08:01
There are many in the space.
169
481269
1376
Il y en a beaucoup.
08:02
We think this is a really good first step.
170
482645
2044
C’est un pas dans la bonne direction.
08:05
The second reason that you might have a label on a dataset
171
485606
2753
La deuxième raison pour avoir un label sur les données,
08:08
is because it is a best practice or a cultural norm.
172
488401
3920
c’est que c’est une bonne pratique, une norme culturelle, si vous voulez.
08:13
The example here might be how we're starting to see
173
493364
2544
Un exemple est l’apparition de plus en plus fréquente
08:15
more and more food packaging and menus at restaurants
174
495950
3337
sur les emballages alimentaires et les menus des restaurants
08:19
include information about whether there's gluten.
175
499328
2920
d’informations sur la présence de gluten.
08:22
This is not required by law,
176
502248
1794
Ce n’est pas exigé par la loi,
08:24
although if you do say it, it had better be true.
177
504042
2627
même si le fait de le mentionner exige que ce soit vrai.
08:27
And the reason that people are adding this to their menus
178
507211
2711
Si les gens ajoutent cette information sur leurs menus,
08:29
and their food packaging
179
509922
1168
et les emballages,
08:31
is because there's an increased awareness of the sensitivity
180
511090
2878
c’est parce qu’on est de plus en plus conscient de cette sensibilité
08:33
and kind of the seriousness of that kind of an allergy or condition.
181
513968
3754
et du sérieux de cette allergie, de cette condition.
08:39
So we're also seeing some movement in this area.
182
519057
2961
Les choses bougent donc.
08:42
Folks who are building datasets are starting to put nutrition labels,
183
522060
3503
Ceux qui développent les données commencent à poser des labels,
08:45
data sheets on their datasets.
184
525605
1793
des informations au sujet de leurs données.
08:47
And people who are using data are starting to request the information.
185
527398
3337
Les utilisateurs commencent eux aussi à exiger ces informations.
08:50
This is really heartening.
186
530735
1293
C’est très encourageant.
Alors, pourquoi suis-je là ?
08:52
And you might say, "Kasia, why are you up here?
187
532028
2210
Tout semble aller pour le mieux.
08:54
Everything seems to be going well, seems to be getting better."
188
534280
3003
08:57
In some ways it is.
189
537700
1210
C’est assez vrai.
08:58
But I'm also here to tell you that our relationship to data
190
538951
2795
Mais je suis là parce que notre relation aux données
09:01
is getting worse.
191
541746
1460
est loin de s’améliorer.
09:03
Now the last few years have seen a supercharged interest
192
543664
3337
Ces dernières années, l’intérêt pour la collecte de données
09:07
in gathering datasets.
193
547001
1919
s’est fortement amplifié.
09:09
Companies are scraping the web.
194
549504
1876
Les entreprises passent le web au peigne fin.
09:11
They're transcribing millions of hours of YouTube videos into text.
195
551380
4004
Elles transcrivent des millions d’heures de vidéos YouTube.
09:15
By some estimates, they'll run out of information on the internet by 2026.
196
555885
3879
Selon certaines estimations, il n’y aura plus d’information en 2026.
09:20
They're even considering buying publishing houses
197
560515
2502
Elles envisagent d’acquérir des maisons d’édition
09:23
so they can get access to printed text and books.
198
563017
2753
pour avoir accès aux textes imprimés et aux livres.
09:27
So why are they gathering this information?
199
567980
2503
Pourquoi rassembler toutes ces informations ?
09:30
Well, they need more and more information
200
570483
1918
Elles en ont besoin de plus en plus pour l’apprentissage de l’IA générative.
09:32
to train a new technique called generative AI.
201
572443
2670
09:35
I want to tell you about the size of these datasets.
202
575154
2461
Parlons un instant du volume de données.
09:38
If you look at GPT-3, which is a model that launched in 2020,
203
578533
3378
Si on prend GPT-3, le modèle lancé en 2020,
09:41
the training dataset included 300 billion words, or parts of words.
204
581953
5547
le volume de données d’apprentissage inclut 300 milliards de mots,
ou de bouts de mots.
09:47
Now for context, the English language contains less than a million words.
205
587542
3878
À titre de comparaison, la langue anglaise contient moins d’un million de mots.
09:52
Just three years later, DBRX was launched,
206
592505
3003
Trois ans plus tard, on a lancé DBRX,
09:55
which was trained on eight trillion words.
207
595508
3086
avec un volume d’apprentissage de 8 billions de mots.
09:58
So 300 billion to eight trillion in three years.
208
598636
3212
Donc, on est passé en trois ans de 300 milliards à 8 billions.
10:01
And the datasets are getting bigger.
209
601848
2252
Et ce volume continue d’augmenter.
10:04
Now with each successive model launch,
210
604600
2211
Or à chaque lancement d’un nouveau modèle,
10:06
the datasets are actually less and less transparent.
211
606853
3044
les données sont de moins en moins transparentes.
10:09
And even we have access to the information,
212
609939
2169
Et même en ayant accès aux informations,
10:12
it's so big, it's so hard to look inside without any kind of transparency tooling.
213
612108
4838
c’est si massif que c’est difficile de les scruter sans outil de transparence.
10:18
And the generative AI itself is also causing some worries.
214
618865
4212
L’IA générative aussi provoque des inquiétudes.
Vous avez sans doute entendu parler de ChatGPT.
10:23
And you've probably encountered this technique through ChatGPT.
215
623077
3712
10:26
I don't need to know what you do on the internet,
216
626831
2336
J’ignore vos activités sur Internet et c’est entre vous et Internet,
10:29
that's between you and the internet,
217
629167
1751
mais vous savez sans doute, comme moi,
10:30
but you probably know, just like I do,
218
630918
1835
combien il est facile de créer des informations avec ChatGPT
10:32
how easy it is to create information using ChatGPT
219
632795
2378
et d’autres technologies d’IA génératives,
10:35
and other generative AI technologies
220
635214
1752
10:36
and to put that out onto the web.
221
636966
1919
et de publier cela sur le web.
10:38
And so we're looking at a situation
222
638885
1710
Nous allons vers une situation où nous allons trouver des informations
10:40
in which we're going to encounter lots of information
223
640636
2503
qui auront été générées par un algorithme et nous n’en saurons rien,
10:43
that's algorithmically generated but we won't know it
224
643139
2502
nous ignorerons si c’est exact.
10:45
and we won't know whether it's true.
225
645683
1752
Cela augmente l’amplitude du risque et de la toxicité potentiels de l’IA.
10:47
And this increases the scale of the potential risks and harms from AI.
226
647476
3796
10:51
Not only that, I'm sorry,
227
651981
1460
Et ce n’est pas tout.
10:53
but the models themselves are getting controlled
228
653482
2878
Les modèles sont de plus en plus contrôlés par un petit nombre d’acteurs américains.
10:56
by a smaller and smaller number of private actors in US tech firms.
229
656360
4171
Voici les modèles lancés l’année dernière, en 2023.
11:00
So this is the models that were launched last year, in 2023.
230
660531
4046
La plupart sont en rose, la couleur représentant l’industrie.
11:04
And you can see most of them are pink, meaning they came out of industry.
231
664577
3462
Avec le temps, on voit que l’industrie en produit de plus en plus,
11:08
And if you look at this over time, more and more are coming out of industry
232
668080
3587
et tous les autres secteurs réunis de moins en moins,
11:11
and fewer and fewer are coming out of all the other sectors combined,
233
671709
3253
même les secteurs académiques et publics plus faciles à analyser.
11:14
including academia and government,
234
674962
1710
11:16
where technology is often launched in a way
235
676672
2044
11:18
that's more easy to be scrutinized.
236
678758
2169
11:20
So if we go back to our cafe analogy,
237
680927
1793
Si on retourne à notre analogie du café,
11:22
this is like you have a small number of private actors
238
682762
2878
c’est comme avoir un petit nombre d’acteurs du secteur privé
qui possèdent tous les ingrédients,
11:25
who own all the ingredients,
239
685681
1877
qui produisent les sandwichs pour le monde entier,
11:27
they make all the sandwiches globally,
240
687600
2961
et ce, sans réglementation.
11:30
and there's not a lot of regulation.
241
690561
1960
Cela devrait vous inquiéter, voire vous mettre mal à l’aise.
11:33
And so at this point you're probably scared
242
693064
2002
11:35
and maybe feeling a little uncomfortable.
243
695107
1961
C’est ironique car quand je vous ai proposé des sandwichs,
11:37
Which is ironic because a few minutes ago, I was going to get you all sandwiches
244
697109
3796
vous étiez d’accord.
11:40
and you said yes.
245
700905
1168
C’est pour ça qu’il ne fait pas accepter de nourriture d’inconnus.
11:42
This is why you should not accept food from strangers.
246
702114
2586
Mais je suis optimiste, sans quoi je ne serais pas là,
11:44
But I wouldn't be up here if I weren't also optimistic.
247
704742
2878
car nous avons le vent en poupe
11:47
And that's because I think we have momentum
248
707620
2044
en faveur de la réglementation et d’un changement culturel.
11:49
behind the regulation and the culture changes.
249
709705
2503
11:52
Especially if we align ourselves with three basic principles
250
712833
2837
Surtout si nous nous alignons sur trois principes de base
sur la façon dont le privé gère les données.
11:55
about how corporations should engage with data.
251
715670
2544
D’abord, les entreprises qui collectent des données doivent nous dire
11:58
The first principle is that companies that gather data should tell us
252
718547
3713
ce qu’elles collectent.
12:02
what they're gathering.
253
722301
1418
Ceci permet de poser des questions, par exemple, sur les droits d’auteur,
12:04
This would allow us to ask questions like, is it copyrighted material?
254
724470
3545
sur le caractère privé de l’info, ou sur la cessation de la collecte.
12:08
Is that information private?
255
728057
1919
12:09
Could you please stop?
256
729976
1543
Cela ouvre les données à la recherche scientifique aussi.
12:11
It also opens up the data to scientific inquiry.
257
731560
2962
Ensuite, les entreprises qui collectent nos données doivent nous dire
12:15
The second principle is that companies that are gathering our data should tell us
258
735731
3921
ce qu’elles vont en faire, avant de les manipuler.
12:19
what they're going to do with it before they do anything with it.
259
739694
3253
En exigeant que les entreprises nous dévoilent leurs projets,
12:23
And by requiring that companies tell us their plan,
260
743572
2878
ce qui signifie qu’elles doivent en avoir,
12:26
this means that they have to have a plan,
261
746450
2294
ce qui serait un bon point de départ.
12:28
which would be a great first step.
262
748744
1877
Cela conduirait aussi à minimiser la captation de données,
12:31
It also probably would lead to the minimization of data capture,
263
751706
3336
car les entreprises ne pourraient plus le faire
12:35
because they wouldn't be able to capture data
264
755042
2169
si elles ignorent ce qu’elles vont faire de ces données.
12:37
if they didn't know what they were already going to do with it.
265
757253
2961
Et enfin, le troisième principe,
12:40
And finally, principle three,
266
760256
1626
12:41
companies that build AI should tell us about the data
267
761882
2628
les développeurs d’IA devraient nous dire quelles données
ils utilisent pour l’apprentissage de leurs machines.
12:44
that they use to train the AI.
268
764552
1960
C’est ici que le nutriscore pour les données
12:47
And this is where dataset nutrition labels
269
767179
2294
et d’autres labels de transparence entrent en jeu.
12:49
and other transparency labeling comes into play.
270
769515
2294
12:52
You know, in the case where the data itself won't be made available,
271
772893
3212
Car dans le cas où les données ne seront pas accessibles directement,
la plupart du temps sans doute,
12:56
which is most of the time, probably,
272
776147
2294
le label joue un rôle critique pour pouvoir enquêter sur les ingrédients
12:58
the labeling is critical for us to be able to investigate the ingredients
273
778482
3546
et trouver des solutions.
13:02
and start to find solutions.
274
782028
1793
J’ai une bonne nouvelle pour conclure :
13:05
So I want to leave you with the good news,
275
785698
2044
le projet de nutriscore pour les données et d’autres projets
13:07
and that is that the data nutrition projects and other projects
276
787742
3003
sont une petite partie d’un mouvement mondial
13:10
are just a small part of a global movement
277
790786
3337
pour une prise de responsabilité vis-à-vis de l’IA.
13:14
towards AI accountability.
278
794165
1877
13:16
Dataset Nutrition Label and other projects are just a first step.
279
796792
4088
Nos projets constituent le point de départ.
La réglementation arrive bientôt,
13:21
Regulation's on the horizon,
280
801714
1752
les normes culturelles changent,
13:23
the cultural norms are shifting,
281
803507
1544
surtout quand on s’aligne avec ces trois principes
13:25
especially if we align with these three basic principles
282
805051
2961
de dévoiler les données collectées
13:28
that companies should tell us what they're gathering,
283
808012
2544
et ce qu’on projette d’en faire avant de les utiliser,
13:30
tell us what they're going to do with it before they do anything with it,
284
810598
3462
et pour les développeurs d’IA,
13:34
and that companies that are building AI
285
814101
1919
d’expliciter les données utilisées pour construire les systèmes.
13:36
should explain the data that they're using to build the system.
286
816062
3336
Ces organisations doivent nous rendre des comptes
13:40
We need to hold these organizations accountable
287
820191
2210
sur les IA qu’elles développent
13:42
for the AI that they're building
288
822443
2002
comme on le fait dans l’industrie alimentaire
13:44
by asking them, just like we do with the food industry,
289
824487
2627
en demandant comment c’est fabriqué.
13:47
what's inside and how did you make it?
290
827156
2294
Alors seulement, on pourra éviter les problèmes avant leur occurrence,
13:50
Only then can we mitigate the issues before they occur,
291
830201
3128
et non plus après.
13:53
as opposed to after they occur.
292
833371
1918
En agissant ainsi, on créera un Internet algorithmique intégré
13:55
And in doing so, create an integrated algorithmic internet
293
835664
3879
qui sera plus sain pour tout le monde.
13:59
that is healthier for everyone.
294
839585
2669
Merci.
14:02
Thank you.
295
842546
1168
(Applaudissements)
14:03
(Applause)
296
843714
2836
À propos de ce site Web

Ce site vous présentera des vidéos YouTube utiles pour apprendre l'anglais. Vous verrez des leçons d'anglais dispensées par des professeurs de premier ordre du monde entier. Double-cliquez sur les sous-titres anglais affichés sur chaque page de vidéo pour lire la vidéo à partir de là. Les sous-titres défilent en synchronisation avec la lecture de la vidéo. Si vous avez des commentaires ou des demandes, veuillez nous contacter en utilisant ce formulaire de contact.

https://forms.gle/WvT1wiN1qDtmnspy7