How computers learn to recognize objects instantly | Joseph Redmon

1,123,328 views ・ 2017-08-18

TED


Veuillez double-cliquer sur les sous-titres anglais ci-dessous pour lire la vidéo.

Traducteur: Marie-Caroline Braud Relecteur: Shadia Ramsahye
00:12
Ten years ago,
0
12645
1151
Il y a dix ans de cela,
00:13
computer vision researchers thought that getting a computer
1
13820
2776
les chercheurs en vision artificielle pensaient
00:16
to tell the difference between a cat and a dog
2
16620
2696
que faire différencier à l'ordinateur un chat d'un chien
00:19
would be almost impossible,
3
19340
1976
relevait presque de l'impossible,
00:21
even with the significant advance in the state of artificial intelligence.
4
21340
3696
et ce malgré les nets progrès réalisés en intelligence artificielle.
00:25
Now we can do it at a level greater than 99 percent accuracy.
5
25060
3560
Nous y parvenons dorénavant avec une fiabilité supérieure à 99 %.
00:29
This is called image classification --
6
29500
1856
C'est appelé la classification d'images.
00:31
give it an image, put a label to that image --
7
31380
3096
On prend une image, qu'on étiquette...
00:34
and computers know thousands of other categories as well.
8
34500
3040
L'ordinateur connaît également des milliers d'autres catégories.
00:38
I'm a graduate student at the University of Washington,
9
38500
2896
Je suis diplômé et j'étudie à l'université de Washington,
00:41
and I work on a project called Darknet,
10
41420
1896
et je travaille sur le projet Darknet,
00:43
which is a neural network framework
11
43340
1696
une structure en réseau neuronal
00:45
for training and testing computer vision models.
12
45060
2816
pour entraîner et tester les modèles numériques de vision.
00:47
So let's just see what Darknet thinks
13
47900
2976
Voyons ce que Darknet pense
00:50
of this image that we have.
14
50900
1760
de cette image.
00:54
When we run our classifier
15
54340
2336
Si nous analysons cette image
00:56
on this image,
16
56700
1216
à l'aide du classifieur
00:57
we see we don't just get a prediction of dog or cat,
17
57940
2456
nous obtenons la prédiction « chat » ou « chien »
01:00
we actually get specific breed predictions.
18
60420
2336
mais aussi la race spécifique.
01:02
That's the level of granularity we have now.
19
62780
2176
Voici le niveau de granularité actuel.
01:04
And it's correct.
20
64980
1616
Et c'est exact.
01:06
My dog is in fact a malamute.
21
66620
1840
Mon chien est un malamute.
01:08
So we've made amazing strides in image classification,
22
68860
4336
Nos avancées en classification d'images sont donc incroyables.
01:13
but what happens when we run our classifier
23
73220
2000
Mais que se passe-t-il si notre classifieur
01:15
on an image that looks like this?
24
75244
1960
analyse une image de ce genre ?
01:18
Well ...
25
78900
1200
Eh bien...
01:24
We see that the classifier comes back with a pretty similar prediction.
26
84460
3896
Il fournit une prédiction relativement similaire.
01:28
And it's correct, there is a malamute in the image,
27
88380
3096
Et c'est exact, l'image contient un malamute.
01:31
but just given this label, we don't actually know that much
28
91500
3696
Mais cette information n'indique pas grand-chose
01:35
about what's going on in the image.
29
95220
1667
sur ce qui se passe dans l'image.
01:36
We need something more powerful.
30
96911
1560
Il faudrait aller plus loin.
01:39
I work on a problem called object detection,
31
99060
2616
Je travaille sur la détection d'objets.
01:41
where we look at an image and try to find all of the objects,
32
101700
2936
Il s'agit de trouver tous les objets présents sur une image,
01:44
put bounding boxes around them
33
104660
1456
de les circonscrire
01:46
and say what those objects are.
34
106140
1520
et de les identifier.
01:48
So here's what happens when we run a detector on this image.
35
108220
3280
Voyons ce qui se passe quand le détecteur analyse cette image.
01:53
Now, with this kind of result,
36
113060
2256
Ce genre de résultats démultiplient
01:55
we can do a lot more with our computer vision algorithms.
37
115340
2696
les capacités de nos algorithmes de vision artificielle.
01:58
We see that it knows that there's a cat and a dog.
38
118060
2976
On voit qu'il a reconnu la présence du chat et du chien.
02:01
It knows their relative locations,
39
121060
2256
Il sait où chacun se situe
02:03
their size.
40
123340
1216
et leur taille.
02:04
It may even know some extra information.
41
124580
1936
Il peut même savoir d'autres choses.
02:06
There's a book sitting in the background.
42
126540
1960
Un livre se trouve au fond.
02:09
And if you want to build a system on top of computer vision,
43
129100
3256
Si l'on veut concevoir un système basé sur la vision artificielle,
02:12
say a self-driving vehicle or a robotic system,
44
132380
3456
tel un véhicule autoguidé ou un système robotisé,
02:15
this is the kind of information that you want.
45
135860
2456
on recherche ce genre d'informations.
02:18
You want something so that you can interact with the physical world.
46
138340
3239
On cherche à pourvoir interagir avec le monde physique.
02:22
Now, when I started working on object detection,
47
142579
2257
Quand j'ai débuté dans la détection d'objets,
02:24
it took 20 seconds to process a single image.
48
144860
3296
il fallait 20 secondes pour analyser une seule image.
02:28
And to get a feel for why speed is so important in this domain,
49
148180
3880
Pour que vous saisissiez l'importance de la rapidité dans ce domaine,
02:32
here's an example of an object detector
50
152940
2536
voici un exemple de détecteur d'objets
02:35
that takes two seconds to process an image.
51
155500
2416
qui analyse une image en deux secondes
02:37
So this is 10 times faster
52
157940
2616
soit dix fois plus rapidement
02:40
than the 20-seconds-per-image detector,
53
160580
3536
que celui à 20 secondes par image.
02:44
and you can see that by the time it makes predictions,
54
164140
2656
On voit que le temps qu'il fasse des prédictions,
02:46
the entire state of the world has changed,
55
166820
2040
l'état des choses a changé,
02:49
and this wouldn't be very useful
56
169700
2416
et son application
02:52
for an application.
57
172140
1416
serait peu utile.
02:53
If we speed this up by another factor of 10,
58
173580
2496
En l'accélérant encore d'un facteur de dix,
02:56
this is a detector running at five frames per second.
59
176100
2816
le détecteur analyse cinq images par seconde.
02:58
This is a lot better,
60
178940
1536
C'est bien mieux.
03:00
but for example,
61
180500
1976
Par contre,
03:02
if there's any significant movement,
62
182500
2296
si un mouvement important se produit,
03:04
I wouldn't want a system like this driving my car.
63
184820
2560
je ne veux pas que ce système conduise ma voiture.
03:08
This is our detection system running in real time on my laptop.
64
188940
3240
Voici notre système de détection en temps réel sur mon PC portable.
03:12
So it smoothly tracks me as I move around the frame,
65
192820
3136
Il suit aisément mes déplacements dans le cadre,
03:15
and it's robust to a wide variety of changes in size,
66
195980
3720
il supporte une grande variété de changements de taille,
03:21
pose,
67
201260
1200
de postures,
03:23
forward, backward.
68
203100
1856
si j'avance, recule.
03:24
This is great.
69
204980
1216
C'est formidable.
03:26
This is what we really need
70
206220
1736
C'est ce qu'il nous faut réellement
03:27
if we're going to build systems on top of computer vision.
71
207980
2896
pour concevoir des systèmes basés sur la vision artificielle.
03:30
(Applause)
72
210900
4000
(Applaudissements)
03:36
So in just a few years,
73
216100
2176
En quelques années seulement,
03:38
we've gone from 20 seconds per image
74
218300
2656
on est passés de 20 secondes par image
03:40
to 20 milliseconds per image, a thousand times faster.
75
220980
3536
à 20 millisecondes par image. Mille fois plus vite.
03:44
How did we get there?
76
224540
1416
Comment avons-nous fait ?
03:45
Well, in the past, object detection systems
77
225980
3016
Avant, les systèmes de détection d'objets
03:49
would take an image like this
78
229020
1936
prenaient une image similaire
03:50
and split it into a bunch of regions
79
230980
2456
et la découpaient en zones,
03:53
and then run a classifier on each of these regions,
80
233460
3256
puis un classifieur analysait chacune d'elles,
03:56
and high scores for that classifier
81
236740
2536
et on considérait qu'il était performant
03:59
would be considered detections in the image.
82
239300
3136
s'il détectait des objets.
04:02
But this involved running a classifier thousands of times over an image,
83
242460
4056
Mais ça signifiait analyser une image des milliers de fois
04:06
thousands of neural network evaluations to produce detection.
84
246540
2920
autant d'évaluations en réseau neuronal pour une détection.
04:11
Instead, we trained a single network to do all of detection for us.
85
251060
4536
On a alors entraîné un réseau unique à réaliser ces détections.
04:15
It produces all of the bounding boxes and class probabilities simultaneously.
86
255620
4280
Il produit les délimitations et les probabilités de classes simultanément.
04:20
With our system, instead of looking at an image thousands of times
87
260500
3496
Notre système n'observe plus une image des milliers de fois
04:24
to produce detection,
88
264020
1456
afin de réaliser une détection
04:25
you only look once,
89
265500
1256
mais une fois seulement.
04:26
and that's why we call it the YOLO method of object detection.
90
266780
2920
D'où la méthode de détection YOLO pour « You Only Look Once ».
04:31
So with this speed, we're not just limited to images;
91
271180
3976
Cette rapidité ne nous limite plus aux seules images
04:35
we can process video in real time.
92
275180
2416
et nous pouvons analyser des vidéos en temps réel.
04:37
And now, instead of just seeing that cat and dog,
93
277620
3096
Et au lieu de voir un chat et un chien,
04:40
we can see them move around and interact with each other.
94
280740
2960
on les voit se déplacer et interagir.
04:46
This is a detector that we trained
95
286380
2056
Nous avons entraîné ce détecteur
04:48
on 80 different classes
96
288460
4376
sur 80 classes différentes
04:52
in Microsoft's COCO dataset.
97
292860
3256
de la base COCO de Microsoft.
04:56
It has all sorts of things like spoon and fork, bowl,
98
296140
3336
Elle contient un peu de tout, de la cuillère à la fourchette et au bol.
04:59
common objects like that.
99
299500
1800
Ce genre d'objets usuels.
05:02
It has a variety of more exotic things:
100
302180
3096
Elle contient diverses choses plus inhabituelles :
05:05
animals, cars, zebras, giraffes.
101
305300
3256
des animaux, des voitures, des zèbres, des girafes.
05:08
And now we're going to do something fun.
102
308580
1936
Faisons une chose amusante.
05:10
We're just going to go out into the audience
103
310540
2096
Parcourons le public
05:12
and see what kind of things we can detect.
104
312660
2016
et voyons le genre d'objets détectés.
05:14
Does anyone want a stuffed animal?
105
314700
1620
Quelqu'un veut-il une peluche ?
05:17
There are some teddy bears out there.
106
317820
1762
Il y a des ours en peluche ici.
05:21
And we can turn down our threshold for detection a little bit,
107
321860
4536
Repoussons un peu notre seuil de détection
05:26
so we can find more of you guys out in the audience.
108
326420
3400
afin d'en trouver plus dans le public.
05:31
Let's see if we can get these stop signs.
109
331380
2336
Voyons si on trouve ces panneaux.
05:33
We find some backpacks.
110
333740
1880
On a des sacs à dos.
05:37
Let's just zoom in a little bit.
111
337700
1840
Zoomons juste un peu.
05:42
And this is great.
112
342140
1256
C'est formidable.
05:43
And all of the processing is happening in real time
113
343420
3176
L'analyse entière se déroule en temps réel
05:46
on the laptop.
114
346620
1200
sur l'ordinateur.
05:48
And it's important to remember
115
348900
1456
Il faut garder à l'esprit
05:50
that this is a general purpose object detection system,
116
350380
3216
qu'il s'agit d'un système de détection d'objets à usage général.
05:53
so we can train this for any image domain.
117
353620
5000
On peut donc l'entraîner pour tout domaine visuel.
06:00
The same code that we use
118
360140
2536
Le même code employé
06:02
to find stop signs or pedestrians,
119
362700
2456
pour détecter des panneaux stop, des piétons
06:05
bicycles in a self-driving vehicle,
120
365180
1976
ou des vélos par un véhicule autoguidé
06:07
can be used to find cancer cells
121
367180
2856
peut être employé pour détecter des cellules cancéreuses
06:10
in a tissue biopsy.
122
370060
3016
dans une biopsie.
06:13
And there are researchers around the globe already using this technology
123
373100
4040
Dans le monde, des chercheurs utilisent déjà cette technologie
06:18
for advances in things like medicine, robotics.
124
378060
3416
pour progresser dans des domaines comme la médecine ou la robotique.
06:21
This morning, I read a paper
125
381500
1376
Ce matin, j'ai lu un article
06:22
where they were taking a census of animals in Nairobi National Park
126
382900
4576
qui traitait d'un recensement de la faune du parc national de Nairobi
06:27
with YOLO as part of this detection system.
127
387500
3136
qui utilisait YOLO pour son système de détection.
06:30
And that's because Darknet is open source
128
390660
3096
Cela est possible car Darknet est en open source
06:33
and in the public domain, free for anyone to use.
129
393780
2520
et dans le domaine public. Il est libre d'utilisation.
06:37
(Applause)
130
397420
5696
(Applaudissements)
06:43
But we wanted to make detection even more accessible and usable,
131
403140
4936
On a voulu rendre la détection encore plus accessible et pratique.
06:48
so through a combination of model optimization,
132
408100
4056
Grâce à la combinaison de l'optimisation de modèles
06:52
network binarization and approximation,
133
412180
2296
la binarisation du réseau et l'approximation,
06:54
we actually have object detection running on a phone.
134
414500
3920
on peut utiliser la détection d'objets sur un téléphone.
07:04
(Applause)
135
424620
5320
(Applaudissements)
07:10
And I'm really excited because now we have a pretty powerful solution
136
430780
5056
Je suis ravi, car nous disposons dorénavant d'une solution puissante
07:15
to this low-level computer vision problem,
137
435860
2296
pour ce problème de vision artificielle faible.
07:18
and anyone can take it and build something with it.
138
438180
3856
Il peut servir à quiconque pour concevoir ce qu'il veut.
07:22
So now the rest is up to all of you
139
442060
3176
Pour le reste, à vous de jouer
07:25
and people around the world with access to this software,
140
445260
2936
ainsi qu'à ceux dans le monde qui ont accès à ce logiciel.
07:28
and I can't wait to see what people will build with this technology.
141
448220
3656
J'ai hâte de voir ce que les gens feront de cette technologie.
07:31
Thank you.
142
451900
1216
Merci.
07:33
(Applause)
143
453140
3440
(Applaudissements)
À propos de ce site Web

Ce site vous présentera des vidéos YouTube utiles pour apprendre l'anglais. Vous verrez des leçons d'anglais dispensées par des professeurs de premier ordre du monde entier. Double-cliquez sur les sous-titres anglais affichés sur chaque page de vidéo pour lire la vidéo à partir de là. Les sous-titres défilent en synchronisation avec la lecture de la vidéo. Si vous avez des commentaires ou des demandes, veuillez nous contacter en utilisant ce formulaire de contact.

https://forms.gle/WvT1wiN1qDtmnspy7