How computers learn to recognize objects instantly | Joseph Redmon

1,121,269 views ・ 2017-08-18

TED


Fai dobre clic nos subtítulos en inglés a continuación para reproducir o vídeo.

Translator: Mario Cal Reviewer: Xusto Rodriguez
00:12
Ten years ago,
0
12645
1151
Hai dez anos,
00:13
computer vision researchers thought that getting a computer
1
13820
2776
os expertos en visión artificial crían que lograr que un ordenador
00:16
to tell the difference between a cat and a dog
2
16620
2696
distinguise entre un gato e un can
00:19
would be almost impossible,
3
19340
1976
sería practicamente imposible
00:21
even with the significant advance in the state of artificial intelligence.
4
21340
3696
malia os considerables progresos en intelixencia artificial.
00:25
Now we can do it at a level greater than 99 percent accuracy.
5
25060
3560
Hoxe podemos facelo cunha precisión superior ao 99 por cento.
00:29
This is called image classification --
6
29500
1856
Isto chámase clasificación de imaxes:
00:31
give it an image, put a label to that image --
7
31380
3096
dada unha imaxe, asígnalle unha etiqueta.
00:34
and computers know thousands of other categories as well.
8
34500
3040
E os ordenadores coñecen ademais miles doutras categorías.
00:38
I'm a graduate student at the University of Washington,
9
38500
2896
Son estudante de posgrao na Universidade de Washington,
00:41
and I work on a project called Darknet,
10
41420
1896
e traballo nun proxecto chamado Darknet,
00:43
which is a neural network framework
11
43340
1696
un contorno de traballo de rede neural
00:45
for training and testing computer vision models.
12
45060
2816
para adestrar e probar modelos de visión artificial.
00:47
So let's just see what Darknet thinks
13
47900
2976
Imos ver o que pensa Darknet
00:50
of this image that we have.
14
50900
1760
desta imaxe que temos aquí.
00:54
When we run our classifier
15
54340
2336
Ao aplicarlle o noso clasificador
00:56
on this image,
16
56700
1216
a esta imaxe,
00:57
we see we don't just get a prediction of dog or cat,
17
57940
2456
vemos que non se limita a predicir can ou gato;
01:00
we actually get specific breed predictions.
18
60420
2336
de feito, dános tamén razas concretas.
01:02
That's the level of granularity we have now.
19
62780
2176
Ese é o nivel de granularidade que temos agora.
01:04
And it's correct.
20
64980
1616
E é correcto.
01:06
My dog is in fact a malamute.
21
66620
1840
O meu can é efectivamente un malamute.
01:08
So we've made amazing strides in image classification,
22
68860
4336
Así que demos xa pasos enormes na clasificación de imaxes,
01:13
but what happens when we run our classifier
23
73220
2000
pero que acontece se executamos o noso clasificador
01:15
on an image that looks like this?
24
75244
1960
sobre unha imaxe coma esta?
01:18
Well ...
25
78900
1200
Ben...
01:24
We see that the classifier comes back with a pretty similar prediction.
26
84460
3896
Vemos que o clasificador nos devolve unha predición bastante similar.
01:28
And it's correct, there is a malamute in the image,
27
88380
3096
E é correcta: hai un malamute na imaxe,
01:31
but just given this label, we don't actually know that much
28
91500
3696
pero con só esa etiqueta, en realidade, non sabemos moito
01:35
about what's going on in the image.
29
95220
1667
sobre o que ocorre nela.
01:36
We need something more powerful.
30
96911
1560
Necesitamos algo máis potente.
01:39
I work on a problem called object detection,
31
99060
2616
Eu traballo nun problema denominado detección de obxectos,
01:41
where we look at an image and try to find all of the objects,
32
101700
2936
no que vemos unha imaxe e tratamos de atopar todos os obxectos,
01:44
put bounding boxes around them
33
104660
1456
encerrámolos en caixas
01:46
and say what those objects are.
34
106140
1520
e dicimos que son eses obxectos.
01:48
So here's what happens when we run a detector on this image.
35
108220
3280
Isto é o que acontece cando lle aplicamos un detector a esta imaxe.
01:53
Now, with this kind of result,
36
113060
2256
Ben, con este tipo de resultado
01:55
we can do a lot more with our computer vision algorithms.
37
115340
2696
podemos facer moito máis cos nosos algoritmos de visión artificial.
01:58
We see that it knows that there's a cat and a dog.
38
118060
2976
Vemos que sabe que hai un gato e un can.
02:01
It knows their relative locations,
39
121060
2256
Sabe a súa posición relativa,
02:03
their size.
40
123340
1216
o seu tamaño.
02:04
It may even know some extra information.
41
124580
1936
Mesmo pode coñecer algúns datos adicionais.
02:06
There's a book sitting in the background.
42
126540
1960
Hai un libro ao fondo.
02:09
And if you want to build a system on top of computer vision,
43
129100
3256
E se queremos construír un sistema baseado na visión artificial,
02:12
say a self-driving vehicle or a robotic system,
44
132380
3456
por exemplo, un vehículo autónomo ou un sistema robótico,
02:15
this is the kind of information that you want.
45
135860
2456
esta é a clase de información que necesitamos.
02:18
You want something so that you can interact with the physical world.
46
138340
3239
Necesitamos algo que faga posible interactuar co mundo físico.
02:22
Now, when I started working on object detection,
47
142579
2257
Cando eu comecei a traballar coa detección de obxectos,
02:24
it took 20 seconds to process a single image.
48
144860
3296
tardábase 20 segundos en procesar unha soa imaxe.
02:28
And to get a feel for why speed is so important in this domain,
49
148180
3880
Para darvos unha idea da importancia da velocidade neste ámbito,
02:32
here's an example of an object detector
50
152940
2536
este é un exemplo dun detector de obxectos
02:35
that takes two seconds to process an image.
51
155500
2416
que tarda dous segundos en procesar unha imaxe.
02:37
So this is 10 times faster
52
157940
2616
É dicir, é 10 veces máis rápido
02:40
than the 20-seconds-per-image detector,
53
160580
3536
có dos 20 segundos por imaxe,
02:44
and you can see that by the time it makes predictions,
54
164140
2656
e, como vedes, cando fai a súa predición,
02:46
the entire state of the world has changed,
55
166820
2040
a situación xa mudou por completo,
02:49
and this wouldn't be very useful
56
169700
2416
o cal non sería moi útil
02:52
for an application.
57
172140
1416
para ningunha aplicación.
02:53
If we speed this up by another factor of 10,
58
173580
2496
Se multiplicamos a velocidade por 10,
02:56
this is a detector running at five frames per second.
59
176100
2816
temos un detector que vai a cinco imaxes por segundo.
02:58
This is a lot better,
60
178940
1536
É moito mellor,
03:00
but for example,
61
180500
1976
pero, por exemplo,
03:02
if there's any significant movement,
62
182500
2296
se hai un movemento grande,
03:04
I wouldn't want a system like this driving my car.
63
184820
2560
a min non me gustaría que un sistema coma este conducise o meu coche.
03:08
This is our detection system running in real time on my laptop.
64
188940
3240
Este é o noso sistema de detección funcionando en tempo real no meu portátil.
03:12
So it smoothly tracks me as I move around the frame,
65
192820
3136
Segue sen saltos os meus desprazamentos pola imaxe,
03:15
and it's robust to a wide variety of changes in size,
66
195980
3720
e responde de forma fiable a moi diversos cambios de tamaño,
03:21
pose,
67
201260
1200
postura,
03:23
forward, backward.
68
203100
1856
avance, retroceso.
03:24
This is great.
69
204980
1216
É fantástico.
03:26
This is what we really need
70
206220
1736
Isto é o que necesitamos
03:27
if we're going to build systems on top of computer vision.
71
207980
2896
se pretendemos construír sistemas baseados na visión artificial.
03:30
(Applause)
72
210900
4000
(Aplausos)
03:36
So in just a few years,
73
216100
2176
Así que en apenas uns anos,
03:38
we've gone from 20 seconds per image
74
218300
2656
pasamos de 20 segundos por imaxe
03:40
to 20 milliseconds per image, a thousand times faster.
75
220980
3536
a 20 milisegundos por imaxe, mil veces máis rápido.
03:44
How did we get there?
76
224540
1416
Como chegamos ata aquí?
03:45
Well, in the past, object detection systems
77
225980
3016
Ben, os anteriores sistemas de detección de obxectos
03:49
would take an image like this
78
229020
1936
collían unha imaxe coma esta,
03:50
and split it into a bunch of regions
79
230980
2456
dividíana nunha serie de rexións
03:53
and then run a classifier on each of these regions,
80
233460
3256
e executaban un clasificador en cada unha desas rexións,
03:56
and high scores for that classifier
81
236740
2536
e os valores altos nun clasificador dado
03:59
would be considered detections in the image.
82
239300
3136
interpretábanse como deteccións na imaxe.
04:02
But this involved running a classifier thousands of times over an image,
83
242460
4056
Pero isto supoñía executar un clasificador miles de veces sobre unha imaxe.
04:06
thousands of neural network evaluations to produce detection.
84
246540
2920
miles de avaliacións por redes neurais para producir unha detección.
04:11
Instead, we trained a single network to do all of detection for us.
85
251060
4536
Nós, en cambio, adestramos unha soa rede para que fixese todo o proceso.
04:15
It produces all of the bounding boxes and class probabilities simultaneously.
86
255620
4280
Produce simultaneamente todas as caixas e as probabilidades de clase.
04:20
With our system, instead of looking at an image thousands of times
87
260500
3496
Co noso sistema, no canto de analizar unha imaxe miles de veces
04:24
to produce detection,
88
264020
1456
para producir unha detección,
04:25
you only look once,
89
265500
1256
só é necesario mirala unha vez.
04:26
and that's why we call it the YOLO method of object detection.
90
266780
2920
Chamámoslle método YOLO de detección de obxectos.
04:31
So with this speed, we're not just limited to images;
91
271180
3976
Con esta velocidade, non estamos limitados ás imaxes estáticas;
04:35
we can process video in real time.
92
275180
2416
podemos procesar vídeo en tempo real.
04:37
And now, instead of just seeing that cat and dog,
93
277620
3096
Agora, no canto de simplemente ver o gato e o can,
04:40
we can see them move around and interact with each other.
94
280740
2960
podemos velos moverse e interactuar.
04:46
This is a detector that we trained
95
286380
2056
Este é un detector que adestramos
04:48
on 80 different classes
96
288460
4376
con 80 categorías distintas
04:52
in Microsoft's COCO dataset.
97
292860
3256
do banco de datos COCO de Microsoft.
04:56
It has all sorts of things like spoon and fork, bowl,
98
296140
3336
Contén todo tipo de cousas, como culler e garfo, cunca,
04:59
common objects like that.
99
299500
1800
obxectos comúns.
05:02
It has a variety of more exotic things:
100
302180
3096
Ten outras cousas máis exóticas:
05:05
animals, cars, zebras, giraffes.
101
305300
3256
animais, coches, cebras, xirafas.
05:08
And now we're going to do something fun.
102
308580
1936
Agora imos facer algo divertido.
05:10
We're just going to go out into the audience
103
310540
2096
Ímonos achegar ao público
05:12
and see what kind of things we can detect.
104
312660
2016
para ver que podemos detectar.
05:14
Does anyone want a stuffed animal?
105
314700
1620
Alguén quere unha peluche?
05:17
There are some teddy bears out there.
106
317820
1762
Hai por aí uns cantos osos de peluche.
05:21
And we can turn down our threshold for detection a little bit,
107
321860
4536
Podemos baixar un pouquiño o limiar de detección,
05:26
so we can find more of you guys out in the audience.
108
326420
3400
para atopar máis cousas entre o público.
05:31
Let's see if we can get these stop signs.
109
331380
2336
A ver se podemos localizar eses sinais de stop.
05:33
We find some backpacks.
110
333740
1880
Atopamos algunhas mochilas.
05:37
Let's just zoom in a little bit.
111
337700
1840
Démoslle un pouco ao zoom.
05:42
And this is great.
112
342140
1256
Isto é fantástico.
05:43
And all of the processing is happening in real time
113
343420
3176
E todo ese procesamento estase realizando en tempo real
05:46
on the laptop.
114
346620
1200
no portátil.
05:48
And it's important to remember
115
348900
1456
Cómpre lembrar
05:50
that this is a general purpose object detection system,
116
350380
3216
que este é un sistema de detección de uso xeral,
05:53
so we can train this for any image domain.
117
353620
5000
polo que podemos adestralo para calquera ámbito.
06:00
The same code that we use
118
360140
2536
O mesmo código que empregamos
06:02
to find stop signs or pedestrians,
119
362700
2456
para detectar sinais de stop, peóns
06:05
bicycles in a self-driving vehicle,
120
365180
1976
ou bicicletas nun vehículo autónomo
06:07
can be used to find cancer cells
121
367180
2856
pódese empregar para detectar células cancerosas
06:10
in a tissue biopsy.
122
370060
3016
nunha biopsia de tecido.
06:13
And there are researchers around the globe already using this technology
123
373100
4040
Hai investigadores por todo o mundo que xa están a usar esta tecnoloxía
06:18
for advances in things like medicine, robotics.
124
378060
3416
para lograr novos avances en campos como a medicina ou a robótica.
06:21
This morning, I read a paper
125
381500
1376
Esta mañá lin un artigo
06:22
where they were taking a census of animals in Nairobi National Park
126
382900
4576
no que falan dun censo dos animais do Parque Nacional de Nairobi
06:27
with YOLO as part of this detection system.
127
387500
3136
no que están empregando YOLO como parte do sistema de detección.
06:30
And that's because Darknet is open source
128
390660
3096
Porque Darknet é código aberto,
06:33
and in the public domain, free for anyone to use.
129
393780
2520
é público para que calquera poida usalo libremente.
06:37
(Applause)
130
397420
5696
(Aplausos)
06:43
But we wanted to make detection even more accessible and usable,
131
403140
4936
Pero queriamos facer a detección máis accesible e práctica,
06:48
so through a combination of model optimization,
132
408100
4056
así que combinando a optimización de modelos,
06:52
network binarization and approximation,
133
412180
2296
a binarización e aproximación de redes,
06:54
we actually have object detection running on a phone.
134
414500
3920
logramos que a detección de obxectos funcionase nun teléfono.
07:04
(Applause)
135
424620
5320
(Aplausos)
07:10
And I'm really excited because now we have a pretty powerful solution
136
430780
5056
Estou entusiasmado porque agora temos unha solución bastante potente
07:15
to this low-level computer vision problem,
137
435860
2296
para este problema de visión artificial de baixo nivel,
07:18
and anyone can take it and build something with it.
138
438180
3856
e calquera pode usala para facer algo con ela.
07:22
So now the rest is up to all of you
139
442060
3176
A partir de aquí depende de todos vós
07:25
and people around the world with access to this software,
140
445260
2936
e doutros por todo o mundo con acceso a este software,
07:28
and I can't wait to see what people will build with this technology.
141
448220
3656
e estou desexando ver o que construirán con esta tecnoloxía.
07:31
Thank you.
142
451900
1216
Grazas.
07:33
(Applause)
143
453140
3440
(Aplausos)
About this website

Este sitio presentarache vídeos de YouTube que son útiles para aprender inglés. Verás clases de inglés impartidas por profesores de primeiro nivel de todo o mundo. Fai dobre clic nos subtítulos en inglés que aparecen en cada páxina de vídeo para reproducir o vídeo desde alí. Os subtítulos desprázanse sincronizados coa reprodución do vídeo. Se tes algún comentario ou solicitude, póñase en contacto connosco a través deste formulario de contacto.

https://forms.gle/WvT1wiN1qDtmnspy7