How computers learn to recognize objects instantly | Joseph Redmon

1,121,269 views ・ 2017-08-18

TED


Bitte doppelklicken Sie auf die englischen Untertitel unten, um das Video abzuspielen.

Übersetzung: Janine Drotschmann Lektorat: Sonja Maria Neef
00:12
Ten years ago,
0
12645
1151
Vor zehn Jahren
00:13
computer vision researchers thought that getting a computer
1
13820
2776
gingen Forscher für Maschinelles Sehen davon aus,
00:16
to tell the difference between a cat and a dog
2
16620
2696
dass es für einen Computer kaum möglich sei,
eine Katze von einem Hund zu unterscheiden,
00:19
would be almost impossible,
3
19340
1976
00:21
even with the significant advance in the state of artificial intelligence.
4
21340
3696
trotz großer Fortschritte auf dem Feld der Künstlichen Intelligenz.
00:25
Now we can do it at a level greater than 99 percent accuracy.
5
25060
3560
Mittlerweile ist das zu über 99% möglich.
00:29
This is called image classification --
6
29500
1856
Man nennt diese Aufgabe "Bildklassifikation".
00:31
give it an image, put a label to that image --
7
31380
3096
Sie geben dem Computer ein Bild mit einer expliziten Bezeichnung,
00:34
and computers know thousands of other categories as well.
8
34500
3040
und der Computer kennt zusätzlich tausende weiterer Kategorien dafür.
00:38
I'm a graduate student at the University of Washington,
9
38500
2896
Ich studiere an der Universität von Washington
00:41
and I work on a project called Darknet,
10
41420
1896
und arbeite an einem Projekt namens "Darknet",
00:43
which is a neural network framework
11
43340
1696
einem Framework für neurale Netzwerke,
00:45
for training and testing computer vision models.
12
45060
2816
mit dem Modelle zur Bilderkennung trainiert und getestet werden.
00:47
So let's just see what Darknet thinks
13
47900
2976
Sehen wir mal, was Darknet
00:50
of this image that we have.
14
50900
1760
über das Bild denkt, das wir hier haben.
00:54
When we run our classifier
15
54340
2336
Wenn wir unseren Klassifikator
00:56
on this image,
16
56700
1216
auf dieses Bild loslassen,
00:57
we see we don't just get a prediction of dog or cat,
17
57940
2456
sehen wir, dass nicht nur "Hund" oder "Katze" vorausgesagt wird,
01:00
we actually get specific breed predictions.
18
60420
2336
er gibt sogar eine Aussage über die konkrete Rasse.
01:02
That's the level of granularity we have now.
19
62780
2176
Dieser Genauigkeitsgrad ist im Moment möglich.
01:04
And it's correct.
20
64980
1616
Und es stimmt --
01:06
My dog is in fact a malamute.
21
66620
1840
es handelt sich tatsächlich um einen Alaskan Malamute.
01:08
So we've made amazing strides in image classification,
22
68860
4336
Wir haben beachtliche Fortschritte in der Bildklassifikation gemacht.
01:13
but what happens when we run our classifier
23
73220
2000
Was aber passiert, wenn wir unserem Klassifikator
01:15
on an image that looks like this?
24
75244
1960
ein solches Bild vorlegen?
01:18
Well ...
25
78900
1200
Nun ...
01:24
We see that the classifier comes back with a pretty similar prediction.
26
84460
3896
Wir sehen, dass der Klassifikator so ziemlich das gleiche Ergebnis liefert.
01:28
And it's correct, there is a malamute in the image,
27
88380
3096
Und es stimmt wieder -- da ist ein Malamute abgebildet.
01:31
but just given this label, we don't actually know that much
28
91500
3696
Doch mit dieser Aussage allein wissen wir noch nicht viel darüber,
01:35
about what's going on in the image.
29
95220
1667
was sich genau in dem Bild abspielt.
01:36
We need something more powerful.
30
96911
1560
Wir brauchen etwas Leisungsfähigeres.
01:39
I work on a problem called object detection,
31
99060
2616
Ich arbeite an einer Aufgabe namens "Objekterkennung".
01:41
where we look at an image and try to find all of the objects,
32
101700
2936
Hier versuchen wir, alle Objekte in einem Bild zu erkennen.
01:44
put bounding boxes around them
33
104660
1456
Wir ziehen um jedes Objekt eine Markierungsbox
01:46
and say what those objects are.
34
106140
1520
und versehen sie mit einer Bezeichnung.
01:48
So here's what happens when we run a detector on this image.
35
108220
3280
Jetzt sehen wir, was der Erkenner über das Bild sagt.
01:53
Now, with this kind of result,
36
113060
2256
Mit dieser Art Ergebnis können wir
01:55
we can do a lot more with our computer vision algorithms.
37
115340
2696
viel mehr mit den Algorithmen des Maschinellen Sehens anfangen.
01:58
We see that it knows that there's a cat and a dog.
38
118060
2976
Wir sehen, dass eine Katze und ein Hund erkannt wird.
02:01
It knows their relative locations,
39
121060
2256
Der Erkenner liefert ihre relativen Positionen im Bild,
02:03
their size.
40
123340
1216
ihre Größe,
02:04
It may even know some extra information.
41
124580
1936
und vielleicht sogar noch mehr:
02:06
There's a book sitting in the background.
42
126540
1960
Im Hintergrund ist ein Buch zu sehen.
02:09
And if you want to build a system on top of computer vision,
43
129100
3256
Wenn man das Maschinelle Sehen in einem größeren System nutzen will,
02:12
say a self-driving vehicle or a robotic system,
44
132380
3456
etwa in einem selbstfahrenden Fahrzeug oder einem Robotsystem,
02:15
this is the kind of information that you want.
45
135860
2456
braucht man genau solche Informationen,
02:18
You want something so that you can interact with the physical world.
46
138340
3239
auf deren Basis man mit der physischen Welt interagieren kann.
Als ich damit anfing, in der Objekterkennung zu arbeiten,
02:22
Now, when I started working on object detection,
47
142579
2257
02:24
it took 20 seconds to process a single image.
48
144860
3296
dauerte die Verarbeitung zwanzig Sekunden für jedes einzelne Bild.
02:28
And to get a feel for why speed is so important in this domain,
49
148180
3880
Um ein Gefühl dafür zu bekommen, warum Geschwindigkeit hier so wichtig ist,
02:32
here's an example of an object detector
50
152940
2536
zeige ich Ihnen einen Objekterkenner,
02:35
that takes two seconds to process an image.
51
155500
2416
der zwei Sekunden braucht, um ein Einzelbild zu verarbeiten --
02:37
So this is 10 times faster
52
157940
2616
was bereits zehnmal schneller ist
02:40
than the 20-seconds-per-image detector,
53
160580
3536
als der Zwanzig-Sekunden-Klassifikator.
02:44
and you can see that by the time it makes predictions,
54
164140
2656
Bis dieser Erkenner seine Voraussagen bekannt gibt,
02:46
the entire state of the world has changed,
55
166820
2040
hat sich der Zustand der Welt bereits völlig verändert.
02:49
and this wouldn't be very useful
56
169700
2416
Das wäre für die praktische Anwendung
02:52
for an application.
57
172140
1416
völlig ungeeignet.
02:53
If we speed this up by another factor of 10,
58
173580
2496
Wenn wir ihn noch einmal zehnmal schneller machen,
02:56
this is a detector running at five frames per second.
59
176100
2816
verarbeitet der Erkenner fünf Bilder pro Sekunde.
02:58
This is a lot better,
60
178940
1536
Das ist deutlich besser.
03:00
but for example,
61
180500
1976
Wenn jedoch beispielsweise
03:02
if there's any significant movement,
62
182500
2296
eine nennenswerte Bewegung stattfindet --
03:04
I wouldn't want a system like this driving my car.
63
184820
2560
Ich würde nicht wollen, dass ein solches System mein Auto steuert.
03:08
This is our detection system running in real time on my laptop.
64
188940
3240
Das ist unser Erkennungssystem. Es läuft in Echtzeit auf meinem Laptop.
03:12
So it smoothly tracks me as I move around the frame,
65
192820
3136
Es verfolgt mich flüssig, während ich mich im Bildbereich bewege,
03:15
and it's robust to a wide variety of changes in size,
66
195980
3720
ist robust gegenüber Veränderungen der Größe,
03:21
pose,
67
201260
1200
der Stellung,
03:23
forward, backward.
68
203100
1856
Vorder- oder Rückseite.
03:24
This is great.
69
204980
1216
Das ist großartig.
03:26
This is what we really need
70
206220
1736
So etwas brauchen wir,
03:27
if we're going to build systems on top of computer vision.
71
207980
2896
wenn wir das Maschinelle Sehen in Systeme einbauen wollen.
03:30
(Applause)
72
210900
4000
(Applaus)
03:36
So in just a few years,
73
216100
2176
In nur ein paar Jahren
03:38
we've gone from 20 seconds per image
74
218300
2656
haben wir es von zwanzig Sekunden pro Bild
03:40
to 20 milliseconds per image, a thousand times faster.
75
220980
3536
zu zwanzig Millisekunden pro Bild geschafft. Eintausendmal schneller.
03:44
How did we get there?
76
224540
1416
Wie haben wir das gemacht?
03:45
Well, in the past, object detection systems
77
225980
3016
Nun, in der Vergangenheit nahmen Objekterkenner
03:49
would take an image like this
78
229020
1936
ein solches Bild
03:50
and split it into a bunch of regions
79
230980
2456
und teilten es in viele kleinere Bereiche ein.
03:53
and then run a classifier on each of these regions,
80
233460
3256
Der Klassifikator verarbeitete jeden einzelnen dieser Bereiche.
03:56
and high scores for that classifier
81
236740
2536
Erreichte etwas einen hohen Score im Klassifikator,
03:59
would be considered detections in the image.
82
239300
3136
wurde es als erkanntes Objekt gewertet.
04:02
But this involved running a classifier thousands of times over an image,
83
242460
4056
Dies bedeutete aber, den Klassifikator tausende Male für ein Bild anzuwenden.
04:06
thousands of neural network evaluations to produce detection.
84
246540
2920
Tausende von Auswertungen neuraler Netzwerke für die Erkennung.
04:11
Instead, we trained a single network to do all of detection for us.
85
251060
4536
Wir haben stattdessen ein einzelnes neurales Netzwerk trainiert,
04:15
It produces all of the bounding boxes and class probabilities simultaneously.
86
255620
4280
das alle Markierungsboxen und Wahrscheinlichkeiten simultan berechnet.
04:20
With our system, instead of looking at an image thousands of times
87
260500
3496
Unser System ermöglicht es, statt tausende Male ein Bild anzusehen,
um die Objekte darin zu erkennen,
04:24
to produce detection,
88
264020
1456
04:25
you only look once,
89
265500
1256
das Bild nur ein einziges Mal anzusehen.
04:26
and that's why we call it the YOLO method of object detection.
90
266780
2920
Deswegen nennen wir unsere Methode der Objekterkennung "YOLO".
04:31
So with this speed, we're not just limited to images;
91
271180
3976
Mit einer solchen Geschwindigkeit sind wir nicht auf Bilder beschränkt --
04:35
we can process video in real time.
92
275180
2416
wir können ganze Videos in Echtzeit verarbeiten.
04:37
And now, instead of just seeing that cat and dog,
93
277620
3096
Statt nur eine Katze und einen Hund zu sehen,
04:40
we can see them move around and interact with each other.
94
280740
2960
können wir beobachten, wie sie sich bewegen und interagieren.
04:46
This is a detector that we trained
95
286380
2056
Diesen Erkenner haben wir
04:48
on 80 different classes
96
288460
4376
auf 80 verschiedene Klassen
04:52
in Microsoft's COCO dataset.
97
292860
3256
aus Microsofts COCO-Daten trainiert.
04:56
It has all sorts of things like spoon and fork, bowl,
98
296140
3336
Er kennt alle möglichen Objekte wie Löffel, Gabel, Schüssel --
04:59
common objects like that.
99
299500
1800
alltägliche Gegenstände,
05:02
It has a variety of more exotic things:
100
302180
3096
aber auch exotischere:
05:05
animals, cars, zebras, giraffes.
101
305300
3256
Tiere, Autos, Zebras, Giraffen.
05:08
And now we're going to do something fun.
102
308580
1936
Jetzt machen wir etwas Lustiges.
05:10
We're just going to go out into the audience
103
310540
2096
Wir richten die Kamera auf das Publikum
05:12
and see what kind of things we can detect.
104
312660
2016
und sehen, was wir erkennen können.
05:14
Does anyone want a stuffed animal?
105
314700
1620
Möchte jemand ein Plüschtier?
05:17
There are some teddy bears out there.
106
317820
1762
Hier sind ein paar Teddybären.
05:21
And we can turn down our threshold for detection a little bit,
107
321860
4536
Wir können die Empfindlichkeit des Erkenners ein wenig senken,
05:26
so we can find more of you guys out in the audience.
108
326420
3400
um mehr einzelne Personen im Publikum zu erkennen.
05:31
Let's see if we can get these stop signs.
109
331380
2336
Lassen Sie uns sehen, ob wir diese Stoppschilder bekommen.
05:33
We find some backpacks.
110
333740
1880
Wir sehen einige Rucksäcke ...
05:37
Let's just zoom in a little bit.
111
337700
1840
Wir zoomen etwas hinein ...
05:42
And this is great.
112
342140
1256
Das ist großartig.
05:43
And all of the processing is happening in real time
113
343420
3176
Die gesamte Verarbeitung passiert in Echtzeit
05:46
on the laptop.
114
346620
1200
auf dem Laptop.
05:48
And it's important to remember
115
348900
1456
Man darf nicht vergessen,
05:50
that this is a general purpose object detection system,
116
350380
3216
dass das ein ganz allgemeines Objekterkennungssystem ist.
05:53
so we can train this for any image domain.
117
353620
5000
Wir können es also für jede Art von Bildern trainieren.
Denselben Code, den wir benutzen,
06:00
The same code that we use
118
360140
2536
06:02
to find stop signs or pedestrians,
119
362700
2456
damit ein selbstfahrendes Fahrzeug Stoppschilder, Fußgänger
06:05
bicycles in a self-driving vehicle,
120
365180
1976
oder Fahrräder erkennen kann,
06:07
can be used to find cancer cells
121
367180
2856
kann man auch nutzen, um Krebszellen
06:10
in a tissue biopsy.
122
370060
3016
in einer Gewebeprobe ausfindig zu machen.
06:13
And there are researchers around the globe already using this technology
123
373100
4040
Forscher auf der ganzen Welt nutzen diese Technologie bereits,
06:18
for advances in things like medicine, robotics.
124
378060
3416
um Fortschritte auf Gebieten wie Medizin oder Robotik zu erzielen.
06:21
This morning, I read a paper
125
381500
1376
Heute morgen habe ich einen Fachartikel gelesen:
06:22
where they were taking a census of animals in Nairobi National Park
126
382900
4576
Im Nationalpark von Nairobi wurde eine Zählung der Tiere vorgenommen,
06:27
with YOLO as part of this detection system.
127
387500
3136
mit YOLO als Teil des Erkennungssystems.
06:30
And that's because Darknet is open source
128
390660
3096
Das ist möglich, weil Darknet quelloffen,
06:33
and in the public domain, free for anyone to use.
129
393780
2520
frei zugänglich und für alle verwendbar ist.
06:37
(Applause)
130
397420
5696
(Applaus)
06:43
But we wanted to make detection even more accessible and usable,
131
403140
4936
Aber wir wollten Bilderkennung sogar noch leichter nutzbar machen.
06:48
so through a combination of model optimization,
132
408100
4056
Daher haben wir durch Modelloptimierung,
Binarisierung des neuralen Netzes und Approximation erreicht,
06:52
network binarization and approximation,
133
412180
2296
06:54
we actually have object detection running on a phone.
134
414500
3920
dass die Objekterkennung sogar auf einem Mobiltelefon läuft.
07:04
(Applause)
135
424620
5320
(Applaus)
07:10
And I'm really excited because now we have a pretty powerful solution
136
430780
5056
Das ist aufregend, weil wir damit eine ziemlich mächtige Lösung
07:15
to this low-level computer vision problem,
137
435860
2296
für dieses grundlegende Problem des Maschinellen Sehens haben.
07:18
and anyone can take it and build something with it.
138
438180
3856
Jeder kann sie nutzen und etwas damit bauen.
07:22
So now the rest is up to all of you
139
442060
3176
Nun liegt es bei Ihnen
07:25
and people around the world with access to this software,
140
445260
2936
und allen Menschen auf der Welt mit Zugang zu dieser Software.
07:28
and I can't wait to see what people will build with this technology.
141
448220
3656
Ich bin gespannt zu sehen, welche Ideen sie mit dieser Technologie umsetzen.
07:31
Thank you.
142
451900
1216
Vielen Dank.
07:33
(Applause)
143
453140
3440
(Applaus)
Über diese Website

Auf dieser Seite finden Sie YouTube-Videos, die zum Englischlernen nützlich sind. Sie sehen Englischlektionen, die von hochkarätigen Lehrern aus der ganzen Welt unterrichtet werden. Doppelklicken Sie auf die englischen Untertitel, die auf jeder Videoseite angezeigt werden, um das Video von dort aus abzuspielen. Die Untertitel laufen synchron mit der Videowiedergabe. Wenn Sie irgendwelche Kommentare oder Wünsche haben, kontaktieren Sie uns bitte über dieses Kontaktformular.

https://forms.gle/WvT1wiN1qDtmnspy7