How computers learn to recognize objects instantly | Joseph Redmon

1,121,269 views ・ 2017-08-18

TED


Videoyu oynatmak için lütfen aşağıdaki İngilizce altyazılara çift tıklayınız.

Çeviri: Esra Çakmak Gözden geçirme: Figen Ergürbüz
00:12
Ten years ago,
0
12645
1151
On yıl evvel,
00:13
computer vision researchers thought that getting a computer
1
13820
2776
bilgisayarlı görme araştırmacıları,
00:16
to tell the difference between a cat and a dog
2
16620
2696
bir bilgisayara bir köpekle kedi arasında ayrım yaptırmanın
00:19
would be almost impossible,
3
19340
1976
neredeyse imkânsız olacağını düşünürdü,
00:21
even with the significant advance in the state of artificial intelligence.
4
21340
3696
hem de yapay zekâ alanındaki büyük gelişmelere rağmen.
00:25
Now we can do it at a level greater than 99 percent accuracy.
5
25060
3560
Şu anda bunu, yüzde 99'ı aşkın doğruluk payı ile tamamlayabiliyoruz.
00:29
This is called image classification --
6
29500
1856
Buna görüntü sınıflandırması deniyor;
00:31
give it an image, put a label to that image --
7
31380
3096
bir görüntü yükleyin, bu görüntüyü etiketleyin
00:34
and computers know thousands of other categories as well.
8
34500
3040
ve bilgisayarlar binlerce diğer sınıflandırmaları da biliyor.
00:38
I'm a graduate student at the University of Washington,
9
38500
2896
Washington Üniversitesi mezunuyum
00:41
and I work on a project called Darknet,
10
41420
1896
ve bilgisayarlı görme modellerini
00:43
which is a neural network framework
11
43340
1696
test etmek ve geliştirmek için kurulan,
00:45
for training and testing computer vision models.
12
45060
2816
sinirsel ağ sistemi olan ''Darknet'' adlı bir proje üzerinde çalışıyorum.
00:47
So let's just see what Darknet thinks
13
47900
2976
Darknet'in şu fotoğraf hakkında
00:50
of this image that we have.
14
50900
1760
neler düşündüğüne bir göz atalım.
00:54
When we run our classifier
15
54340
2336
Bu fotoğraf için sınıflandırıcımızı
00:56
on this image,
16
56700
1216
aktifleştirdiğimizde,
00:57
we see we don't just get a prediction of dog or cat,
17
57940
2456
sadece kedi veya köpek tahmini elde etmiyoruz,
01:00
we actually get specific breed predictions.
18
60420
2336
belirli tür tahminleri de sonuç veriyor.
01:02
That's the level of granularity we have now.
19
62780
2176
Şu anda, öğe boyu seviyesini görüyorsunuz.
01:04
And it's correct.
20
64980
1616
Ve doğru.
01:06
My dog is in fact a malamute.
21
66620
1840
Köpeğimin cinsi gerçekten Alaska Malamutu.
01:08
So we've made amazing strides in image classification,
22
68860
4336
Görüntü sınıflandırmasında büyük yol katettik,
01:13
but what happens when we run our classifier
23
73220
2000
fakat sınıflandırıcımızı, şöyle bir fotoğrafta aktifleştirirsek
01:15
on an image that looks like this?
24
75244
1960
ne olur dersiniz?
01:18
Well ...
25
78900
1200
Evet...
01:24
We see that the classifier comes back with a pretty similar prediction.
26
84460
3896
Sınıflandırıcının oldukça benzer bir tahmin sunduğunu görebiliriz.
01:28
And it's correct, there is a malamute in the image,
27
88380
3096
Sonuç doğru, görüntüde Alaska Malamutu var,
01:31
but just given this label, we don't actually know that much
28
91500
3696
fakat yalnızca bu etiket ile birlikte,
görüntüde neler olduğunu çok iyi anlayamıyoruz.
01:35
about what's going on in the image.
29
95220
1667
01:36
We need something more powerful.
30
96911
1560
Daha güçlü bir şeye ihtiyacımız var.
01:39
I work on a problem called object detection,
31
99060
2616
Nesne belirleme dediğimiz konu üzerine çalışmaktayım;
01:41
where we look at an image and try to find all of the objects,
32
101700
2936
görüntüye bakıp içerisindeki bütün nesneleri bulmaya çalışıyor,
01:44
put bounding boxes around them
33
104660
1456
etrafına sınırlayıcı kutu koyup
01:46
and say what those objects are.
34
106140
1520
nesneleri tanımlıyoruz.
01:48
So here's what happens when we run a detector on this image.
35
108220
3280
Bu görüntü üzerinde saptama uygulaması yapalım.
01:53
Now, with this kind of result,
36
113060
2256
Bu tarz bir bulgu ile,
01:55
we can do a lot more with our computer vision algorithms.
37
115340
2696
bilgisayarlı görme algoritması bizi daha ileriye taşıyabilir.
01:58
We see that it knows that there's a cat and a dog.
38
118060
2976
Kedi ve köpek olduğunu saptadığını biliyoruz.
02:01
It knows their relative locations,
39
121060
2256
Birbirleri arasındaki mesafeyi,
02:03
their size.
40
123340
1216
onların boyutlarını biliyor.
02:04
It may even know some extra information.
41
124580
1936
Daha fazlasını bile biliyor olabilir.
02:06
There's a book sitting in the background.
42
126540
1960
Arka planda bir kitap var.
02:09
And if you want to build a system on top of computer vision,
43
129100
3256
Bilgisayarlı görme üzerine bir sistem kurmak isterseniz,
02:12
say a self-driving vehicle or a robotic system,
44
132380
3456
sürücüsüz araç veya robot sistemi gibi,
02:15
this is the kind of information that you want.
45
135860
2456
bu tarz bir bilgiye ihtiyacınız olacaktır.
02:18
You want something so that you can interact with the physical world.
46
138340
3239
Dış dünya ile temas kurabileceğiniz bir şey olması gerekir.
02:22
Now, when I started working on object detection,
47
142579
2257
Nesne belirleme üzerine çalışmaya başladığımda,
02:24
it took 20 seconds to process a single image.
48
144860
3296
tek bir görüntüyü işlemesi 20 saniye sürüyordu.
02:28
And to get a feel for why speed is so important in this domain,
49
148180
3880
Hızın bu alanda neden bu denli önemli olduğundan bahsedecek olursak;
02:32
here's an example of an object detector
50
152940
2536
bir görüntüyü işlemesi 2 saniye süren
02:35
that takes two seconds to process an image.
51
155500
2416
bir nesne belirleyicisine göz atalım.
02:37
So this is 10 times faster
52
157940
2616
20 saniyede resmi işleyebilene göre,
02:40
than the 20-seconds-per-image detector,
53
160580
3536
10 kat daha hızlı çalışıyor
02:44
and you can see that by the time it makes predictions,
54
164140
2656
ve gördüğünüz üzere, o tahmin edene kadar,
02:46
the entire state of the world has changed,
55
166820
2040
dünyadaki bütün durum değişmiş oluyor
02:49
and this wouldn't be very useful
56
169700
2416
ve uygulamada
pek de fayda sağlamıyor.
02:52
for an application.
57
172140
1416
02:53
If we speed this up by another factor of 10,
58
173580
2496
Bir 10 kat daha hızlandıracak olursak,
02:56
this is a detector running at five frames per second.
59
176100
2816
bu işlemci her saniye 5 kare saptama gücüne sahip.
02:58
This is a lot better,
60
178940
1536
Durum çok daha iyi,
03:00
but for example,
61
180500
1976
ama örneğin;
03:02
if there's any significant movement,
62
182500
2296
kayda değer bir hareket durumu mevcutsa,
03:04
I wouldn't want a system like this driving my car.
63
184820
2560
böyle bir sistemin arabamı sürmesini istemezdim.
03:08
This is our detection system running in real time on my laptop.
64
188940
3240
Gördüğünüz, bilgisayarımdaki eş zamanlı belirleme sistemimiz.
03:12
So it smoothly tracks me as I move around the frame,
65
192820
3136
Kare etrafında hareket ederken, usulca beni takip ediyor;
03:15
and it's robust to a wide variety of changes in size,
66
195980
3720
boyut, duruş, ileri, geri gibi çok çeşitli değişkenlere
03:21
pose,
67
201260
1200
kolayca
03:23
forward, backward.
68
203100
1856
adapte olabiliyor.
03:24
This is great.
69
204980
1216
Harika.
03:26
This is what we really need
70
206220
1736
Bilgisayarlı görme üzerine sistem ekleyeceksek,
03:27
if we're going to build systems on top of computer vision.
71
207980
2896
işte tam da buna ihtiyacımız var.
03:30
(Applause)
72
210900
4000
(Alkış)
03:36
So in just a few years,
73
216100
2176
Birkaç yıl içinde,
03:38
we've gone from 20 seconds per image
74
218300
2656
kare başına 20 saniyeden
03:40
to 20 milliseconds per image, a thousand times faster.
75
220980
3536
kare başına 20 milisaniyeye geçtik, bu bin kat daha hızlı demek oluyor.
03:44
How did we get there?
76
224540
1416
Bunu nasıl başardık?
03:45
Well, in the past, object detection systems
77
225980
3016
Önceleri nesne belirleme sistemleri
03:49
would take an image like this
78
229020
1936
böyle bir kareyi alıp
03:50
and split it into a bunch of regions
79
230980
2456
onu birçok alana bölerdi
03:53
and then run a classifier on each of these regions,
80
233460
3256
ve bu bölgelerde sınıflandırıcı etklinleştirirdi
03:56
and high scores for that classifier
81
236740
2536
ve sınıflandırıcı daha çok çentiklenen kısmı,
03:59
would be considered detections in the image.
82
239300
3136
o karenin belirlenen alanı olarak kabul ediyordu.
04:02
But this involved running a classifier thousands of times over an image,
83
242460
4056
Bunu yapabilmek için o kare üzerinde sınıflandırıcıyı bin kez işlemeniz gerek,
04:06
thousands of neural network evaluations to produce detection.
84
246540
2920
belirleme yapabilmek için binlerce sinir ağı değerlendirmesi.
04:11
Instead, we trained a single network to do all of detection for us.
85
251060
4536
Bunun yerine, bütün belirlemeyi yapabilen tek bir ağ tasarladık.
04:15
It produces all of the bounding boxes and class probabilities simultaneously.
86
255620
4280
Bütün sınırlayıcı kutuları oluşturuyor ve aynı anda olasılıkları sınıflandırıyor.
04:20
With our system, instead of looking at an image thousands of times
87
260500
3496
Bu sistemle birlikte, tek bir kareye belirleme oluşturabilmek için
04:24
to produce detection,
88
264020
1456
bin kez bakmak yerine,
04:25
you only look once,
89
265500
1256
yalnızca bir kez bakıyorsunuz
04:26
and that's why we call it the YOLO method of object detection.
90
266780
2920
ve bu yüzden bu nesne belirleme sistemine YOLO adını verdik.
04:31
So with this speed, we're not just limited to images;
91
271180
3976
Bu hız görüntülerle sınırlı kalmıyor,
04:35
we can process video in real time.
92
275180
2416
videoları eş zamanlı olarak işleyebiliyoruz.
04:37
And now, instead of just seeing that cat and dog,
93
277620
3096
Ve artık sadece kedi ve köpek görmenin yanı sıra,
04:40
we can see them move around and interact with each other.
94
280740
2960
etrafta hareket edip birbirleriyle iletişimini de görebiliyoruz.
04:46
This is a detector that we trained
95
286380
2056
Microsoft'un COCO verisetindeki
04:48
on 80 different classes
96
288460
4376
80 farklı sınıfta
04:52
in Microsoft's COCO dataset.
97
292860
3256
bu belirleyiciyi geliştirdik.
04:56
It has all sorts of things like spoon and fork, bowl,
98
296140
3336
Kaşık, çatal, kase gibi her türlü sıradan nesneyi
04:59
common objects like that.
99
299500
1800
bünyesinde barındırıyor.
05:02
It has a variety of more exotic things:
100
302180
3096
Daha egzotik çeşitlilikleri de algılıyor;
05:05
animals, cars, zebras, giraffes.
101
305300
3256
hayvanlar, arabalar, zebralar, zürafalar.
05:08
And now we're going to do something fun.
102
308580
1936
Şimdi eğlenceli bir şey yapacağız.
05:10
We're just going to go out into the audience
103
310540
2096
Seyirciye yönelteceğiz
05:12
and see what kind of things we can detect.
104
312660
2016
ve neler belirleyeceğimize bir bakalım.
05:14
Does anyone want a stuffed animal?
105
314700
1620
Peluş hayvan isteyen var mı?
05:17
There are some teddy bears out there.
106
317820
1762
Ayısı olanlar var.
05:21
And we can turn down our threshold for detection a little bit,
107
321860
4536
Belirleme eşiğimizi birazcık düşürelim,
05:26
so we can find more of you guys out in the audience.
108
326420
3400
böylece sizleri daha çok görmüş oluruz.
05:31
Let's see if we can get these stop signs.
109
331380
2336
DUR işaretlerini algılayacak mı bakalım.
05:33
We find some backpacks.
110
333740
1880
Sırt çantaları görüyoruz.
05:37
Let's just zoom in a little bit.
111
337700
1840
Biraz daha yakınlaştıralım.
05:42
And this is great.
112
342140
1256
Harika.
05:43
And all of the processing is happening in real time
113
343420
3176
Bütün işlemler, bilgisayarda eş zamanlı olarak
05:46
on the laptop.
114
346620
1200
eşleşiyor.
05:48
And it's important to remember
115
348900
1456
Bu, genel kullanım amaçlı bir
05:50
that this is a general purpose object detection system,
116
350380
3216
nesne belirme sistemi,
05:53
so we can train this for any image domain.
117
353620
5000
dolayısıyla herhangi bir resim işleme alanında geliştirilebilir.
06:00
The same code that we use
118
360140
2536
DUR işaretlerini veya yayaları,
06:02
to find stop signs or pedestrians,
119
362700
2456
sürücüsüz araçları ve bisikletleri
06:05
bicycles in a self-driving vehicle,
120
365180
1976
belirlemede kullandığımız aynı kod,
06:07
can be used to find cancer cells
121
367180
2856
doku biyopsisinde kanser hücrelerini
06:10
in a tissue biopsy.
122
370060
3016
tespit etmede kullanılabilir.
06:13
And there are researchers around the globe already using this technology
123
373100
4040
Tıp, robotik gibi alanlarda ilerleme kaydetmek adına
06:18
for advances in things like medicine, robotics.
124
378060
3416
dünya çapında bu teknolojiyi kullanan araştırmacılar var.
06:21
This morning, I read a paper
125
381500
1376
Bu sabah gazetede,
06:22
where they were taking a census of animals in Nairobi National Park
126
382900
4576
Nairobi Milli Parkındaki hayvanların sayımını
06:27
with YOLO as part of this detection system.
127
387500
3136
YOLO belirleme sistemini kullanarak gerçekleştirdiklerini okudum.
06:30
And that's because Darknet is open source
128
390660
3096
Darknet açık kaynak olduğu için gerçekleşen bir hadise bu,
06:33
and in the public domain, free for anyone to use.
129
393780
2520
kamuya açık, erişime ücretsiz açık.
06:37
(Applause)
130
397420
5696
(Alkış)
06:43
But we wanted to make detection even more accessible and usable,
131
403140
4936
Fakat biz daha erişilebilir ve kullanışlı bir belirleme sağlamak istedik,
06:48
so through a combination of model optimization,
132
408100
4056
model uyumlaştırma düzeni,
06:52
network binarization and approximation,
133
412180
2296
ağ ikilileştirme ve uyum düzeni ile
06:54
we actually have object detection running on a phone.
134
414500
3920
telefonda kullanılabilen nesne belirleme sistemi geliştirdik.
07:04
(Applause)
135
424620
5320
(Alkış)
07:10
And I'm really excited because now we have a pretty powerful solution
136
430780
5056
Bu beni gerçekten heyecanlandırıyor, çünkü artık düşük seviyeli bilgisayarlı
07:15
to this low-level computer vision problem,
137
435860
2296
görme sorununa, oldukça güçlü bir çözüm bulmuş durumdayız
07:18
and anyone can take it and build something with it.
138
438180
3856
ve herkes kullanabilir ve bununla bir şey geliştirebilir.
07:22
So now the rest is up to all of you
139
442060
3176
Artık kalanı sizlere
07:25
and people around the world with access to this software,
140
445260
2936
ve dünya çapında bu yazılıma erişimi olanlara kalmış
07:28
and I can't wait to see what people will build with this technology.
141
448220
3656
ve insanların bu teknolojiyi kullanarak
neler ortaya koyacağını sabırsızlıkla bekliyorum.
07:31
Thank you.
142
451900
1216
Teşekkürler.
07:33
(Applause)
143
453140
3440
(Alkış)
Bu web sitesi hakkında

Bu site size İngilizce öğrenmek için yararlı olan YouTube videolarını tanıtacaktır. Dünyanın dört bir yanından birinci sınıf öğretmenler tarafından verilen İngilizce derslerini göreceksiniz. Videoyu oradan oynatmak için her video sayfasında görüntülenen İngilizce altyazılara çift tıklayın. Altyazılar video oynatımı ile senkronize olarak kayar. Herhangi bir yorumunuz veya isteğiniz varsa, lütfen bu iletişim formunu kullanarak bizimle iletişime geçin.

https://forms.gle/WvT1wiN1qDtmnspy7