How computers learn to recognize objects instantly | Joseph Redmon

1,119,896 views ・ 2017-08-18

TED


Silakan klik dua kali pada teks bahasa Inggris di bawah ini untuk memutar video.

Translator: Ivana Setiadi Reviewer: Rifkul Uswati
00:12
Ten years ago,
0
12645
1151
Sepuluh tahun lalu,
00:13
computer vision researchers thought that getting a computer
1
13820
2776
peneliti penglihatan komputer merasa bahwa memerintahkan
00:16
to tell the difference between a cat and a dog
2
16620
2696
komputer membedakan kucing dan anjing
00:19
would be almost impossible,
3
19340
1976
hampir dikatakan mustahil,
00:21
even with the significant advance in the state of artificial intelligence.
4
21340
3696
bahkan dengan kemajuan signifikan dalam bidang kecerdasan buatan.
00:25
Now we can do it at a level greater than 99 percent accuracy.
5
25060
3560
Sekarang, kita dapat melakukannya dengan akurasi lebih dari 99 persen.
00:29
This is called image classification --
6
29500
1856
Inilah yang disebut klasifikasi gambar,
00:31
give it an image, put a label to that image --
7
31380
3096
taruhlah satu gambar, beri label gambar itu,
00:34
and computers know thousands of other categories as well.
8
34500
3040
dan komputer juga akan tahu ribuan kategori lainnya.
00:38
I'm a graduate student at the University of Washington,
9
38500
2896
Saya mahasiswa pascasarjana di University of Washington,
00:41
and I work on a project called Darknet,
10
41420
1896
dan sedang mengerjakan projek Darknet,
00:43
which is a neural network framework
11
43340
1696
yaitu kerangka kerja jaringan saraf
00:45
for training and testing computer vision models.
12
45060
2816
untuk melatih dan menguji model penglihatan komputer.
00:47
So let's just see what Darknet thinks
13
47900
2976
Mari kita lihat apa yang Darknet pikirkan
00:50
of this image that we have.
14
50900
1760
mengenai gambar ini.
00:54
When we run our classifier
15
54340
2336
Saat kita menjalankan alat klasifikasi
00:56
on this image,
16
56700
1216
pada gambar ini,
00:57
we see we don't just get a prediction of dog or cat,
17
57940
2456
kita melihat tidak hanya prediksi anjing dan kucing,
01:00
we actually get specific breed predictions.
18
60420
2336
tetapi juga prediksi turunannya secara spesifik.
01:02
That's the level of granularity we have now.
19
62780
2176
Kita juga mendapat prediksi lebih detail lagi.
01:04
And it's correct.
20
64980
1616
Yap, itu benar.
01:06
My dog is in fact a malamute.
21
66620
1840
Anjing saya memang dari jenis malamute.
01:08
So we've made amazing strides in image classification,
22
68860
4336
Kita sudah membuat langkah luar biasa dalam klasifikasi gambar,
01:13
but what happens when we run our classifier
23
73220
2000
bagaimana jika alat klasifikasi dijalankan
01:15
on an image that looks like this?
24
75244
1960
pada gambar seperti ini?
01:18
Well ...
25
78900
1200
Mari kita lihat...
01:24
We see that the classifier comes back with a pretty similar prediction.
26
84460
3896
Alat klasifikasi memberikan prediksi yang lumayan mirip.
01:28
And it's correct, there is a malamute in the image,
27
88380
3096
Yap, itu benar, ada seekor malamute dalam gambar,
01:31
but just given this label, we don't actually know that much
28
91500
3696
tapi jika hanya dari labelnya, kita tidak tahu banyak tentang
01:35
about what's going on in the image.
29
95220
1667
apa yang terjadi dalam gambar itu.
01:36
We need something more powerful.
30
96911
1560
Kita butuh lebih dari itu.
01:39
I work on a problem called object detection,
31
99060
2616
Saya memikirkan satu persoalan disebut deteksi objek,
01:41
where we look at an image and try to find all of the objects,
32
101700
2936
yaitu kita melihat gambar dan mencoba mencari semua objek,
01:44
put bounding boxes around them
33
104660
1456
membuat kotak pembatas,
01:46
and say what those objects are.
34
106140
1520
dan melabeli semua objek itu.
01:48
So here's what happens when we run a detector on this image.
35
108220
3280
Jadi, seperti inilah jika detektor dijalankan pada gambar.
01:53
Now, with this kind of result,
36
113060
2256
Dengan hasil seperti ini, banyak yang bisa
01:55
we can do a lot more with our computer vision algorithms.
37
115340
2696
dilakukan dengan algoritme penglihatan komputer.
01:58
We see that it knows that there's a cat and a dog.
38
118060
2976
Bisa kita lihat bahwa komputer tahu ada kucing dan anjing,
02:01
It knows their relative locations,
39
121060
2256
tahu lokasi relatif dan juga
02:03
their size.
40
123340
1216
ukuran hewan-hewan itu.
02:04
It may even know some extra information.
41
124580
1936
Bahkan ia juga tahu informasi lainya.
02:06
There's a book sitting in the background.
42
126540
1960
Ada buku di belakang sana.
02:09
And if you want to build a system on top of computer vision,
43
129100
3256
Jika Anda ingin membuat sistem berkekuatan penglihatan komputer,
02:12
say a self-driving vehicle or a robotic system,
44
132380
3456
misalnya mobil otonom atau sistem robotika,
02:15
this is the kind of information that you want.
45
135860
2456
inilah jenis informasi yang Anda inginkan.
02:18
You want something so that you can interact with the physical world.
46
138340
3239
Ada tentu butuh sesuatu agar dapat berinteraksi dengan dunia fisik.
02:22
Now, when I started working on object detection,
47
142579
2257
Ketika mulai mengerjakan deteksi objek,
02:24
it took 20 seconds to process a single image.
48
144860
3296
butuh waktu 20 detik untuk memproses satu gambar.
02:28
And to get a feel for why speed is so important in this domain,
49
148180
3880
Agar Anda memahami alasan betapa kecepatan sangat penting dalam domain ini,
02:32
here's an example of an object detector
50
152940
2536
inilah contoh pendeteksi objek
02:35
that takes two seconds to process an image.
51
155500
2416
yang butuh waktu 2 detik untuk memproses 1 gambar.
02:37
So this is 10 times faster
52
157940
2616
Proses ini 10 kali lebih cepat
02:40
than the 20-seconds-per-image detector,
53
160580
3536
daripada alat deteksi 20-detik-per-gambar,
02:44
and you can see that by the time it makes predictions,
54
164140
2656
dan dapat Anda lihat bahwa selagi komputer memprediksi,
02:46
the entire state of the world has changed,
55
166820
2040
keadaan lingkungan sekitarnya berubah,
02:49
and this wouldn't be very useful
56
169700
2416
tentu hal ini tidak akan berguna
02:52
for an application.
57
172140
1416
bagi aplikasi.
02:53
If we speed this up by another factor of 10,
58
173580
2496
Jika kita tingkatkan kecepatan hingga 10 kali lipat,
02:56
this is a detector running at five frames per second.
59
176100
2816
pendeteksi ini berjalan dengan lima bingkai per detik.
02:58
This is a lot better,
60
178940
1536
Dan menjadi jauh lebih baik,
03:00
but for example,
61
180500
1976
tetapi seandainya,
03:02
if there's any significant movement,
62
182500
2296
ada pergerakan yang signifikan,
03:04
I wouldn't want a system like this driving my car.
63
184820
2560
saya tidak ingin sistem ini mengemudikan mobil saya.
03:08
This is our detection system running in real time on my laptop.
64
188940
3240
Sistem deteksi kita ini beroperasi di laptop dalam waktu nyata.
03:12
So it smoothly tracks me as I move around the frame,
65
192820
3136
Dengan mulus ia melacak selagi saya bergerak di sekitar bingkai,
03:15
and it's robust to a wide variety of changes in size,
66
195980
3720
dan cekatan dalam mendeteksi berbagai perubahan ukuran,
03:21
pose,
67
201260
1200
pose,
03:23
forward, backward.
68
203100
1856
ke depan, ke belakang.
03:24
This is great.
69
204980
1216
Luar biasa.
03:26
This is what we really need
70
206220
1736
Ini yang sangat kita butuhkan
03:27
if we're going to build systems on top of computer vision.
71
207980
2896
jika akan membuat sistem berkekuatan penglihatan komputer.
03:30
(Applause)
72
210900
4000
(Tepuk tangan)
03:36
So in just a few years,
73
216100
2176
Hanya dalam beberapa tahun,
03:38
we've gone from 20 seconds per image
74
218300
2656
ada kemajuan dari 20 detik per gambar
03:40
to 20 milliseconds per image, a thousand times faster.
75
220980
3536
menjadi 20 milidetik per gambar, seribu kali lebih cepat.
03:44
How did we get there?
76
224540
1416
Bagaimana bisa demikian?
03:45
Well, in the past, object detection systems
77
225980
3016
Dulu, sistem deteksi objek
03:49
would take an image like this
78
229020
1936
menggunakan gambar seperti ini
03:50
and split it into a bunch of regions
79
230980
2456
dan membaginya menjadi sekelompok area
03:53
and then run a classifier on each of these regions,
80
233460
3256
lalu menjalankan alat klasifikasi pada masing-masing area,
03:56
and high scores for that classifier
81
236740
2536
dan skor tinggi dari alat klasifikasi
03:59
would be considered detections in the image.
82
239300
3136
dianggap sebagai deteksi dalam gambar.
04:02
But this involved running a classifier thousands of times over an image,
83
242460
4056
Tetapi metode ini mengharuskan ribuan kali deteksi pada satu gambar,
04:06
thousands of neural network evaluations to produce detection.
84
246540
2920
ribuan evaluasi kerangka saraf untuk menghasilkan deteksi.
04:11
Instead, we trained a single network to do all of detection for us.
85
251060
4536
Alih-alih, kami melatih satu jaringan untuk melakukan semua deteksi.
04:15
It produces all of the bounding boxes and class probabilities simultaneously.
86
255620
4280
Jaringan itu memunculkan kotak pembatas sekaligus probabilitas kelas.
04:20
With our system, instead of looking at an image thousands of times
87
260500
3496
Dengan sistem ini, alih-alih melihat satu gambar ribuan kali
04:24
to produce detection,
88
264020
1456
untuk menghasilkan deteksi,
04:25
you only look once,
89
265500
1256
Anda cukup lihat sekali,
04:26
and that's why we call it the YOLO method of object detection.
90
266780
2920
oleh karena itulah kami menyebutnya metode deteksi objek YOLO.
04:31
So with this speed, we're not just limited to images;
91
271180
3976
Dengan kecepatan seperti ini, kita dapat memproses tidak hanya gambar,
04:35
we can process video in real time.
92
275180
2416
tetapi juga video dalam waktu nyata.
04:37
And now, instead of just seeing that cat and dog,
93
277620
3096
Sehingga, alih-alih hanya melihat kucing dan anjing,
04:40
we can see them move around and interact with each other.
94
280740
2960
kita juga dapat melihat hewan ini bergerak dan berinteraksi.
04:46
This is a detector that we trained
95
286380
2056
Inilah pendeteksi yang kami latih
04:48
on 80 different classes
96
288460
4376
pada 80 kelas berbeda
04:52
in Microsoft's COCO dataset.
97
292860
3256
dalam dataset COCO milik Microsoft.
04:56
It has all sorts of things like spoon and fork, bowl,
98
296140
3336
Dataset ini memiliki semua jenis benda, sendok dan garpu, mangkuk
04:59
common objects like that.
99
299500
1800
benda-benda umum semacam itu.
05:02
It has a variety of more exotic things:
100
302180
3096
Juga ada beragam benda eksotik lainnya:
05:05
animals, cars, zebras, giraffes.
101
305300
3256
binatang, mobil, zebra, jerapah.
05:08
And now we're going to do something fun.
102
308580
1936
Mari kita lakukan sesuatu yang menarik.
05:10
We're just going to go out into the audience
103
310540
2096
Saya akan mengarahkan kamera ke penonton
05:12
and see what kind of things we can detect.
104
312660
2016
dan lihatlah benda yang dapat terdeteksi.
05:14
Does anyone want a stuffed animal?
105
314700
1620
Ada yang mau boneka hewan?
05:17
There are some teddy bears out there.
106
317820
1762
Ada beberapa boneka beruang di sana.
05:21
And we can turn down our threshold for detection a little bit,
107
321860
4536
Kita dapat menurunkan ambang pendeteksinya sedikit,
05:26
so we can find more of you guys out in the audience.
108
326420
3400
agar ia dapat mendeteksi lebih banyak penonton.
05:31
Let's see if we can get these stop signs.
109
331380
2336
Ada rambu berhenti yang terdeteksi.
05:33
We find some backpacks.
110
333740
1880
Ada tas ransel.
05:37
Let's just zoom in a little bit.
111
337700
1840
Mari kita perbesar sedikit.
05:42
And this is great.
112
342140
1256
Luar biasa.
05:43
And all of the processing is happening in real time
113
343420
3176
Semua proses ini terjadi saat ini juga
05:46
on the laptop.
114
346620
1200
dengan laptop.
05:48
And it's important to remember
115
348900
1456
Penting untuk diingat bahwa
05:50
that this is a general purpose object detection system,
116
350380
3216
inilah tujuan umum sistem deteksi objek,
05:53
so we can train this for any image domain.
117
353620
5000
agar kami dapat melatihnya pada domain gambar mana pun.
06:00
The same code that we use
118
360140
2536
Kode yang sama yang kita pakai untuk
06:02
to find stop signs or pedestrians,
119
362700
2456
menemukan tanda berhenti atau pejalan kaki,
06:05
bicycles in a self-driving vehicle,
120
365180
1976
sepeda dan mobil otonom,
06:07
can be used to find cancer cells
121
367180
2856
yang dapat dipakai untuk menemukan sel kanker
06:10
in a tissue biopsy.
122
370060
3016
dalam biopsi jaringan.
06:13
And there are researchers around the globe already using this technology
123
373100
4040
Ada banyak peneliti di seluruh dunia yang sudah menggunakan teknologi ini
06:18
for advances in things like medicine, robotics.
124
378060
3416
untuk pengembangan dalam obat-obatan, robotika.
06:21
This morning, I read a paper
125
381500
1376
Tadi pagi saya membaca koran
06:22
where they were taking a census of animals in Nairobi National Park
126
382900
4576
bahwa ada sensus binatang di Taman Nasional Nairobi
06:27
with YOLO as part of this detection system.
127
387500
3136
menggunakan YOLO sebagai bagian dari sistem deteksi ini.
06:30
And that's because Darknet is open source
128
390660
3096
Itu karena Darknet adalah sumber terbuka
06:33
and in the public domain, free for anyone to use.
129
393780
2520
ada di domain publik, gratis untuk siapa saja.
06:37
(Applause)
130
397420
5696
(Tepuk tangan)
06:43
But we wanted to make detection even more accessible and usable,
131
403140
4936
Tapi kami ingin agar teknologi ini lebih mudah diperoleh dan berguna,
06:48
so through a combination of model optimization,
132
408100
4056
jadi melalui kombinasi pengoptimalan model,
06:52
network binarization and approximation,
133
412180
2296
binarisasi dan pendekatan jaringan,
06:54
we actually have object detection running on a phone.
134
414500
3920
kita punya deteksi obyek yang berjalan dalam ponsel.
07:04
(Applause)
135
424620
5320
(Tepuk tangan)
07:10
And I'm really excited because now we have a pretty powerful solution
136
430780
5056
Dan saya sangat senang karena sekarang ada solusi yang cukup kuat
07:15
to this low-level computer vision problem,
137
435860
2296
atas masalah penglihatan komputer level rendah,
07:18
and anyone can take it and build something with it.
138
438180
3856
dan siapa pun boleh mengambil dan membuat sesuatu dengan memakainya.
07:22
So now the rest is up to all of you
139
442060
3176
Selebihnya terserah Anda dan orang-orang
07:25
and people around the world with access to this software,
140
445260
2936
di seluruh dunia yang mengakses perangkat lunak ini,
07:28
and I can't wait to see what people will build with this technology.
141
448220
3656
saya tidak sabar ingin melihat apa yang mereka buat dengan teknologi ini.
07:31
Thank you.
142
451900
1216
Terima kasih.
07:33
(Applause)
143
453140
3440
(Tepuk tangan)
Tentang situs web ini

Situs ini akan memperkenalkan Anda pada video YouTube yang berguna untuk belajar bahasa Inggris. Anda akan melihat pelajaran bahasa Inggris yang diajarkan oleh guru-guru terbaik dari seluruh dunia. Klik dua kali pada subtitle bahasa Inggris yang ditampilkan di setiap halaman video untuk memutar video dari sana. Subtitle bergulir selaras dengan pemutaran video. Jika Anda memiliki komentar atau permintaan, silakan hubungi kami menggunakan formulir kontak ini.

https://forms.gle/WvT1wiN1qDtmnspy7