How computers learn to recognize objects instantly | Joseph Redmon

1,121,269 views ・ 2017-08-18

TED


Vui lòng nhấp đúp vào phụ đề tiếng Anh bên dưới để phát video.

Translator: Mean Chow Reviewer: Ngoc Bui
00:12
Ten years ago,
0
12645
1151
Mười năm trước,
00:13
computer vision researchers thought that getting a computer
1
13820
2776
các nghiên cứu thị giác máy tính cho rằng để máy tính
00:16
to tell the difference between a cat and a dog
2
16620
2696
nhận biết được sự khác nhau giữa chó và mèo
00:19
would be almost impossible,
3
19340
1976
gần như là bất khả thi
00:21
even with the significant advance in the state of artificial intelligence.
4
21340
3696
cho dù với những tiến bộ đáng kể về trí tuệ nhân tạo.
00:25
Now we can do it at a level greater than 99 percent accuracy.
5
25060
3560
Giờ đây, chúng ta có thể thực hiện được điều đó với hơn 99% độ chính xác.
00:29
This is called image classification --
6
29500
1856
Đây được gọi là Phân lớp hình ảnh
00:31
give it an image, put a label to that image --
7
31380
3096
tức là cho một hình ảnh, dán nhãn cho hình ảnh đó
00:34
and computers know thousands of other categories as well.
8
34500
3040
và máy tính sẽ nhận diện hàng ngàn loại hình ảnh như vậy.
00:38
I'm a graduate student at the University of Washington,
9
38500
2896
Tôi là cử nhân của Đại học Washington,
00:41
and I work on a project called Darknet,
10
41420
1896
và đang làm việc cho dự án Darknet
00:43
which is a neural network framework
11
43340
1696
nó là một khung mạng lưới nơ-ron
00:45
for training and testing computer vision models.
12
45060
2816
dùng để điều chỉnh và kiểm tra các mô hình thị giác máy tính
00:47
So let's just see what Darknet thinks
13
47900
2976
Vậy cùng xem Darknet thấy gì
00:50
of this image that we have.
14
50900
1760
về bức ảnh mà chúng ta có ở đây.
00:54
When we run our classifier
15
54340
2336
Khi ta khởi động bộ phân lớp
00:56
on this image,
16
56700
1216
cho hình ảnh này
00:57
we see we don't just get a prediction of dog or cat,
17
57940
2456
ta thấy rằng ta không chỉ nhận được dự đoán về chó hay mèo
01:00
we actually get specific breed predictions.
18
60420
2336
mà thực sự còn có dự đoán về loài cụ thể.
01:02
That's the level of granularity we have now.
19
62780
2176
Đây là mức độ chi tiết chúng ta hiện có
01:04
And it's correct.
20
64980
1616
Và nó hoàn toàn chính xác.
01:06
My dog is in fact a malamute.
21
66620
1840
Con chó của tôi đúng là một con Malamute.
01:08
So we've made amazing strides in image classification,
22
68860
4336
Vậy chúng ta đã tạo ra một bước tiến vượt bậc trong phân lớp hình ảnh,
01:13
but what happens when we run our classifier
23
73220
2000
nhưng điều gì xảy ra khi khởi động bộ phân lớp
01:15
on an image that looks like this?
24
75244
1960
trên một hình ảnh như thế này?
01:18
Well ...
25
78900
1200
Ừm ...
01:24
We see that the classifier comes back with a pretty similar prediction.
26
84460
3896
Ta thấy rằng bộ phân lớp sẽ phản hồi với dự đoán tương tự như vậy.
01:28
And it's correct, there is a malamute in the image,
27
88380
3096
Và nó hoàn toàn chính xác, đúng là có một con malamute trong bức ảnh,
01:31
but just given this label, we don't actually know that much
28
91500
3696
nhưng nếu chỉ với thông tin này, chúng ta không thực sự hiểu rõ
01:35
about what's going on in the image.
29
95220
1667
về điều gì đang diễn ra trong bức ảnh đó.
01:36
We need something more powerful.
30
96911
1560
Chúng ta cần thứ gì đó mạnh mẽ hơn.
01:39
I work on a problem called object detection,
31
99060
2616
Tôi nghiên cứu về một vấn đề được gọi là Nhận diện vật thể
01:41
where we look at an image and try to find all of the objects,
32
101700
2936
nghĩa là chúng ta nhìn vào bức ảnh và cố tìm ra tất cả các đồ vật,
01:44
put bounding boxes around them
33
104660
1456
đặt các hộp giới hạn xung quanh chúng
01:46
and say what those objects are.
34
106140
1520
và chỉ ra những vật đó là gì
01:48
So here's what happens when we run a detector on this image.
35
108220
3280
Sau đây là những gì sẽ xảy ra khi chúng ta nhận diện bức ảnh này.
01:53
Now, with this kind of result,
36
113060
2256
Với kết quả này,
01:55
we can do a lot more with our computer vision algorithms.
37
115340
2696
chúng ta có thể làm được nhiều điều hơn với những thuật toán thị giác máy tính.
01:58
We see that it knows that there's a cat and a dog.
38
118060
2976
Nó nhận ra trong ảnh có một con chó và một con mèo
02:01
It knows their relative locations,
39
121060
2256
Nó biết vị trí của chúng,
02:03
their size.
40
123340
1216
kích thước của chúng.
02:04
It may even know some extra information.
41
124580
1936
Thậm chí nó có thể biết thêm nhiều thông tin nữa.
02:06
There's a book sitting in the background.
42
126540
1960
ví dụ như có quyển sách ở phía sau
02:09
And if you want to build a system on top of computer vision,
43
129100
3256
Và nếu bạn muốn xây dựng một hệ thống dựa vào thị giác máy tính,
02:12
say a self-driving vehicle or a robotic system,
44
132380
3456
như xe hơi tự lái hay hệ thống robot,
02:15
this is the kind of information that you want.
45
135860
2456
đây chính là thông tin mà bạn cần.
02:18
You want something so that you can interact with the physical world.
46
138340
3239
Bạn muốn thứ gì đó để bạn có thể tương tác với thế giới thực.
02:22
Now, when I started working on object detection,
47
142579
2257
Giờ, khi tôi bắt đầu khởi động nhận diện vật thể,
02:24
it took 20 seconds to process a single image.
48
144860
3296
sẽ mất 20 giây để xử lý một hình ảnh.
02:28
And to get a feel for why speed is so important in this domain,
49
148180
3880
Và để hiểu tại sao tốc độ lại quan trọng đến thế,
02:32
here's an example of an object detector
50
152940
2536
đây sẽ là ví dụ: một bộ nhận diện vật thể
02:35
that takes two seconds to process an image.
51
155500
2416
mất 2 giây để xử lý tấm ảnh.
02:37
So this is 10 times faster
52
157940
2616
Vì thế nó nhanh gấp 10 lần
02:40
than the 20-seconds-per-image detector,
53
160580
3536
so với bộ nhận diện 20 giây/ảnh
02:44
and you can see that by the time it makes predictions,
54
164140
2656
và bạn có thể nhận ra rằng, vào lúc nó đưa ra dự đoán xong
02:46
the entire state of the world has changed,
55
166820
2040
thì tất cả các trạng thái đã thay đổi,
02:49
and this wouldn't be very useful
56
169700
2416
và vì thế nó sẽ không còn thực sự có ích
02:52
for an application.
57
172140
1416
cho một ứng dụng.
02:53
If we speed this up by another factor of 10,
58
173580
2496
Nếu chúng ta tăng tốc nó lên theo hệ số 10
02:56
this is a detector running at five frames per second.
59
176100
2816
nó sẽ nhận diện 5 ảnh/giây.
02:58
This is a lot better,
60
178940
1536
Nó thực sự vượt trội hơn nhiều,
03:00
but for example,
61
180500
1976
nhưng ví dụ,
03:02
if there's any significant movement,
62
182500
2296
nếu có bất kì chuyển động đáng kể nào,
03:04
I wouldn't want a system like this driving my car.
63
184820
2560
tôi sẽ không muốn một hệ thống như này điều khiển chiếc xe của mình.
03:08
This is our detection system running in real time on my laptop.
64
188940
3240
Đây là hệ thống nhận diện theo thời gian thực đang chạy trên laptop của tôi
03:12
So it smoothly tracks me as I move around the frame,
65
192820
3136
Vì vậy nó dễ dàng theo dõi tôi khi tôi di chuyển xung quanh khung hình,
03:15
and it's robust to a wide variety of changes in size,
66
195980
3720
và nó rất nhanh nhạy với các thay đổi về kích thước,
03:21
pose,
67
201260
1200
tư thế,
03:23
forward, backward.
68
203100
1856
về phía trước, phía sau.
03:24
This is great.
69
204980
1216
Điều này thật tuyệt.
03:26
This is what we really need
70
206220
1736
Đây chính xác là gì chúng ta cần
03:27
if we're going to build systems on top of computer vision.
71
207980
2896
nếu ta định xây dựng một hệ thống dựa trên thị giác máy tính.
03:30
(Applause)
72
210900
4000
(Tiếng vỗ tay)
03:36
So in just a few years,
73
216100
2176
Vì vậy chỉ trong vài năm,
03:38
we've gone from 20 seconds per image
74
218300
2656
chúng ta chuyển từ 20 giây/ảnh
03:40
to 20 milliseconds per image, a thousand times faster.
75
220980
3536
sang 20 phần nghìn giây/ảnh, nhanh gấp nghìn lần.
03:44
How did we get there?
76
224540
1416
Chúng ta đã tiến tới đó bằng cách nào?
03:45
Well, in the past, object detection systems
77
225980
3016
Trong quá khứ, các hệ thống nhận diện vật thể
03:49
would take an image like this
78
229020
1936
sẽ xử lí một hình ảnh như này,
03:50
and split it into a bunch of regions
79
230980
2456
và chia nó thành các vùng,
03:53
and then run a classifier on each of these regions,
80
233460
3256
sau đó chạy bộ nhận diện trên từng vùng,
03:56
and high scores for that classifier
81
236740
2536
điểm nổi trội nhất trong vùng nhận diện
03:59
would be considered detections in the image.
82
239300
3136
sẽ được tính là kết quả.
04:02
But this involved running a classifier thousands of times over an image,
83
242460
4056
Nhưng điều này cũng đồng nghĩa với hàng nghìn lần nhận diện trên một hình,
04:06
thousands of neural network evaluations to produce detection.
84
246540
2920
hàng nghìn đánh giá của mạng lưới nơ-rôn để đi đến được kết quả.
04:11
Instead, we trained a single network to do all of detection for us.
85
251060
4536
Thay vào đó, chúng ta có một mạng lưới duy nhất tiến hành tất cả các nhận diện,
04:15
It produces all of the bounding boxes and class probabilities simultaneously.
86
255620
4280
tạo ra đồng thời tất cả các hộp giới hạn và các khả năng
04:20
With our system, instead of looking at an image thousands of times
87
260500
3496
Với hệ thống của chúng tôi, thay vì "nhìn" bức ảnh hàng ngàn lần
04:24
to produce detection,
88
264020
1456
để đưa ra nhận diện,
04:25
you only look once,
89
265500
1256
You Only Look Once (Chỉ nhìn một lần)
04:26
and that's why we call it the YOLO method of object detection.
90
266780
2920
Phương pháp YOLO để nhận diện vật thể.
04:31
So with this speed, we're not just limited to images;
91
271180
3976
Tốc độ này khiến ta không bị giới hạn chỉ trong Ảnh
04:35
we can process video in real time.
92
275180
2416
mà còn nhận diện trong Video theo thời gian thực.
04:37
And now, instead of just seeing that cat and dog,
93
277620
3096
Giờ, thay vì chỉ thấy chó và mèo,
04:40
we can see them move around and interact with each other.
94
280740
2960
ta còn thấy chúng di chuyển và đùa giỡn.
04:46
This is a detector that we trained
95
286380
2056
Đây là bộ nhận diện được phát triển
04:48
on 80 different classes
96
288460
4376
với 80 hạng mục khác nhau
04:52
in Microsoft's COCO dataset.
97
292860
3256
thuộc COCO dataset của Microsoft.
04:56
It has all sorts of things like spoon and fork, bowl,
98
296140
3336
Có đủ thứ hết, như muỗng, nĩa, tô,...
04:59
common objects like that.
99
299500
1800
những vật dụng thông thường như vậy.
05:02
It has a variety of more exotic things:
100
302180
3096
Và có những mục thú vị:
05:05
animals, cars, zebras, giraffes.
101
305300
3256
động vật, xe hơi, ngựa vằn, hươu cao cổ.
05:08
And now we're going to do something fun.
102
308580
1936
Giờ đến trò vui nè
05:10
We're just going to go out into the audience
103
310540
2096
Tôi sẽ đến chỗ khán giả
05:12
and see what kind of things we can detect.
104
312660
2016
và xem nó nhận diện được những thứ gì nhé.
05:14
Does anyone want a stuffed animal?
105
314700
1620
Ai muốn thú nhồi bông nào?
05:17
There are some teddy bears out there.
106
317820
1762
Gấu bông nè.
05:21
And we can turn down our threshold for detection a little bit,
107
321860
4536
Mở rộng khu vực nhận diện ra một chút
05:26
so we can find more of you guys out in the audience.
108
326420
3400
để thấy được nhiều người hơn.
05:31
Let's see if we can get these stop signs.
109
331380
2336
Để xem, biển cấm này
05:33
We find some backpacks.
110
333740
1880
Tìm được vài cái balo
05:37
Let's just zoom in a little bit.
111
337700
1840
Phóng to một tí
05:42
And this is great.
112
342140
1256
Thật tuyệt.
05:43
And all of the processing is happening in real time
113
343420
3176
Tất cả các quá trình đang diễn ra trong thời gian thực
05:46
on the laptop.
114
346620
1200
trên laptop.
05:48
And it's important to remember
115
348900
1456
Điều quan trọng cần nhớ,
05:50
that this is a general purpose object detection system,
116
350380
3216
đây là hệ thống nhận diện cho-mọi-mục-đích
05:53
so we can train this for any image domain.
117
353620
5000
nên có thể áp dụng cho mọi ứng dụng khác.
06:00
The same code that we use
118
360140
2536
Cùng một đoạn code này
06:02
to find stop signs or pedestrians,
119
362700
2456
có thể tìm biển cấm, người đi bộ,
06:05
bicycles in a self-driving vehicle,
120
365180
1976
xe đạp,...nếu áp dụng cho xe tự lái;
06:07
can be used to find cancer cells
121
367180
2856
có thể dùng để tìm tế bào ung thư
06:10
in a tissue biopsy.
122
370060
3016
trong một sinh thiết mô.
06:13
And there are researchers around the globe already using this technology
123
373100
4040
Khắp thế giới đã có những nhà nghiên cứu áp dụng công nghệ này
06:18
for advances in things like medicine, robotics.
124
378060
3416
để phát triển trong ngành dược, chế tạo robot.
06:21
This morning, I read a paper
125
381500
1376
Sáng nay tôi đọc được tin
06:22
where they were taking a census of animals in Nairobi National Park
126
382900
4576
người ta điều tra số lượng cá thể động vật ở Công viên Quốc gia Nairobi
06:27
with YOLO as part of this detection system.
127
387500
3136
với sự đóng góp của YOLO trong hệ thống nhận dạng.
06:30
And that's because Darknet is open source
128
390660
3096
Và bởi vì Darknet là nguồn mở
06:33
and in the public domain, free for anyone to use.
129
393780
2520
thuộc miền công cộng và miễn phí cho tất cả mọi người
06:37
(Applause)
130
397420
5696
(Tiếng vỗ tay)
06:43
But we wanted to make detection even more accessible and usable,
131
403140
4936
Nhưng chúng tôi muốn việc nhận diện trở nên dễ tiếp cận và dễ sử dụng hơn nữa
06:48
so through a combination of model optimization,
132
408100
4056
nên qua sự kết hợp của mô hình tối ưu hóa
06:52
network binarization and approximation,
133
412180
2296
nhị phân hóa hệ thống và phép xấp xỉ.
06:54
we actually have object detection running on a phone.
134
414500
3920
chúng ta thực sự đã có thể nhận diện vật thể bằng điện thoại.
07:04
(Applause)
135
424620
5320
(Tiếng vỗ tay)
07:10
And I'm really excited because now we have a pretty powerful solution
136
430780
5056
Và tôi thực sự hào hứng vì giờ chúng ta đã có một giải pháp hữu hiệu
07:15
to this low-level computer vision problem,
137
435860
2296
cho vấn đề thị giác máy tính kém,
07:18
and anyone can take it and build something with it.
138
438180
3856
ai cũng có thể sở hữu và từ nó tạo nên những thứ khác nữa.
07:22
So now the rest is up to all of you
139
442060
3176
Vậy nên từ giờ phần còn lại phụ thuộc vào các bạn
07:25
and people around the world with access to this software,
140
445260
2936
và mọi người trên thế giới qua việc truy cập vào phần mềm này
07:28
and I can't wait to see what people will build with this technology.
141
448220
3656
tôi rất háo hức mong đợi những gì sẽ được tạo ra từ công nghệ này.
07:31
Thank you.
142
451900
1216
Xin cảm ơn.
07:33
(Applause)
143
453140
3440
(Tiếng vỗ tay)
Về trang web này

Trang web này sẽ giới thiệu cho bạn những video YouTube hữu ích cho việc học tiếng Anh. Bạn sẽ thấy các bài học tiếng Anh được giảng dạy bởi các giáo viên hàng đầu từ khắp nơi trên thế giới. Nhấp đúp vào phụ đề tiếng Anh hiển thị trên mỗi trang video để phát video từ đó. Phụ đề cuộn đồng bộ với phát lại video. Nếu bạn có bất kỳ nhận xét hoặc yêu cầu nào, vui lòng liên hệ với chúng tôi bằng biểu mẫu liên hệ này.

https://forms.gle/WvT1wiN1qDtmnspy7