How computers learn to recognize objects instantly | Joseph Redmon

1,123,328 views ・ 2017-08-18

TED


वीडियो चलाने के लिए कृपया नीचे दिए गए अंग्रेजी उपशीर्षक पर डबल-क्लिक करें।

Translator: Dr Prem P. Atreja Reviewer: Arvind Patil
00:12
Ten years ago,
0
12645
1151
दस साल पहले,
00:13
computer vision researchers thought that getting a computer
1
13820
2776
कंप्यूटर दृष्टि शोधकर्ताओं ने सोचा था कि एक कंप्यूटर द्वारा
00:16
to tell the difference between a cat and a dog
2
16620
2696
एक बिल्ली और एक कुत्ते के बीच अंतर बताना
00:19
would be almost impossible,
3
19340
1976
लगभग असंभव होगा,
00:21
even with the significant advance in the state of artificial intelligence.
4
21340
3696
कृत्रिम बुद्धि में महत्वपूर्ण प्रगति के बावजूद भी
00:25
Now we can do it at a level greater than 99 percent accuracy.
5
25060
3560
अब हम इसे 99 प्रतिशत से भी अधिक यथार्थता के साथ कर सकते हैं
00:29
This is called image classification --
6
29500
1856
इसे छबी वर्गीकरण कहा जाता है -
00:31
give it an image, put a label to that image --
7
31380
3096
इसे एक छबी दें, उस छवि पर एक लेबल डालें -
00:34
and computers know thousands of other categories as well.
8
34500
3040
और कंप्यूटर हजारों अन्य श्रेणीयां भी जानते हैं
00:38
I'm a graduate student at the University of Washington,
9
38500
2896
मैं वॉशिंगटन विश्वविद्यालय में एक स्नातक छात्र हूँ,
00:41
and I work on a project called Darknet,
10
41420
1896
मैं डार्कनेट परियोजना पर काम करता हूं,
00:43
which is a neural network framework
11
43340
1696
जो एक तंत्रिका नेटवर्क ढांचा है
00:45
for training and testing computer vision models.
12
45060
2816
कंप्यूटर दृष्टि मॉडल के प्रशिक्षण और परीक्षण के लिए
00:47
So let's just see what Darknet thinks
13
47900
2976
चलो देखते हैं कि डार्कनेट क्या सोचता है?
00:50
of this image that we have.
14
50900
1760
इस छवि के बारे में, जो हमारे पास है.
00:54
When we run our classifier
15
54340
2336
जब हम अपने वर्गीकारक को
00:56
on this image,
16
56700
1216
इस छवि पर चलाते हैं.
00:57
we see we don't just get a prediction of dog or cat,
17
57940
2456
फिर हम केवल कुत्ते या बिल्ली का ही नहीं ,
01:00
we actually get specific breed predictions.
18
60420
2336
वास्तव में हमें विशिष्ट नस्ल का पूर्वानुमान भी हो जाता है
01:02
That's the level of granularity we have now.
19
62780
2176
अब ग्रैन्युलैरिटी का यह स्तर है
01:04
And it's correct.
20
64980
1616
और यह सही है
01:06
My dog is in fact a malamute.
21
66620
1840
मेरा कुत्ता वास्तव मेंअलास्का का है
01:08
So we've made amazing strides in image classification,
22
68860
4336
इसलिए हमने आश्चर्यजनक प्रगति की है छवि वर्गीकरण में,
01:13
but what happens when we run our classifier
23
73220
2000
लेकिन क्या होता है जब हम अपने वर्गीकारक को चलाते हैं
01:15
on an image that looks like this?
24
75244
1960
ऐसी छवि पर जो इस तरह दिखती है?
01:18
Well ...
25
78900
1200
अच्छा तो ...
01:24
We see that the classifier comes back with a pretty similar prediction.
26
84460
3896
हम देखते हैं कि क्लासिफायर वापस आता है एक बहुत ही समान भविष्यवाणी के साथ
01:28
And it's correct, there is a malamute in the image,
27
88380
3096
और यह सही है,छबी में एक मलम्यूट है,
01:31
but just given this label, we don't actually know that much
28
91500
3696
लेकिन सिर्फ इस लेबल से , हम वास्तव में इतना नहीं जानते हैं
01:35
about what's going on in the image.
29
95220
1667
कि छवि में क्या हो रहा है?
01:36
We need something more powerful.
30
96911
1560
हमें कुछ अधिक शक्तिशाली चाहिए।
मैं वस्तु का पता लगाने की समस्या पर काम करता हूँ,
01:39
I work on a problem called object detection,
31
99060
2616
01:41
where we look at an image and try to find all of the objects,
32
101700
2936
जहां हम एक छवि को देखते हैं, वस्तुओं को खोजने का प्रयास करते हैं,
01:44
put bounding boxes around them
33
104660
1456
उनके आसपास बाउंडिंग बक्से लगाते हैं
01:46
and say what those objects are.
34
106140
1520
और कहते हैं कि वे वस्तुओं क्या हैं?
01:48
So here's what happens when we run a detector on this image.
35
108220
3280
जब हम इस छवि पर डिटेक्टर चलाते हैं तो यह होता है।
01:53
Now, with this kind of result,
36
113060
2256
अब, इस तरह के परिणाम के साथ, ¶
01:55
we can do a lot more with our computer vision algorithms.
37
115340
2696
हम बहुत कुछ कर सकते हैं कंप्यूटर दूर दृष्टि एल्गोरिदम के साथ
01:58
We see that it knows that there's a cat and a dog.
38
118060
2976
हम जानते हैं कि इसे पता है कि एक बिल्ली व एक कुत्ता है
02:01
It knows their relative locations,
39
121060
2256
यह उनके सम्बंधित स्थानों को जानता है
02:03
their size.
40
123340
1216
उनका आकार
02:04
It may even know some extra information.
41
124580
1936
यह कुछ अतिरिक्त जानकारी भी जान सकता है
02:06
There's a book sitting in the background.
42
126540
1960
कि पृष्ठभूमि में किताब है
02:09
And if you want to build a system on top of computer vision,
43
129100
3256
और अगर आप कंप्यूटर दृष्टि के शीर्ष पर एक सिस्टम बनाना चाहते हैं
02:12
say a self-driving vehicle or a robotic system,
44
132380
3456
जैसे कि एक स्वयं संचालित वाहन या एक रोबोट प्रणाली,
02:15
this is the kind of information that you want.
45
135860
2456
आप इस प्रकार की जानकारी चाहते हैं
02:18
You want something so that you can interact with the physical world.
46
138340
3239
आप कुछ ऐसा चाहते हैं जिससे आप भौतिक दुनिया के साथ बातचीत कर सकते हैं
02:22
Now, when I started working on object detection,
47
142579
2257
अब, जब मैंने वस्तु का पता लगाने पर काम करना शुरू किया
02:24
it took 20 seconds to process a single image.
48
144860
3296
एक एकल छवि को संसाधित करने के लिए 20 सेकंड लगे
02:28
And to get a feel for why speed is so important in this domain,
49
148180
3880
इस डोमेन में गति कितनी महत्वपूर्ण है, ऐसा महसूस करने के लिए
02:32
here's an example of an object detector
50
152940
2536
यहाँ एक वस्तु डिटेक्टर का उदाहरण है
02:35
that takes two seconds to process an image.
51
155500
2416
जो दो सेकंड लेता है एक छबी को संसाधित करने के लिए
02:37
So this is 10 times faster
52
157940
2616
तो यह 10 गुना तेज है
02:40
than the 20-seconds-per-image detector,
53
160580
3536
20 सेकंड प्रति छवि डिटेक्टर से,
02:44
and you can see that by the time it makes predictions,
54
164140
2656
और आप उस समय में देख सकते हैं जब यह पूर्वानुमान लगता है,
02:46
the entire state of the world has changed,
55
166820
2040
दुनिया की संपूर्ण स्थिति बदल गई है,
02:49
and this wouldn't be very useful
56
169700
2416
और यह बहुत उपयोगी नहीं होगा
02:52
for an application.
57
172140
1416
लागू करने के लिए
02:53
If we speed this up by another factor of 10,
58
173580
2496
अगर हम इसे दस गुना और तेज करते हैं
02:56
this is a detector running at five frames per second.
59
176100
2816
यानि कि डिटेक्टर के पांच फ्रेम प्रति सेकंड पर चलते हुए
02:58
This is a lot better,
60
178940
1536
यह बहुत बेहतर है,
03:00
but for example,
61
180500
1976
लेकिन उदाहरण के लिए
03:02
if there's any significant movement,
62
182500
2296
अगर कोई बहुत अधिक हिलना डुलना है,
03:04
I wouldn't want a system like this driving my car.
63
184820
2560
मैं अपनी कार चलाने के लिए ऐसा सिस्टम नहीं चाहूंगा
03:08
This is our detection system running in real time on my laptop.
64
188940
3240
लैपटॉप पर वास्तविक समय में चलती हुई यह हमारी पहचान प्रणाली है
03:12
So it smoothly tracks me as I move around the frame,
65
192820
3136
तो यह आसानी से ट्रैक करता है जब मैं फ्रेम के पास गति विधि करता हूँ
03:15
and it's robust to a wide variety of changes in size,
66
195980
3720
और यह विविध आकार
03:21
pose,
67
201260
1200
मुद्रा में,
03:23
forward, backward.
68
203100
1856
आगे, पीछे परिवर्तन में मजबूत है।
03:24
This is great.
69
204980
1216
यह भी खूब रही।
03:26
This is what we really need
70
206220
1736
हमें वास्तव में यही चाहिए
03:27
if we're going to build systems on top of computer vision.
71
207980
2896
अगर हम सिस्टम कंप्यूटर दृष्टि के शीर्ष पर बनाने जा रहे हैं
03:30
(Applause)
72
210900
4000
(तालियां)
03:36
So in just a few years,
73
216100
2176
तो बस कुछ ही वर्षों में,
03:38
we've gone from 20 seconds per image
74
218300
2656
हम प्रति छवि 20 सेकंड से
03:40
to 20 milliseconds per image, a thousand times faster.
75
220980
3536
प्रति छवि 20 मिलीसेकंड तक चले गए हैं यानि कि एक हजार गुना तेज!
03:44
How did we get there?
76
224540
1416
हम वहां कैसे पहुंचे?
03:45
Well, in the past, object detection systems
77
225980
3016
ठीक है, अतीत में, ऑब्जेक्ट डिटेक्शन सिस्टम
03:49
would take an image like this
78
229020
1936
इस तरह की एक छवि ले कर
03:50
and split it into a bunch of regions
79
230980
2456
और इसे क्षेत्रों के एक गुच्छे में विभाजित कर के
03:53
and then run a classifier on each of these regions,
80
233460
3256
और फिर इन क्षेत्रों में प्रत्येक पर क्लासिफायर चलाते हुए
03:56
and high scores for that classifier
81
236740
2536
और उस क्लासिफायर के उच्च स्कोर को
03:59
would be considered detections in the image.
82
239300
3136
छवि में पहचान माना जाता था
04:02
But this involved running a classifier thousands of times over an image,
83
242460
4056
लेकिन इसमें छवि पहचान के लिए छवि पर हजारों बार क्लासिफायर चलाना,
04:06
thousands of neural network evaluations to produce detection.
84
246540
2920
हजारों तंत्रिका नेटवर्क मूल्यांकन करना होता था
04:11
Instead, we trained a single network to do all of detection for us.
85
251060
4536
इसके बजाय, हमने हर पहचान के लिए एक एकल नेटवर्क को प्रशिक्षित किया
04:15
It produces all of the bounding boxes and class probabilities simultaneously.
86
255620
4280
यह एक साथ सभी बक्सों और श्रेणी संभावनाओं को बनाता है
04:20
With our system, instead of looking at an image thousands of times
87
260500
3496
हमारे सिस्टम से एक छवि को हजारों बार देखने की बजाय
04:24
to produce detection,
88
264020
1456
उसका पता लगाने के लिए,
04:25
you only look once,
89
265500
1256
आप केवल एक बार देखते हैं,
04:26
and that's why we call it the YOLO method of object detection.
90
266780
2920
यही कारण है कि हम इसे कहते हैं वस्तु का पता लगाने की योलो विधि
04:31
So with this speed, we're not just limited to images;
91
271180
3976
तो इस गति के साथ, हम सिर्फ छवियों तक सीमित नहीं हैं;
04:35
we can process video in real time.
92
275180
2416
हम वास्तविक समय में वीडियो संसाधित कर सकते हैं
04:37
And now, instead of just seeing that cat and dog,
93
277620
3096
और अब, सिर्फ देखने के बजाय कि बिल्ली और कुत्ते,
04:40
we can see them move around and interact with each other.
94
280740
2960
हम उन्हें चारों ओर घूमते देख सकते हैं और एक दूसरे के साथ बातचीत करते हुए।
04:46
This is a detector that we trained
95
286380
2056
यह एक डिटेक्टर है जिसे हमने प्रशिक्षित किया है
04:48
on 80 different classes
96
288460
4376
80 विभिन्न वर्गों पर
04:52
in Microsoft's COCO dataset.
97
292860
3256
माइक्रोसॉफ्ट के कोको डाटासेट में
04:56
It has all sorts of things like spoon and fork, bowl,
98
296140
3336
इसमें सभी प्रकार की चीजें हैं जैसे चम्मच और कांटा, कटोरा,
04:59
common objects like that.
99
299500
1800
उस तरह की सामान्य वस्तुएं
05:02
It has a variety of more exotic things:
100
302180
3096
इसमें कई प्रकार की विदेशी चीजें हैं:
05:05
animals, cars, zebras, giraffes.
101
305300
3256
जानवर, कार, ज़ेबरा, जिराफ
05:08
And now we're going to do something fun.
102
308580
1936
और अब हम कुछ मज़ा करने वाले हैं
05:10
We're just going to go out into the audience
103
310540
2096
अब हम दर्शकों के बीच जाने वाले हैं
05:12
and see what kind of things we can detect.
104
312660
2016
देखें किस प्रकार की चीजों का पता लगाते हैं
05:14
Does anyone want a stuffed animal?
105
314700
1620
क्या कोई भरवां पशु चाहता है?
05:17
There are some teddy bears out there.
106
317820
1762
वहाँ कुछ टेडी भालू हैं
05:21
And we can turn down our threshold for detection a little bit,
107
321860
4536
और हम पता लगाने की अपनी सीमा थोड़ी सी नीचे कर सकते हैं
05:26
so we can find more of you guys out in the audience.
108
326420
3400
ताकि हम अधिक लोगों को दर्शकों में ढूंढ सकते हैं
05:31
Let's see if we can get these stop signs.
109
331380
2336
चलो देखते हैं कि हम रोकने के संकेत प्राप्त कर सकते हैं।
05:33
We find some backpacks.
110
333740
1880
हमें कुछ बैकपैक मिलते हैं
05:37
Let's just zoom in a little bit.
111
337700
1840
चलो थोड़ा सा साइज बड़ा करें
05:42
And this is great.
112
342140
1256
और यह बढ़िया है
05:43
And all of the processing is happening in real time
113
343420
3176
और सभी प्रसंस्करण वास्तविक समय में हो रहा है
05:46
on the laptop.
114
346620
1200
लैपटॉप पर
05:48
And it's important to remember
115
348900
1456
और यह याद रखना महत्वपूर्ण है ¶
05:50
that this is a general purpose object detection system,
116
350380
3216
कि यह एक सामान्य उद्देश्य है ऑब्जेक्ट डिटेक्शन सिस्टम,
05:53
so we can train this for any image domain.
117
353620
5000
इसलिए हम इसे किसी भी छवि डोमेन के लिए प्रशिक्षित कर सकते हैं।
06:00
The same code that we use
118
360140
2536
उसी कोड का, जिसका हम उपयोग करते हैं
06:02
to find stop signs or pedestrians,
119
362700
2456
रोकने के संकेत या पैदल चलने वालों को ढूंढने के लिए,
06:05
bicycles in a self-driving vehicle,
120
365180
1976
स्वयं संचालित वाहन में साईकलों का,
06:07
can be used to find cancer cells
121
367180
2856
कैंसर कोशिकाओं को खोजने के लिए इस्तेमाल किया जा सकता है
06:10
in a tissue biopsy.
122
370060
3016
ऊतक बायोप्सी में
06:13
And there are researchers around the globe already using this technology
123
373100
4040
और दुनिया भर के शोधकर्ता पहले से ही इस तकनीक का इस्तेमाल
06:18
for advances in things like medicine, robotics.
124
378060
3416
दवाइओं ,रोबोटिक्स जैसी चीजों की प्रगति के लिए कर रहे हैं
06:21
This morning, I read a paper
125
381500
1376
आज सुबह, मैंने एक पेपर पढ़ा
06:22
where they were taking a census of animals in Nairobi National Park
126
382900
4576
जहां वे नैरोबी राष्ट्रीय उद्यान में पशुओं की जनगणना कर रहे थे
06:27
with YOLO as part of this detection system.
127
387500
3136
योलो पहचान प्रणाली के साथ जो इसका हिस्सा रहा
06:30
And that's because Darknet is open source
128
390660
3096
और इसका कारण यह है कि डार्कनेट खुला स्रोत है
06:33
and in the public domain, free for anyone to use.
129
393780
2520
और सार्वजनिक डोमेन में है, जो सभी के लिए नि:शुल्क है
06:37
(Applause)
130
397420
5696
(तालियां) ¶
06:43
But we wanted to make detection even more accessible and usable,
131
403140
4936
हमने पड़ताल को और भी पहुँच वाला व उपयोगी बनाना चाहा¶
06:48
so through a combination of model optimization,
132
408100
4056
मॉडल अनुकूलन की नेटवर्क बिनारिजेशन और सन्निकटन के
06:52
network binarization and approximation,
133
412180
2296
संयोजन माध्यम से,
06:54
we actually have object detection running on a phone.
134
414500
3920
हमारी वस्तु जाँच प्रणाली एक फोन पर चल रही है
07:04
(Applause)
135
424620
5320
(तालियां) ¶
07:10
And I'm really excited because now we have a pretty powerful solution
136
430780
5056
और मैं वास्तव में उत्साहित हूँ क्योंकि अब हमारे पास एक बहुत शक्तिशाली समाधान है¶
07:15
to this low-level computer vision problem,
137
435860
2296
इस निम्न स्तरीय कंप्यूटर दृष्टि समस्या के लिए,
07:18
and anyone can take it and build something with it.
138
438180
3856
कोई भी इसे ले सकता है और कुछ निर्माण कर सकता है
07:22
So now the rest is up to all of you
139
442060
3176
अतः बाकी सब आप व दुनिया भर के लोगों पर,
07:25
and people around the world with access to this software,
140
445260
2936
इस सॉफ़्टवेयर की पहुंच के साथ, निर्भर करता है
07:28
and I can't wait to see what people will build with this technology.
141
448220
3656
और मैं इंतजार नहीं कर सकता कि लोग इस तकनीक से क्या बनायेगें
07:31
Thank you.
142
451900
1216
धन्यवाद। ¶
07:33
(Applause)
143
453140
3440
इस वेबसाइट के बारे में

यह साइट आपको YouTube वीडियो से परिचित कराएगी जो अंग्रेजी सीखने के लिए उपयोगी हैं। आप दुनिया भर के शीर्षस्थ शिक्षकों द्वारा पढ़ाए जाने वाले अंग्रेजी पाठ देखेंगे। वहां से वीडियो चलाने के लिए प्रत्येक वीडियो पृष्ठ पर प्रदर्शित अंग्रेजी उपशीर्षक पर डबल-क्लिक करें। उपशीर्षक वीडियो प्लेबैक के साथ सिंक में स्क्रॉल करते हैं। यदि आपकी कोई टिप्पणी या अनुरोध है, तो कृपया इस संपर्क फ़ॉर्म का उपयोग करके हमसे संपर्क करें।

https://forms.gle/WvT1wiN1qDtmnspy7