How computers learn to recognize objects instantly | Joseph Redmon

1,123,328 views ・ 2017-08-18

TED


يرجى النقر نقرًا مزدوجًا فوق الترجمة الإنجليزية أدناه لتشغيل الفيديو.

المترجم: Abd El-Rahman Malek المدقّق: Riyad Almubarak
00:12
Ten years ago,
0
12645
1151
منذ عشر سنوات مضت،
00:13
computer vision researchers thought that getting a computer
1
13820
2776
اعتقد باحثوا رؤية الكمبيوتر أن الحصول على جهاز كمبيوتر
00:16
to tell the difference between a cat and a dog
2
16620
2696
لمعرفة الفرق بين القط والكلب
00:19
would be almost impossible,
3
19340
1976
سيكون شبه مستحيل،
00:21
even with the significant advance in the state of artificial intelligence.
4
21340
3696
وحتى مع التقدم الكبير فى حالة الذكاء الاصطناعي.
00:25
Now we can do it at a level greater than 99 percent accuracy.
5
25060
3560
يمكننا الآن أن نفعل ذلك بمستوى دقة أعلى من 99%.
00:29
This is called image classification --
6
29500
1856
وهذا ما يسمى بالتصنيف الصوري --
00:31
give it an image, put a label to that image --
7
31380
3096
وإعطائها صورة، ووضع تسمية لتلك الصورة --
00:34
and computers know thousands of other categories as well.
8
34500
3040
وكذلك تعرف أجهزة الكمبيوتر الآلاف من الفئات الأخرى.
00:38
I'm a graduate student at the University of Washington,
9
38500
2896
أنا طالب دراسات عليا فى جامعة واشنطن
00:41
and I work on a project called Darknet,
10
41420
1896
وأنا أعمل على مشروع يسمى "داركنيت"
00:43
which is a neural network framework
11
43340
1696
وهو إطار الشبكة العصبية
00:45
for training and testing computer vision models.
12
45060
2816
لتدريب واختبار نماذج رؤية الكمبيوتر.
00:47
So let's just see what Darknet thinks
13
47900
2976
ولذلك، دعونا نرى ماذا يفكر "داركنيت"
00:50
of this image that we have.
14
50900
1760
فى هذه الصورة لدينا.
00:54
When we run our classifier
15
54340
2336
عندما نقوم بتشغيل المصنف لدينا
00:56
on this image,
16
56700
1216
على هذه الصورة،
00:57
we see we don't just get a prediction of dog or cat,
17
57940
2456
نجد أننا لا نحصل فقط على تنبؤ للكلب والقط،
01:00
we actually get specific breed predictions.
18
60420
2336
نحن فى الواقع نحصل على تنبؤات سلالة محددة.
01:02
That's the level of granularity we have now.
19
62780
2176
ذلك هو مستوى التقسيمات المتوفر لنا الآن.
01:04
And it's correct.
20
64980
1616
وهو صحيح.
01:06
My dog is in fact a malamute.
21
66620
1840
في الحقيقة فإن كلبي هو "ملموت."
01:08
So we've made amazing strides in image classification,
22
68860
4336
ولذلك فقد حقننا خطوة مذهلة فى تصنيف الصورة،
01:13
but what happens when we run our classifier
23
73220
2000
ولكن ماذا يحدث عندما نشغّل المصنف لدينا
01:15
on an image that looks like this?
24
75244
1960
في صورة تبدو كهذه؟
01:18
Well ...
25
78900
1200
حسناً ...
01:24
We see that the classifier comes back with a pretty similar prediction.
26
84460
3896
نرى أن المصنف يعود مع تنبؤ مماثل جداً.
01:28
And it's correct, there is a malamute in the image,
27
88380
3096
وهذا صحيح، فهناك ملموت فى الصورة،
01:31
but just given this label, we don't actually know that much
28
91500
3696
ولكن فقط نظراً لهذه التسمية، فنحن حقاً لا نعرف الكثير
01:35
about what's going on in the image.
29
95220
1667
عن ماذا يدور فى الصورة.
01:36
We need something more powerful.
30
96911
1560
ونحن بحاجة إلى شيء أكثر قوة.
01:39
I work on a problem called object detection,
31
99060
2616
أنا أعمل على مشكلة تسمى الكشف عن الكائن،
01:41
where we look at an image and try to find all of the objects,
32
101700
2936
حيث ننظر إلى صورة ونحاول العثور على كل الكائنات،
01:44
put bounding boxes around them
33
104660
1456
ووضع المربعات المحيطة بهم
01:46
and say what those objects are.
34
106140
1520
ونقول ما هي تلك الكائنات.
01:48
So here's what happens when we run a detector on this image.
35
108220
3280
وهنا ما يحدث عندما نقوم بتشغيل المكشاف على هذه الصورة.
01:53
Now, with this kind of result,
36
113060
2256
والآن، مع نتيجة من هذا النوع،
01:55
we can do a lot more with our computer vision algorithms.
37
115340
2696
نستطيع فعل أكثر من ذللك بكثير مع خوارزمياتنا لرؤية الكمبيوتر.
01:58
We see that it knows that there's a cat and a dog.
38
118060
2976
نجد أنه يعرف أن هناك قط وكلب.
02:01
It knows their relative locations,
39
121060
2256
ويعرف مواقعهم النسبية،
02:03
their size.
40
123340
1216
وحجمهم.
02:04
It may even know some extra information.
41
124580
1936
وربما يعرف معلومات إضافية.
02:06
There's a book sitting in the background.
42
126540
1960
يوجد كتاب فى الخلفية.
02:09
And if you want to build a system on top of computer vision,
43
129100
3256
وإذا أردت بناء نظام أعلى رؤية الكمبيوتر،
02:12
say a self-driving vehicle or a robotic system,
44
132380
3456
فلنقل سيارة ذاتية القيادة أو نظام روبوتية
02:15
this is the kind of information that you want.
45
135860
2456
هذا هو نوع المعلومات التي تريدها.
02:18
You want something so that you can interact with the physical world.
46
138340
3239
تريد شيئًا بحيث يمكنك التفاعل مع العالم المادي.
02:22
Now, when I started working on object detection,
47
142579
2257
والآن، عندما بدأت العمل في الكشف عن الكائنات،
02:24
it took 20 seconds to process a single image.
48
144860
3296
فقد استغرق الأمر 20 ثانية لمعالجة صورة واحدة.
02:28
And to get a feel for why speed is so important in this domain,
49
148180
3880
وللحصول على شعور لماذا السرعة مهمة جدًا فى هذا المجال،
02:32
here's an example of an object detector
50
152940
2536
هنا مثال للكشف عن كائن
02:35
that takes two seconds to process an image.
51
155500
2416
والذي يستغرق تانيتين لمعالجة صورة.
02:37
So this is 10 times faster
52
157940
2616
لذا فهذا أسرع ب 10 مرات
02:40
than the 20-seconds-per-image detector,
53
160580
3536
من 20 تانية لكل كشف على صورة واحدة،
02:44
and you can see that by the time it makes predictions,
54
164140
2656
ويمكنك فى نفس الوقت أن ترى أنه يقوم بتنبؤات،
02:46
the entire state of the world has changed,
55
166820
2040
فقد تغيّرت حالة العالم بأسرها،
02:49
and this wouldn't be very useful
56
169700
2416
وهذا لن يكون مفيدًا جدًا
02:52
for an application.
57
172140
1416
للتطبيق.
02:53
If we speed this up by another factor of 10,
58
173580
2496
إذا قمنا بتسريع هذا بواسطة عامل آخر بمقدار 10
02:56
this is a detector running at five frames per second.
59
176100
2816
فهذا كاشف يعمل بمعدل خمسة إطارات فى الثانية الواحدة.
02:58
This is a lot better,
60
178940
1536
وهذا أفضل بكثير،
03:00
but for example,
61
180500
1976
ولكن على سبيل المثال،
03:02
if there's any significant movement,
62
182500
2296
فإذا كان هناك أي حركة كبيرة،
03:04
I wouldn't want a system like this driving my car.
63
184820
2560
فلن أحتاج إلى نظام مثل قيادة سيارتي.
03:08
This is our detection system running in real time on my laptop.
64
188940
3240
هذا هو نظام الكشف لدينا المشغّل فى الوقت الحقيقي على كمبيوتري المحمول.
03:12
So it smoothly tracks me as I move around the frame,
65
192820
3136
حيث يتتبعني بسلاسة بينما أتحرك في جميع أنحاء الإطار،
03:15
and it's robust to a wide variety of changes in size,
66
195980
3720
وهي قوى لمجموعة واسعة من التغيرات في الحجم،
03:21
pose,
67
201260
1200
والتشكيل،
03:23
forward, backward.
68
203100
1856
إلى الأمام وإلى الخلف.
03:24
This is great.
69
204980
1216
هذا عظيم.
03:26
This is what we really need
70
206220
1736
هذا هو حقًا ما نريده
03:27
if we're going to build systems on top of computer vision.
71
207980
2896
إذا كنا سنبني أنظمة على رأس رؤية الكمبيوتر.
03:30
(Applause)
72
210900
4000
(تصفيق)
03:36
So in just a few years,
73
216100
2176
بالتالي في بضع سنوات فقط،
03:38
we've gone from 20 seconds per image
74
218300
2656
فقد انتقلنا من 20 ثانية لكل صورة
03:40
to 20 milliseconds per image, a thousand times faster.
75
220980
3536
إلى 20 جزء من ألف جزء من الثانية لكل صورة، أسرع بألف مرة.
03:44
How did we get there?
76
224540
1416
كيف وصلنا إلى هناك؟
03:45
Well, in the past, object detection systems
77
225980
3016
حسناً، في الماضي كانت أنظمة الكشف عن الكائن
03:49
would take an image like this
78
229020
1936
تأخذ صورة من هذا القبيل
03:50
and split it into a bunch of regions
79
230980
2456
وتقوم بتقسيمها إلى مجموعة من المناطق
03:53
and then run a classifier on each of these regions,
80
233460
3256
ثم تقوم بتشغيل المصنف على كلّ من تلك المناطق،
03:56
and high scores for that classifier
81
236740
2536
ودرجات عالية من المصنف
03:59
would be considered detections in the image.
82
239300
3136
ستعتبر بمثابة الكشف عن الصورة.
04:02
But this involved running a classifier thousands of times over an image,
83
242460
4056
ولكن هذا ينطوى على تشغيل المصنف الآف المرات على الصورة،
04:06
thousands of neural network evaluations to produce detection.
84
246540
2920
والآلاف من تقييم الشبكة العصبية لإنتاج الكشف.
04:11
Instead, we trained a single network to do all of detection for us.
85
251060
4536
وبدلاً من ذلك، فقد قمنا بتدريب شبكة واحدة للقيام بالكشف كاملاً لنا.
04:15
It produces all of the bounding boxes and class probabilities simultaneously.
86
255620
4280
فهي تنتج كافة المربعات المحيطة وفئة الإحتمالات في آن واحد.
04:20
With our system, instead of looking at an image thousands of times
87
260500
3496
مع نظامنا، بدلاً من البحث في الصورة لآلاف المرات
04:24
to produce detection,
88
264020
1456
لإنتاج كشفها،
04:25
you only look once,
89
265500
1256
فأنت تنظر مرة واحدة فقط،
04:26
and that's why we call it the YOLO method of object detection.
90
266780
2920
ولهذا السبب نحن نسميها طريقة الكشف عن كائن "يولو."
04:31
So with this speed, we're not just limited to images;
91
271180
3976
لهذا بهذه السرعة فنحن لا نقتصر فقط على الصور؛
04:35
we can process video in real time.
92
275180
2416
بل نستطيع أن نعالج الفيديو في الوقت الحقيقي.
04:37
And now, instead of just seeing that cat and dog,
93
277620
3096
والآن، بدلاً من مجرد رؤية ذلك القط والكلب،
04:40
we can see them move around and interact with each other.
94
280740
2960
نستطيع أن نرى تحركاتهم وتفاعلهم تجاه بعضهم البعض.
04:46
This is a detector that we trained
95
286380
2056
وهذا هو جهاز الكشف الذي قمنا بتدريبه
04:48
on 80 different classes
96
288460
4376
في 80 فئة مختلفة
04:52
in Microsoft's COCO dataset.
97
292860
3256
في مجموعة بيانات "كوكو" ميكروسفت.
04:56
It has all sorts of things like spoon and fork, bowl,
98
296140
3336
لديها جميع أنواع االأشياء مثل الملعقة والشوكة والسلطانية.
04:59
common objects like that.
99
299500
1800
الأشياء الشائعة من هذا القبيل.
05:02
It has a variety of more exotic things:
100
302180
3096
لديها مجموعة متنوعة من أشياء أكثر غرابة:
05:05
animals, cars, zebras, giraffes.
101
305300
3256
مثل الحيوانات والسيارات والحمر الوحشية والزرافات
05:08
And now we're going to do something fun.
102
308580
1936
وسنقوم الآن بشيء مرح.
05:10
We're just going to go out into the audience
103
310540
2096
سنستهدف الجمهور
05:12
and see what kind of things we can detect.
104
312660
2016
ونرى ما نوع الأشياء التي يمكننا الكشف عنها.
05:14
Does anyone want a stuffed animal?
105
314700
1620
هل من أحد يريد الحيوانات المحنطة؟
05:17
There are some teddy bears out there.
106
317820
1762
توجد بعض الدببة هناك.
05:21
And we can turn down our threshold for detection a little bit,
107
321860
4536
ويمكننا أن نخفض العتبة لدينا للكشف عنه قليلاً،
05:26
so we can find more of you guys out in the audience.
108
326420
3400
لذا فنستطيع أن نجد عددًا أكبر يا رفاق من ذلك الجمهور.
05:31
Let's see if we can get these stop signs.
109
331380
2336
لنرى إذا كان يمكننا الحصول على علامات التوقف هذه.
05:33
We find some backpacks.
110
333740
1880
نجد بعض حقائب الظهر.
05:37
Let's just zoom in a little bit.
111
337700
1840
دعونا فقط نكبّر قليلاً.
05:42
And this is great.
112
342140
1256
وهذا شيء عظيم.
05:43
And all of the processing is happening in real time
113
343420
3176
والتحويل يحدث كلياً فى الوقت الحقيقي
05:46
on the laptop.
114
346620
1200
على الكمبيوتر المحمول.
05:48
And it's important to remember
115
348900
1456
وهذا أمر هام للتذكّر
05:50
that this is a general purpose object detection system,
116
350380
3216
وهذا هو الغرض العام لنظام الكشف عن الكائن،
05:53
so we can train this for any image domain.
117
353620
5000
نستطيع أن نُدرب هذا لأي نطاق للصورة.
06:00
The same code that we use
118
360140
2536
نفس التعليمات البرمجية التى نستخدمها
06:02
to find stop signs or pedestrians,
119
362700
2456
لإيجاد علامات التوقف أو المشاة،
06:05
bicycles in a self-driving vehicle,
120
365180
1976
والدراجات الهوائية في سيارة ذاتية القيادة
06:07
can be used to find cancer cells
121
367180
2856
يمكن استخدامها لإيجاد الخلايا السرطانية
06:10
in a tissue biopsy.
122
370060
3016
فى عينة من الأنسجة.
06:13
And there are researchers around the globe already using this technology
123
373100
4040
وهناك باحثون حول العالم يستخدمون هذه التكنولوجيا بالفعل
06:18
for advances in things like medicine, robotics.
124
378060
3416
للتقدم في أمور مثل الطب وعلم الإنسان الآلي.
06:21
This morning, I read a paper
125
381500
1376
فقد قرأت جريدة هذا الصباح
06:22
where they were taking a census of animals in Nairobi National Park
126
382900
4576
حيث أنهم يتخذون إجراء تعداد للحيوانات فى حديقة وطنية في نيروبي
06:27
with YOLO as part of this detection system.
127
387500
3136
مع "يولو" كجزء من نظام الكشف هذا.
06:30
And that's because Darknet is open source
128
390660
3096
وهذا لأن "داركنيت" هو المصدر المفتوح
06:33
and in the public domain, free for anyone to use.
129
393780
2520
وفى المجال العام، كما أنه مجاناً لأي شخص ليستخدمه.
06:37
(Applause)
130
397420
5696
(تصفيق)
06:43
But we wanted to make detection even more accessible and usable,
131
403140
4936
ولكننا أردنا جعل الوصول إلى الكشف أكتر سهولة وكذلك استعماله،
06:48
so through a combination of model optimization,
132
408100
4056
وذلك من خلال الجمع بين النموذج الأمثل،
06:52
network binarization and approximation,
133
412180
2296
ووضغ البيانات على شكل ثنائي والقيمة التقريبية،
06:54
we actually have object detection running on a phone.
134
414500
3920
ولدينا بالفعل كاشف مواد يعمل على الهاتف المحمول.
07:04
(Applause)
135
424620
5320
(تصفيق)
07:10
And I'm really excited because now we have a pretty powerful solution
136
430780
5056
وأنا متحمس حقًا لأنه لدينا الآن حل قوي جداً
07:15
to this low-level computer vision problem,
137
435860
2296
لمشكلة رؤية الكمبيوتر ذات المستوى المنخفض،
07:18
and anyone can take it and build something with it.
138
438180
3856
ويستطيع أي شخص أخذها وبناء شيء باستخدامها.
07:22
So now the rest is up to all of you
139
442060
3176
لذا، البقية الآن متروكة لكم جميعاً
07:25
and people around the world with access to this software,
140
445260
2936
والناس حول العالم ممن لهم إمكانية وصول إلى هذا البرنامج،
07:28
and I can't wait to see what people will build with this technology.
141
448220
3656
ولا أستطيع الانتظار كي أرى ما سيبنيه الناس باستخدام هذه التكنولوجيا.
07:31
Thank you.
142
451900
1216
شكراً لكم.
07:33
(Applause)
143
453140
3440
(تصفيق)
حول هذا الموقع

سيقدم لك هذا الموقع مقاطع فيديو YouTube المفيدة لتعلم اللغة الإنجليزية. سترى دروس اللغة الإنجليزية التي يتم تدريسها من قبل مدرسين من الدرجة الأولى من جميع أنحاء العالم. انقر نقرًا مزدوجًا فوق الترجمة الإنجليزية المعروضة على كل صفحة فيديو لتشغيل الفيديو من هناك. يتم تمرير الترجمات بالتزامن مع تشغيل الفيديو. إذا كان لديك أي تعليقات أو طلبات ، يرجى الاتصال بنا باستخدام نموذج الاتصال هذا.

https://forms.gle/WvT1wiN1qDtmnspy7