How we teach computers to understand pictures | Fei Fei Li

1,159,394 views ・ 2015-03-23

TED


لطفا برای پخش فیلم روی زیرنویس انگلیسی زیر دوبار کلیک کنید.

Translator: Amin Rasoulof Reviewer: Leila Ataei
00:14
Let me show you something.
0
14366
3738
اجازه دهید چیزی را به شما نشان دهم.
00:18
(Video) Girl: Okay, that's a cat sitting in a bed.
1
18104
4156
(ویدیو)دختر: بسیار خوب، آن گربه روی یک تخت خواب نشسته است.
00:22
The boy is petting the elephant.
2
22260
4040
این پسر در حال نوازش فیل است.
00:26
Those are people that are going on an airplane.
3
26300
4354
آنها مردمی هستند در حال سوار شدن به هواپیما.
00:30
That's a big airplane.
4
30654
2810
این یک هواپیمای بزرگ است.
00:33
Fei-Fei Li: This is a three-year-old child
5
33464
2206
فی-فی-لی: این یک کودک سه ساله است
00:35
describing what she sees in a series of photos.
6
35670
3679
که آنچه که در مجموعه ای از عکسها می‎بیند را توصیف می‎کند.
00:39
She might still have a lot to learn about this world,
7
39349
2845
ممکن است او هنوز چیزهای زیادی برای یادگیری درباره این جهان داشته باشد.
00:42
but she's already an expert at one very important task:
8
42194
4549
اما او در یک کار خیلی مهم دیگه تخصص دارد:
00:46
to make sense of what she sees.
9
46743
2846
درک کردن آنچه که می‎بیند.
00:50
Our society is more technologically advanced than ever.
10
50229
4226
جامعه ما از لحاظ فناوری از هر زمان دیگر پیشرفته‎تر است.
00:54
We send people to the moon, we make phones that talk to us
11
54455
3629
ما آدمها را به ماه می‎فرستیم، تلفنهایی ساختیم که با ما صحبت می‎کنند
00:58
or customize radio stations that can play only music we like.
12
58084
4946
یا ایستگاههای رادیویی سفارشی طراحی کردیم که می توانند فقط موسیقی را که دوست داریم پخش کنند.
01:03
Yet, our most advanced machines and computers
13
63030
4055
با این حال پیشرفته ترین ماشینها و رایانه‎های ما
01:07
still struggle at this task.
14
67085
2903
هنوز هم در این کار (درک تصاویر) مشکل دارند.
01:09
So I'm here today to give you a progress report
15
69988
3459
بنابراین امروز من اینجا هستم که یک گزارش پیشرفت به شما بدهم
01:13
on the latest advances in our research in computer vision,
16
73447
4047
در مورد آخرین پیشرفت در تحقیق ما بر روی بینایی رایانه‎ای،
01:17
one of the most frontier and potentially revolutionary
17
77494
4161
یکی از پیشرفته‎ترین و بصورت بالقوه انقلابی‎ترین
01:21
technologies in computer science.
18
81655
3206
فن آوریها در علوم رایانه‎ای.
01:24
Yes, we have prototyped cars that can drive by themselves,
19
84861
4551
بله، ما نمونه اولیه ماشینهایی را داریم که خودشان می‎توانند رانندگی کنند،
01:29
but without smart vision, they cannot really tell the difference
20
89412
3853
اما بدون دید هوشمند (smart vision) نمی توانند فرق بگذارند
01:33
between a crumpled paper bag on the road, which can be run over,
21
93265
3970
بین پاکت کاغذی مچاله در جاده که میشه از روش با ماشین رد شد.
01:37
and a rock that size, which should be avoided.
22
97235
3340
و یک سنگ همان اندازه که نباید از روش رد شد
01:41
We have made fabulous megapixel cameras,
23
101415
3390
ما دوربینهای (با وضوح) مگاپیکسل عالی ساخته ایم،
01:44
but we have not delivered sight to the blind.
24
104805
3135
اما به نابیناها بینایی نداده‎ایم.
01:48
Drones can fly over massive land,
25
108420
3305
هواپیماهای بدون سرنشین که برفراز زمینهای وسیع پرواز کنند،
01:51
but don't have enough vision technology
26
111725
2134
ولی فناوری بینایی کافی برای کمک به ما
01:53
to help us to track the changes of the rainforests.
27
113859
3461
در رهگیری تغییرات جنگلهای بارانی نداریم.
01:57
Security cameras are everywhere,
28
117320
2950
دوربین های امنیتی همه جا هست،
02:00
but they do not alert us when a child is drowning in a swimming pool.
29
120270
5067
ولی وقتی یک کودک در استخر در حال غرق شدن است به ما هشدار نمیدهند.
02:06
Photos and videos are becoming an integral part of global life.
30
126167
5595
تصاویر و ویدیوها در حال تبدیل شدن به جز مهمی از زندگی جهانی هستند.
02:11
They're being generated at a pace that's far beyond what any human,
31
131762
4087
تصاویر با سرعتی فراتر از آنچه هر انسان یا گروهی از انسانها،
02:15
or teams of humans, could hope to view,
32
135849
2783
بتواند امیدوار به دیدن آنها باشد تولید می‎شوند،
02:18
and you and I are contributing to that at this TED.
33
138632
3921
و من و شما در این TED یعنی تولید تصاویر مشارکت می‎کنیم.
02:22
Yet our most advanced software is still struggling at understanding
34
142553
5232
با این وجود پیشرفته‎ترین نرم افزارها همچنان
02:27
and managing this enormous content.
35
147785
3876
در فهم و مدیریت این حجم عظیم مشکل دارند.
02:31
So in other words, collectively as a society,
36
151661
5272
به عبارت دیگر در مجموع به عنوان جامعه
02:36
we're very much blind,
37
156933
1746
ما کاملا کور هستیم،
02:38
because our smartest machines are still blind.
38
158679
3387
چون باهوشترین ماشینهای ما هنوز نابینا هستند.
02:43
"Why is this so hard?" you may ask.
39
163526
2926
شاید بپرسید "چرا انقدر سخته؟"
02:46
Cameras can take pictures like this one
40
166452
2693
دوربین‎ها می‎توانند تصاویری مثل این را بگیرند:
02:49
by converting lights into a two-dimensional array of numbers
41
169145
3994
با تبدیل نور به آرایه دو بعدی اعداد
02:53
known as pixels,
42
173139
1650
به نام "پیکسل"
02:54
but these are just lifeless numbers.
43
174789
2251
ولی اینها فقط اعداد بی روح هستند،
02:57
They do not carry meaning in themselves.
44
177040
3111
هیچ معنی به خودی خود ندارند.
03:00
Just like to hear is not the same as to listen,
45
180151
4343
مثل اینکه: شنیدن با گوش کردن یکی نیستند،
03:04
to take pictures is not the same as to see,
46
184494
4040
عکس گرفتن با دیدن یکی نیستند،
03:08
and by seeing, we really mean understanding.
47
188534
3829
یا اینکه منظور از دیدن واقعا فهمیدن نیست.
03:13
In fact, it took Mother Nature 540 million years of hard work
48
193293
6177
در حقیقت ۵۴۰ میلیون سال وقت مادر طبیعت
03:19
to do this task,
49
199470
1973
صرف انجام این کار سخت شده
03:21
and much of that effort
50
201443
1881
و بیشتر این تلاش به تکامل
03:23
went into developing the visual processing apparatus of our brains,
51
203324
5271
ابزار پردازش دید مغزمان اختصاص داده شده
03:28
not the eyes themselves.
52
208595
2647
و نه به خود چشمها.
03:31
So vision begins with the eyes,
53
211242
2747
پس، دیدن با چشم آغاز میشود،
03:33
but it truly takes place in the brain.
54
213989
3518
ولی در حقیقت در مغز شکل می‌گیرد.
03:38
So for 15 years now, starting from my Ph.D. at Caltech
55
218287
5060
برای ۱۵ سال با شروع از دکترا در کل‌تک
03:43
and then leading Stanford's Vision Lab,
56
223347
2926
و سپس رهبری آزمایشگاه بینایی در استانفورد،
03:46
I've been working with my mentors, collaborators and students
57
226273
4396
من با مربی هایم، همکارانم و شاگردانم تلاش کرده ام
03:50
to teach computers to see.
58
230669
2889
که به رایانه ها یاد بدهیم که ببینند.
03:54
Our research field is called computer vision and machine learning.
59
234658
3294
اسم زمینه تحقیقاتی ما بینایی رایانه ای و آموزش ماشین هست.
03:57
It's part of the general field of artificial intelligence.
60
237952
3878
این بخشی از زمینه عمومی تر هوش مصنوعی هست
04:03
So ultimately, we want to teach the machines to see just like we do:
61
243000
5493
در نهایت میخواهیم به ماشین ها یاد بدهیم که ببینند همانند ما:
04:08
naming objects, identifying people, inferring 3D geometry of things,
62
248493
5387
اسم گذاشتن بر روی اشیا، تشخیص افراد ، استنباط سه بعدی از اشیا
04:13
understanding relations, emotions, actions and intentions.
63
253880
5688
فهم ارتباط، احساسات، اعمال و نیت ها.
04:19
You and I weave together entire stories of people, places and things
64
259568
6153
من و شما وقتی نگاهمون به آدمها، مکانها و اشیا میافتد
04:25
the moment we lay our gaze on them.
65
265721
2164
دربارشون قصه میسازیم.
04:28
The first step towards this goal is to teach a computer to see objects,
66
268955
5583
اولین قدم در راه این هدف این هست که به رایانه‎ها یاد بدهیم تا اشیا را ببینند؛
04:34
the building block of the visual world.
67
274538
3368
سنگ بنای دنیای بصری.
04:37
In its simplest terms, imagine this teaching process
68
277906
4434
به ساده ترین حالت این فرایند آموزش را مانند نشان دادن تعدادی
04:42
as showing the computers some training images
69
282340
2995
عکس آموزشی از یک شی خاص
04:45
of a particular object, let's say cats,
70
285335
3321
مثلا گربه ها به رایانه تصور کنید.
04:48
and designing a model that learns from these training images.
71
288656
4737
و طراحی یک مدل (برای رایانه) که ازدیدن این عکسها یاد می‎گیرد.
04:53
How hard can this be?
72
293393
2044
اینکار چقدر میتونه سخت باشه؟
04:55
After all, a cat is just a collection of shapes and colors,
73
295437
4052
بالاخره یک گربه مجموعه ایست از شکل ها و رنگها،
04:59
and this is what we did in the early days of object modeling.
74
299489
4086
و این کاری هست که در روزهای ابتدایی طراحی اشیا انجام می‎دادیم.
05:03
We'd tell the computer algorithm in a mathematical language
75
303575
3622
ما به الگوریتم رایانه به زبان ریاضی می‎گوییم
05:07
that a cat has a round face, a chubby body,
76
307197
3343
که یک گربه صورت گرد دارد، بدن تپل دارد،
05:10
two pointy ears, and a long tail,
77
310540
2299
دو تا گوش تیز دارد و یک دم دراز
05:12
and that looked all fine.
78
312839
1410
و این کافی بود.
05:14
But what about this cat?
79
314859
2113
ولی این یکی گربه چطور؟
05:16
(Laughter)
80
316972
1091
(خنده حضار)
05:18
It's all curled up.
81
318063
1626
این یکی کاملا خم شده
05:19
Now you have to add another shape and viewpoint to the object model.
82
319689
4719
حالا شما باید یک شکل و زاویه دید دیگه به مدل شی اضافه کنید
05:24
But what if cats are hidden?
83
324408
1715
ولی اگه گربه‎ها قایم شده باشند چی؟
05:27
What about these silly cats?
84
327143
2219
این گربه های بامزه چطور؟
05:31
Now you get my point.
85
331112
2417
جالا متوجه منظور من می‎شوید.
05:33
Even something as simple as a household pet
86
333529
3367
حتی یک چیز ساده مثل حیوان خانگی
05:36
can present an infinite number of variations to the object model,
87
336896
4504
میتونه مدلهای بینهایت گونه گون از مدل شی را ارائه کند،
05:41
and that's just one object.
88
341400
2233
و این تازه فقط یک شی هست.
05:44
So about eight years ago,
89
344573
2492
تقریبا هشت سال پیش
05:47
a very simple and profound observation changed my thinking.
90
347065
5030
یک مشاهده ساده و عمیق طرز فکر من را تغییر داد.
05:53
No one tells a child how to see,
91
353425
2685
کسی به یک کودک نمی‎گه چطور ببیند،
05:56
especially in the early years.
92
356110
2261
به ویژه در سالهای ابتدایی.
05:58
They learn this through real-world experiences and examples.
93
358371
5000
اونها این کار را از طریق تجربیات و مثالهای دنیای واقعی یاد می‎گیرند.
06:03
If you consider a child's eyes
94
363371
2740
اگر چشمهای یک کودک را مثل
06:06
as a pair of biological cameras,
95
366111
2554
یک جفت دوربین بیولوژیک در نظر بگیرید،
06:08
they take one picture about every 200 milliseconds,
96
368665
4180
آنها هر ۲۰۰ میلی ثانیه یک تصویر می‎گیرند،
06:12
the average time an eye movement is made.
97
372845
3134
مدت زمان متوسطی که حرکت چشم صورت می‎گیرد.
06:15
So by age three, a child would have seen hundreds of millions of pictures
98
375979
5550
پس تا سه سالگی یک کودک صدها میلیون تصویر
06:21
of the real world.
99
381529
1834
از دنیای واقعی دیده
06:23
That's a lot of training examples.
100
383363
2280
این تعداد زیادی از مثال‎های آموزشی هست.
06:26
So instead of focusing solely on better and better algorithms,
101
386383
5989
پس بجای تمرکزصرف بر الگوریتمهای بهتر و بهتر
06:32
my insight was to give the algorithms the kind of training data
102
392372
5272
نگرش من این بود که به الگوریتمها ـآن دسته از داده‎های آموزشی
06:37
that a child was given through experiences
103
397644
3319
که به یک کودک از طریق تجربه داده می‎شود
06:40
in both quantity and quality.
104
400963
3878
را در همان حجم و کیفیت بدهیم.
06:44
Once we know this,
105
404841
1858
وقتی این را فهمیدیم متوجه شدیم که
06:46
we knew we needed to collect a data set
106
406699
2971
به جمع آوری مجموعه اطلاعات نیاز داریم
06:49
that has far more images than we have ever had before,
107
409670
4459
که خیلی بیشتر از آنچه تاکنون داشته ایم عکس داشته باشد،
06:54
perhaps thousands of times more,
108
414129
2577
احتمالا هزاران بار بیشتر،
06:56
and together with Professor Kai Li at Princeton University,
109
416706
4111
و با همکاری پرفسور کای لی در دانشگاه پرینستون
07:00
we launched the ImageNet project in 2007.
110
420817
4752
ما پروژه ImageNet را در سال ۲۰۰۷ راه اندازی کردیم.
07:05
Luckily, we didn't have to mount a camera on our head
111
425569
3838
خوشبختانه احتیاج نداشتیم که یک دوربین روی سرمان نصب کنیم
07:09
and wait for many years.
112
429407
1764
و سالها منتظر بمانیم.
07:11
We went to the Internet,
113
431171
1463
رفتیم سراغ اینترنت
07:12
the biggest treasure trove of pictures that humans have ever created.
114
432634
4436
بزرگترین گنجینه عکسها که انسانها تاکنون آفریده اند.
07:17
We downloaded nearly a billion images
115
437070
3041
نزدیک به یک میلیارد عکس دانلود کردیم
07:20
and used crowdsourcing technology like the Amazon Mechanical Turk platform
116
440111
5880
و از فناوری CrowdSourcing همانند Amazon Mechanical Turk platform
07:25
to help us to label these images.
117
445991
2339
استفاده کردیم تا برای برچسب زدن این عکسها به ما کمک کند.
07:28
At its peak, ImageNet was one of the biggest employers
118
448330
4900
در اوج خودش، ImageNet از بزرگترین کارفرماهای
07:33
of the Amazon Mechanical Turk workers:
119
453230
2996
Amazon Mechanical Turk بود
07:36
together, almost 50,000 workers
120
456226
3854
در مجموع تقریبا ۵۰٫۰۰۰ کارمند
07:40
from 167 countries around the world
121
460080
4040
از ۱۶۷ کشور جهان
07:44
helped us to clean, sort and label
122
464120
3947
به ما کمک کردند تا نزدیک به یک میلیارد عکس منتخب را
07:48
nearly a billion candidate images.
123
468067
3575
اصلاح، منظم و برچسب گذاری کنند.
07:52
That was how much effort it took
124
472612
2653
این میزانی بود که زحمت برد
07:55
to capture even a fraction of the imagery
125
475265
3900
برای ثبت کسری از تصویرگری که
07:59
a child's mind takes in in the early developmental years.
126
479165
4171
ذهن یک کودک در سالهای اولیه تکامل خود انجام می‎دهد.
08:04
In hindsight, this idea of using big data
127
484148
3902
پس از گذشت زمان و کسب تجربه ایده استفاده از حجم عظیم داده‎ها
08:08
to train computer algorithms may seem obvious now,
128
488050
4550
برای آموزش الگوریتم رایانه‎ها، شاید الان بدیهی بنظر برسد،
08:12
but back in 2007, it was not so obvious.
129
492600
4110
ولی قبلا در سال ۲۰۰۷ انقدر واضح نبود.
08:16
We were fairly alone on this journey for quite a while.
130
496710
3878
ما توی این سفر برای مدتی کاملا تنها بودیم.
08:20
Some very friendly colleagues advised me to do something more useful for my tenure,
131
500588
5003
بعضی از همکاران نزدیکم به من توصیه کردند که برای استخدام قطعی من کار مفیدتری بکنم
08:25
and we were constantly struggling for research funding.
132
505591
4342
و مدام برای بودجه تحقیقاتی مشکل داشتیم.
08:29
Once, I even joked to my graduate students
133
509933
2485
یکبار با دانشجوهای تحصیلات تکمیلی‎ام شوخی کردم که
08:32
that I would just reopen my dry cleaner's shop to fund ImageNet.
134
512418
4063
برای تامین بودجه ImageNet حشکشویی‎ام را دوباره باز کنم.
08:36
After all, that's how I funded my college years.
135
516481
4761
بهر حال این راهی بود که من پول تحصیل‎ام را در آورده بودم.
08:41
So we carried on.
136
521242
1856
پس ادامه دادیم.
08:43
In 2009, the ImageNet project delivered
137
523098
3715
در سال ۲۰۰۹ پروژه ImageNet
08:46
a database of 15 million images
138
526813
4042
یک پایگاه داده از ۱۵ میلیون عکس
08:50
across 22,000 classes of objects and things
139
530855
4805
در وسعت ۲۲٫۰۰۰ کلاس از شی ها
08:55
organized by everyday English words.
140
535660
3320
که با کلمات انگلیسی روزمره منظم شده بودند تحویل داد.
08:58
In both quantity and quality,
141
538980
2926
از لحاظ کیفیت و کمیت
09:01
this was an unprecedented scale.
142
541906
2972
این مقیاس بی‎سابقه بود.
09:04
As an example, in the case of cats,
143
544878
3461
بعنوان مثال در مورد گربه‎ها
09:08
we have more than 62,000 cats
144
548339
2809
بیش از ۶۲٫۰۰۰ (تصویر) گربه
09:11
of all kinds of looks and poses
145
551148
4110
در انواع شکل ها و فرم بدن
09:15
and across all species of domestic and wild cats.
146
555258
5223
و در تمام گونه‌های اهلی و وحشی داشتیم.
09:20
We were thrilled to have put together ImageNet,
147
560481
3344
ما از اینکه ImageNet را ساخته بودیم هیجان زده بودیم و
09:23
and we wanted the whole research world to benefit from it,
148
563825
3738
و می‎خواستیم که تمام دنیای تحقیقات از آن بهره ببرند
09:27
so in the TED fashion, we opened up the entire data set
149
567563
4041
پس به شیوه TED تمام مجموعه داده را
09:31
to the worldwide research community for free.
150
571604
3592
برای دنیای تحقیقات بصورت رایگان باز کردیم.
09:36
(Applause)
151
576636
4000
(تشویق حضار)
09:41
Now that we have the data to nourish our computer brain,
152
581416
4538
حالا که داده‎ها را برای تغذیه مغز رایانه هایمان داریم،
09:45
we're ready to come back to the algorithms themselves.
153
585954
3737
آماده ایم که برگردیم سراغ خود الگوریتم ها.
09:49
As it turned out, the wealth of information provided by ImageNet
154
589691
5178
اینطور شد که وفور اطلاعات تهیه شده توسط ImageNet
09:54
was a perfect match to a particular class of machine learning algorithms
155
594869
4806
خیلی خوب به کلاس خاصی از الگوریتمهای یادگیری ماشینی
09:59
called convolutional neural network,
156
599675
2415
به نام "شبکه های عصبی در هم تنیده" تطابق داشت،
10:02
pioneered by Kunihiko Fukushima, Geoff Hinton, and Yann LeCun
157
602090
5248
که پیشگامانش کونیهیکو فوکوشیما و جف هینتون و یان لیکان
10:07
back in the 1970s and '80s.
158
607338
3645
در دهه‎های ۱۹۷۰ و ۱۹۸۰ بودند.
10:10
Just like the brain consists of billions of highly connected neurons,
159
610983
5619
درست مثل مغز که از میلیاردها نورون پیوسته تشکیل شده
10:16
a basic operating unit in a neural network
160
616602
3854
یک واحد عملیاتی بنیادی در یک شبکه عصبی
10:20
is a neuron-like node.
161
620456
2415
یک گره نورون-مانند است.
10:22
It takes input from other nodes
162
622871
2554
از گره‎های دیگر ورودی می‎گیرد و
10:25
and sends output to others.
163
625425
2718
و خروجی را به دیگر گره‎ها می‎فرستند.
10:28
Moreover, these hundreds of thousands or even millions of nodes
164
628143
4713
به علاوه، این صدها یا هزاران یا حتی میلیونها گره
10:32
are organized in hierarchical layers,
165
632856
3227
در لایه‎هایی با سلسله مراتب منظم شده‎اند،
10:36
also similar to the brain.
166
636083
2554
مانند مغز.
10:38
In a typical neural network we use to train our object recognition model,
167
638637
4783
در یک شبکه عصبی نوعی، برای آموزش مدل تشخیص اشیا،
10:43
it has 24 million nodes,
168
643420
3181
۲۴ میلیون گره،
10:46
140 million parameters,
169
646601
3297
۱۴۰ میلیون پارامتر،
10:49
and 15 billion connections.
170
649898
2763
و ۱۵ میلیارد اتصال وجود دارد.
10:52
That's an enormous model.
171
652661
2415
این یک مدل عظیم است.
10:55
Powered by the massive data from ImageNet
172
655076
3901
با استفاده از نیروی عظیم داده ها از ImageNet
10:58
and the modern CPUs and GPUs to train such a humongous model,
173
658977
5433
و CPU و GPU های مدرن برای آموزش چنین مدل یکدستی،
11:04
the convolutional neural network
174
664410
2369
"شبکه عصبی در هم تنیده"...
11:06
blossomed in a way that no one expected.
175
666779
3436
به شکلی که کسی انتظار نداشت شکوفا شد.
11:10
It became the winning architecture
176
670215
2508
تبدیل شد به معماری برتر
11:12
to generate exciting new results in object recognition.
177
672723
5340
برای تولید نتایج تازه و هیجان انگیز در تشخیص اشیا.
11:18
This is a computer telling us
178
678063
2810
این یک کامپیوتر هست که به ما میگه
11:20
this picture contains a cat
179
680873
2300
این تصویر شامل یک گربه است
11:23
and where the cat is.
180
683173
1903
و اینکه گربه کجاست.
11:25
Of course there are more things than cats,
181
685076
2112
البته چیزهای بیشتری از گربه وجود دارد،
11:27
so here's a computer algorithm telling us
182
687188
2438
پس این یک الگوریتم رایانه‎ای هست که به ما می‎گوید
11:29
the picture contains a boy and a teddy bear;
183
689626
3274
تصویر شامل یک پسر هست و یک عروسک خرس؛
11:32
a dog, a person, and a small kite in the background;
184
692900
4366
یک سگ، یک آدم، و بادبادک کوچک در پس زمینه؛
11:37
or a picture of very busy things
185
697266
3135
یا تصویر چیزهای شلوغ‎تر
11:40
like a man, a skateboard, railings, a lampost, and so on.
186
700401
4644
مثل یک مرد، تخته اسکیت، نرده‎ها، تیر چراغ برق و چیزهای دیگر.
11:45
Sometimes, when the computer is not so confident about what it sees,
187
705045
5293
بعضی وقتها که رایانه مطمئن نیست از چیزی که به آن نگاه می‎کند،
11:51
we have taught it to be smart enough
188
711498
2276
بهش یاد دادیم که به اندازه کافی باهوش باشد
11:53
to give us a safe answer instead of committing too much,
189
713774
3878
تا به جای کار زیادی یک جواب مطمئن به ما بدهد،
11:57
just like we would do,
190
717652
2811
درست مثل کاری که ما انجام می‎دهیم،
12:00
but other times our computer algorithm is remarkable at telling us
191
720463
4666
ولی در موارد دیگر الگوریتم رایانه ای ما در گفتن اینکه
12:05
what exactly the objects are,
192
725129
2253
اشیا چه هستند فوق العاده است
12:07
like the make, model, year of the cars.
193
727382
3436
مثل نوع ، مدل و سال ساخت ماشین.
12:10
We applied this algorithm to millions of Google Street View images
194
730818
5386
ما این الگوریتم را به میلیونها عکس
12:16
across hundreds of American cities,
195
736204
3135
"منظره خیابان گوگل" در صدها شهر آمریکا اعمال کردیم
12:19
and we have learned something really interesting:
196
739339
2926
و چیز جالبی را متوجه شدیم:
12:22
first, it confirmed our common wisdom
197
742265
3320
اول اینکه عقل سلیم ما را تایید کرد
12:25
that car prices correlate very well
198
745585
3290
که قیمت خودرو وابستگی زیادی به
12:28
with household incomes.
199
748875
2345
درآمد خانوارها دارد.
12:31
But surprisingly, car prices also correlate well
200
751220
4527
اما تعجب اینکه، قیمت خودرو بستگی زیادی هم به
12:35
with crime rates in cities,
201
755747
2300
نرخ جرایم در شهرها،
12:39
or voting patterns by zip codes.
202
759007
3963
یا الگوی رای دادن در شهرها بر اساس کدپستی دارد.
12:44
So wait a minute. Is that it?
203
764060
2206
صبر کن ببینم! همین؟!
12:46
Has the computer already matched or even surpassed human capabilities?
204
766266
5153
آیا دیگر توانایی رایانه با توانایی انسان مطابقت دارد یا از آن پیشی گرفته؟
12:51
Not so fast.
205
771419
2138
نه به این زودی.
12:53
So far, we have just taught the computer to see objects.
206
773557
4923
تا حالا به رایانه یاد دادیم که اشیا را ببیند.
12:58
This is like a small child learning to utter a few nouns.
207
778480
4644
این مثل این هست که کودک یاد بگیرد چند اسم بگوید.
13:03
It's an incredible accomplishment,
208
783124
2670
این یک موفقیت باورنکردنی است،
13:05
but it's only the first step.
209
785794
2460
اما فقط اولین قدم است.
13:08
Soon, another developmental milestone will be hit,
210
788254
3762
بزودی یک مرحله مهم طی خواهد شد
13:12
and children begin to communicate in sentences.
211
792016
3461
و کودکان یاد می‎گیرند تا بصورت گفتن جمله ارتباط برقرار کنند.
13:15
So instead of saying this is a cat in the picture,
212
795477
4224
پس به جای اینکه بگوید این یک گربه در این عکس است که قبلا شنیدید
13:19
you already heard the little girl telling us this is a cat lying on a bed.
213
799701
5202
دختر کوچولو به ما گفت این یک گربه خوابیده روی تخت است.
13:24
So to teach a computer to see a picture and generate sentences,
214
804903
5595
برای یاد دادن به رایانه که تصویری را ببیند و جملاتی تولید کند،
13:30
the marriage between big data and machine learning algorithm
215
810498
3948
پیوند بین داده‎های عظیم و الگوریتم آموزش ماشین
13:34
has to take another step.
216
814446
2275
باید گام دیگری بردارد.
13:36
Now, the computer has to learn from both pictures
217
816721
4156
حالا رایانه باید هم از تصاویر یاد بگیرد
13:40
as well as natural language sentences
218
820877
2856
هم از جملات زبان طبیعی
13:43
generated by humans.
219
823733
3322
که توسط انسان تولید می‎شوند.
13:47
Just like the brain integrates vision and language,
220
827055
3853
درست مثل مغز که بینایی و زبان را به هم می‎آمیزد
13:50
we developed a model that connects parts of visual things
221
830908
5201
ما هم مدلی ایجاد کردیم که قسمت های اجسام بصری
13:56
like visual snippets
222
836109
1904
مانند خرده تصاویر
13:58
with words and phrases in sentences.
223
838013
4203
را به کلمات و عبارات در جملات پیوند میزند.
14:02
About four months ago,
224
842216
2763
حدود چهار ماه پیش،
14:04
we finally tied all this together
225
844979
2647
بالاخره همه اینها را به هم پیوند زدیم
14:07
and produced one of the first computer vision models
226
847626
3784
و یکی از اولین مدلهای دید رایانه‎ای را
14:11
that is capable of generating a human-like sentence
227
851410
3994
که وقتی یک تصویر را برای اولین بار می‎بیند
14:15
when it sees a picture for the first time.
228
855404
3506
قادر به تولید جملات همانند انسانها هست تولید کردیم.
14:18
Now, I'm ready to show you what the computer says
229
858910
4644
حالا آماده هستم که بهتون نشان دهم که یک رایانه وقتی تصویری که
14:23
when it sees the picture
230
863554
1975
وقتی تصویری را می‎بیند که
14:25
that the little girl saw at the beginning of this talk.
231
865529
3830
اون دختر کوچولوی اول سخنرانی آن را دید.
14:31
(Video) Computer: A man is standing next to an elephant.
232
871519
3344
(صدای رایانه): یک مرد کنار یک فیل ایستاده است.
14:36
A large airplane sitting on top of an airport runway.
233
876393
3634
یک هواپیمای بزرگ روی باند پروازفرودگاه نشسته.
14:41
FFL: Of course, we're still working hard to improve our algorithms,
234
881057
4212
(سخنران): البته ما هنوز داریم سخت تلاش می‎کنیم که الگوریتم‎مان را بهتر کنیم،
14:45
and it still has a lot to learn.
235
885269
2596
و هنوز چیزهای زیادی هست که باید یاد بگیرد.
14:47
(Applause)
236
887865
2291
(تشویق حضار)
14:51
And the computer still makes mistakes.
237
891556
3321
و رایانه هنوز اشتباه می‎کند.
14:54
(Video) Computer: A cat lying on a bed in a blanket.
238
894877
3391
(صدای رایانه): یک گربه زیر لحاف دراز کشیده روی تخت.
14:58
FFL: So of course, when it sees too many cats,
239
898268
2553
(سخنران): قطعا وقتی تعداد زیادی گربه می‎بیند
15:00
it thinks everything might look like a cat.
240
900821
2926
ممکن است فکر کند که همه چیز شبیه گربه است.
15:05
(Video) Computer: A young boy is holding a baseball bat.
241
905317
2864
(صدای رایانه): یک پسربچه یک چوب بیسبال در دست دارد.
15:08
(Laughter)
242
908181
1765
(خنده حضار)
15:09
FFL: Or, if it hasn't seen a toothbrush, it confuses it with a baseball bat.
243
909946
4583
(سخنران): و اگر مسواک ندیده باشد آن را با چوب بیسبال اشتباه می‎گیرد.
15:15
(Video) Computer: A man riding a horse down a street next to a building.
244
915309
3434
(صدای رایانه): مردی که در خیابان کنار یک ساختمان اسب سواری می‎کند.
15:18
(Laughter)
245
918743
2023
(خنده حضار)
15:20
FFL: We haven't taught Art 101 to the computers.
246
920766
3552
(سخنران): ما به رایانه‎ها کلاس هنر پایه تدریس نکردیم.
15:25
(Video) Computer: A zebra standing in a field of grass.
247
925768
2884
(صدای رایانه): یک گورخر ایستاده در زمینی پوشیده از علف.
15:28
FFL: And it hasn't learned to appreciate the stunning beauty of nature
248
928652
3367
(سخنران): و یاد نگرفته که قدر زیبایی مسحور کننده طبیعت
15:32
like you and I do.
249
932019
2438
را مثل من و شما بداند.
15:34
So it has been a long journey.
250
934457
2832
بله، سفر درازی بوده
15:37
To get from age zero to three was hard.
251
937289
4226
تا از سن صفر به سه سالگی برسیم دشوار بود.
15:41
The real challenge is to go from three to 13 and far beyond.
252
941515
5596
سختی واقعی رفتن از سه سالگی به ۱۳ سالگی و فراتر هست.
15:47
Let me remind you with this picture of the boy and the cake again.
253
947111
4365
اجازه بدهید به شما با این تصویر پسر و کیک یادآوری کنم.
15:51
So far, we have taught the computer to see objects
254
951476
4064
تا الان به رایانه یاد دادیم که اجسام را ببیند
15:55
or even tell us a simple story when seeing a picture.
255
955540
4458
یا حتی وقتی یک تصویر را می‎بیند یک داستان ساده به ما بگوید.
15:59
(Video) Computer: A person sitting at a table with a cake.
256
959998
3576
(صدای رایانه): یک شخص نشسته سر یک میز با یک کیک.
16:03
FFL: But there's so much more to this picture
257
963574
2630
(سخنران): اما در این عکس خیلی چیزهای دیگر غیر از یک
16:06
than just a person and a cake.
258
966204
2270
آدم و کیک هست.
16:08
What the computer doesn't see is that this is a special Italian cake
259
968474
4467
چیزی که رایانه نمی‎بیند این است که این یک کیک مخصوص ایتالیایی
16:12
that's only served during Easter time.
260
972941
3217
که فقط در زمان عید پاک پخته می‎شود هست.
16:16
The boy is wearing his favorite t-shirt
261
976158
3205
پسر تی‎شرت مورد علاقه‎اش را پوشیده
16:19
given to him as a gift by his father after a trip to Sydney,
262
979363
3970
که توسط پدرش بعنوان هدیه بعد از سفر به سیدنی به او داده شده.
16:23
and you and I can all tell how happy he is
263
983333
3808
و من و شما همه می‎توانیم بگویم که چقدر خوشحال هست
16:27
and what's exactly on his mind at that moment.
264
987141
3203
و دقیقا در آن لحظه در ذهنش چه می‎گذرد.
16:31
This is my son Leo.
265
991214
3125
این پسر من "لیو" هست.
16:34
On my quest for visual intelligence,
266
994339
2624
در جستجوی من برای هوش بصری
16:36
I think of Leo constantly
267
996963
2391
مدام به "لیو" فکر می‎کنم
16:39
and the future world he will live in.
268
999354
2903
و آینده‎ای که او زندگی خواهد کرد.
16:42
When machines can see,
269
1002257
2021
زمانی که ماشینها می‎توانند ببینند،
16:44
doctors and nurses will have extra pairs of tireless eyes
270
1004278
4712
پزشکان و پرستاران یک جفت چشم خستگی ناپذیراضافه خواهند داشت
16:48
to help them to diagnose and take care of patients.
271
1008990
4092
که به آنها کمک خواهد کرد برای تشخیص و مراقبت از بیماران.
16:53
Cars will run smarter and safer on the road.
272
1013082
4383
خودروها هوشمندانه‎تر و ایمن‎تر در جاده‎ها حرکت خواهند کرد.
16:57
Robots, not just humans,
273
1017465
2694
ربات‎ها، نه فقط انسانها
17:00
will help us to brave the disaster zones to save the trapped and wounded.
274
1020159
4849
به ما در خطرکردن در مناطق فاجعه‎زده برای نجات مصدومان و زخمی‎ها کمک خواهند کرد.
17:05
We will discover new species, better materials,
275
1025798
3796
گونه‎های جدید خواهیم یافت، مواد بهتر،
17:09
and explore unseen frontiers with the help of the machines.
276
1029594
4509
و مرزهای نادیده را با کمک ماشینها اکتشاف خواهیم کرد.
17:15
Little by little, we're giving sight to the machines.
277
1035113
4167
کم کم داریم به ماشینها بینایی می‎بخشیم.
17:19
First, we teach them to see.
278
1039280
2798
ابتدا ما به آنها دیدن را می‎آموزیم.
17:22
Then, they help us to see better.
279
1042078
2763
سپس آنها به ما کمک می‎کنند تا بهتر ببینیم.
17:24
For the first time, human eyes won't be the only ones
280
1044841
4165
برای اولین بار چشمان انسان تنها چشمانی نخواهند بود
17:29
pondering and exploring our world.
281
1049006
2934
که تفکر می‎کنند و جهان ما را کاوش می‎کنند.
17:31
We will not only use the machines for their intelligence,
282
1051940
3460
ما نه تنها از ماشینها برای هوش آنها استفاده می‎کنیم،
17:35
we will also collaborate with them in ways that we cannot even imagine.
283
1055400
6179
بلکه با آنها به روش هایی که نمی‎توانیم تصور کنیم همکاری خواهیم کرد.
17:41
This is my quest:
284
1061579
2161
این جستجوی من است:
17:43
to give computers visual intelligence
285
1063740
2712
تا به رایانه ها هوش بصری بدهم
17:46
and to create a better future for Leo and for the world.
286
1066452
5131
و آینده بهتری برای "لیو" و جهان خلق کنم.
17:51
Thank you.
287
1071583
1811
متشکرم.
17:53
(Applause)
288
1073394
3785
(تشویق حضار)
درباره این وب سایت

این سایت ویدیوهای یوتیوب را به شما معرفی می کند که برای یادگیری زبان انگلیسی مفید هستند. دروس انگلیسی را خواهید دید که توسط معلمان درجه یک از سراسر جهان تدریس می شود. روی زیرنویس انگلیسی نمایش داده شده در هر صفحه ویدیو دوبار کلیک کنید تا ویدیو از آنجا پخش شود. زیرنویس‌ها با پخش ویدیو همگام می‌شوند. اگر نظر یا درخواستی دارید، لطفا با استفاده از این فرم تماس با ما تماس بگیرید.

https://forms.gle/WvT1wiN1qDtmnspy7