How we teach computers to understand pictures | Fei Fei Li

1,154,719 views ・ 2015-03-23

TED


אנא לחץ פעמיים על הכתוביות באנגלית למטה כדי להפעיל את הסרטון.

מתרגם: hila scherba מבקר: Ido Dekkers
00:14
Let me show you something.
0
14366
3738
בואו אני אראה לכם משהו.
00:18
(Video) Girl: Okay, that's a cat sitting in a bed.
1
18104
4156
(וידאו) ילדה: "אוקיי, זה חתול שיושב על מיטה.
00:22
The boy is petting the elephant.
2
22260
4040
הילד מלטף את הפיל.
00:26
Those are people that are going on an airplane.
3
26300
4354
אלה אנשים שעולים על מטוס.
00:30
That's a big airplane.
4
30654
2810
זה מטוס גדול."
00:33
Fei-Fei Li: This is a three-year-old child
5
33464
2206
זו ילדה בת שלוש שנים
00:35
describing what she sees in a series of photos.
6
35670
3679
מתארת מה היא רואה בסדרת תמונות.
00:39
She might still have a lot to learn about this world,
7
39349
2845
אולי יש לה עוד הרבה ללמוד על העולם,
00:42
but she's already an expert at one very important task:
8
42194
4549
אבל היא כבר מומחית במשימה אחת מאוד חשובה:
00:46
to make sense of what she sees.
9
46743
2846
להבין מה היא רואה.
00:50
Our society is more technologically advanced than ever.
10
50229
4226
החברה שלנו היא יותר מתקדמת טכנולוגית מאי פעם.
00:54
We send people to the moon, we make phones that talk to us
11
54455
3629
אנחנו שולחים אנשים לירח, אנחנו מייצרים טלפונים שמדברים אלינו
00:58
or customize radio stations that can play only music we like.
12
58084
4946
או מתאימים אישית תחנות רדיו שינגנו רק מוסיקה שאנחנו אוהבים.
01:03
Yet, our most advanced machines and computers
13
63030
4055
ועדיין, המכונות והמחשבים המתקדמים ביותר שלנו
01:07
still struggle at this task.
14
67085
2903
עדיין מתקשים במשימה הזו.
01:09
So I'm here today to give you a progress report
15
69988
3459
אז אני פה היום כדי לתת לכם דו"ח התקדמות
01:13
on the latest advances in our research in computer vision,
16
73447
4047
על ההתפתחויות האחרונות במחקר שלנו על ראיית מחשב,
01:17
one of the most frontier and potentially revolutionary
17
77494
4161
אחד מהטכנולוגיות החלוציות והמהפכניות ביותר
01:21
technologies in computer science.
18
81655
3206
במדעי המחשב.
01:24
Yes, we have prototyped cars that can drive by themselves,
19
84861
4551
נכון, יש לנו אבטיפוס של מכוניות שיכולות לנסוע בעצמן,
01:29
but without smart vision, they cannot really tell the difference
20
89412
3853
אבל בלי ראייה חכמה, הן לא יכולות באמת להבדיל
01:33
between a crumpled paper bag on the road, which can be run over,
21
93265
3970
בין שקית נייר מקופלת על הכביש, שאפשר לנסוע עליה,
01:37
and a rock that size, which should be avoided.
22
97235
3340
ואבן בגודל הזה, שצריך להימנע ממנה.
01:41
We have made fabulous megapixel cameras,
23
101415
3390
ייצרנו מצלמות מגהפיקסל מדהימות,
01:44
but we have not delivered sight to the blind.
24
104805
3135
אבל לא הצלחנו להביא ראייה לעיוורים.
01:48
Drones can fly over massive land,
25
108420
3305
מזל"טים יכולים לטוס מעל שטח עצום,
01:51
but don't have enough vision technology
26
111725
2134
אבל חסרי טכנולוגיית ראייה מספקת
01:53
to help us to track the changes of the rainforests.
27
113859
3461
בשביל לעזור לנו לעקוב אחרי השינויים ביערות הגשם.
01:57
Security cameras are everywhere,
28
117320
2950
מצלמות אבטחה נמצאות בכל מקום,
02:00
but they do not alert us when a child is drowning in a swimming pool.
29
120270
5067
אבל הן לא מתריעות כשילד טובע בבריכה.
02:06
Photos and videos are becoming an integral part of global life.
30
126167
5595
תמונות וסרטונים הופכים לחלק בלתי נפרד מהחיים הגלובליים.
02:11
They're being generated at a pace that's far beyond what any human,
31
131762
4087
הם נוצרים בקצב שהוא מעל לכל מה שכל אדם,
02:15
or teams of humans, could hope to view,
32
135849
2783
או קבוצות של אנשים, יכולים לקוות לצפות בהם,
02:18
and you and I are contributing to that at this TED.
33
138632
3921
ואתם ואני תורמים לזה בשיחת TED הזו.
02:22
Yet our most advanced software is still struggling at understanding
34
142553
5232
אבל התוכנה המתקדמת ביותר שלנו עדיין מתמודדת בלהבין
02:27
and managing this enormous content.
35
147785
3876
ולנהל את התוכן העצום הזה.
02:31
So in other words, collectively as a society,
36
151661
5272
אז במילים אחרות, במשותף כחברה,
02:36
we're very much blind,
37
156933
1746
אנחנו מאוד עיוורים,
02:38
because our smartest machines are still blind.
38
158679
3387
כי המכונות החכמות ביותר שלנו עדיין עיוורות.
02:43
"Why is this so hard?" you may ask.
39
163526
2926
אתם יכולים לשאול - "למה זה כל כך קשה?"
02:46
Cameras can take pictures like this one
40
166452
2693
מצלמות יכולות לקחת תמונות כמו זו,
02:49
by converting lights into a two-dimensional array of numbers
41
169145
3994
על ידי המרת אורות לשטח דו מימדי של מספרים,
02:53
known as pixels,
42
173139
1650
הידועים כפיקסלים,
02:54
but these are just lifeless numbers.
43
174789
2251
אבל אלו רק מספרים חסרי חיים.
02:57
They do not carry meaning in themselves.
44
177040
3111
הם לא נושאים איזושהי משמעות בעצמם.
03:00
Just like to hear is not the same as to listen,
45
180151
4343
כמו שלשמוע זה לא אותו דבר כמו להקשיב,
03:04
to take pictures is not the same as to see,
46
184494
4040
לקחת תמונות זה לא אותו דבר כמו לראות,
03:08
and by seeing, we really mean understanding.
47
188534
3829
ובלראות, אנחנו למעשה מתכוונים ללהבין.
03:13
In fact, it took Mother Nature 540 million years of hard work
48
193293
6177
למעשה, זה לקח לאימא טבע 540 מיליון שנים של עבודה קשה
03:19
to do this task,
49
199470
1973
לעשות את המשימה הזו,
03:21
and much of that effort
50
201443
1881
והרבה מהמאמץ הזה
03:23
went into developing the visual processing apparatus of our brains,
51
203324
5271
הלך על פיתוח מנגנון העיבוד החזותי של המוח שלנו,
03:28
not the eyes themselves.
52
208595
2647
לא העיניים עצמן.
03:31
So vision begins with the eyes,
53
211242
2747
אז ראייה מתחילה בעיניים,
03:33
but it truly takes place in the brain.
54
213989
3518
אבל באמת מתרחשת במוח.
03:38
So for 15 years now, starting from my Ph.D. at Caltech
55
218287
5060
אז במשך 15 שנים האחרונות, מהדוקטורט שלי במכון הטכנולוגי של קליפורניה
03:43
and then leading Stanford's Vision Lab,
56
223347
2926
ואז הובלת מעבדת הראייה בסטנפורד,
03:46
I've been working with my mentors, collaborators and students
57
226273
4396
אני עובדת עם המורים הרוחניים שלי, משתפי פעולה וסטודנטים,
03:50
to teach computers to see.
58
230669
2889
ללמד מחשבים לראות.
03:54
Our research field is called computer vision and machine learning.
59
234658
3294
תחום המחקר שלנו נקרא - ראייה ממוחשבת ולמידת מכונה.
03:57
It's part of the general field of artificial intelligence.
60
237952
3878
זה חלק מתחום כללי יותר של אינטלגנציה מלאכותית.
04:03
So ultimately, we want to teach the machines to see just like we do:
61
243000
5493
אז בסופו של דבר, אנחנו רוצים ללמד את המכונות לראות כמו שאנחנו רואים:
04:08
naming objects, identifying people, inferring 3D geometry of things,
62
248493
5387
לנקוב בשמות של אובייקטים, לזהות אנשים, להסיק גיאומטרית תלת מימדית של דברים,
04:13
understanding relations, emotions, actions and intentions.
63
253880
5688
להבין קשרים, רגשות, פעולות וכוונות.
04:19
You and I weave together entire stories of people, places and things
64
259568
6153
אתם ואני רוקמים ביחד סיפורים שלמים של אנשים, מקומות ודברים
04:25
the moment we lay our gaze on them.
65
265721
2164
ברגע שאנחנו מניחים עליהם את המבט שלנו.
04:28
The first step towards this goal is to teach a computer to see objects,
66
268955
5583
הצעד הראשון לכיוון המטרה הזו הוא ללמד מחשב לראות חפצים,
04:34
the building block of the visual world.
67
274538
3368
אבן הבניין של העולם החזותי.
04:37
In its simplest terms, imagine this teaching process
68
277906
4434
במונחים הכי פשוטים, דמיינו את תהליך הלמידה הזה
04:42
as showing the computers some training images
69
282340
2995
כלהראות למחשבים כמה תמונות אימון של אובייקט מסוים,
04:45
of a particular object, let's say cats,
70
285335
3321
בואו נאמר חתולים,
04:48
and designing a model that learns from these training images.
71
288656
4737
ועיצוב מודל שילמד מתמונות האימון האלו.
04:53
How hard can this be?
72
293393
2044
כמה קשה זה כבר יכול להיות?
04:55
After all, a cat is just a collection of shapes and colors,
73
295437
4052
אחרי הכל, חתול הוא פשוט אוסף של צורות וצבעים,
04:59
and this is what we did in the early days of object modeling.
74
299489
4086
וזה מה שאנחנו עשינו בימים הראשונים של שימוש כמודל תיאורטי באובייקטים.
05:03
We'd tell the computer algorithm in a mathematical language
75
303575
3622
היינו אומרים לאלגוריתם של המחשב בשפה מתמטית
05:07
that a cat has a round face, a chubby body,
76
307197
3343
שהפנים של חתול הן עגולות, גוף שמנמן,
05:10
two pointy ears, and a long tail,
77
310540
2299
שני אוזניים מחודדות, זנב ארוך,
05:12
and that looked all fine.
78
312839
1410
וזה היה נראה בסדר גמור.
05:14
But what about this cat?
79
314859
2113
אבל מה עם החתול הזה?
05:16
(Laughter)
80
316972
1091
(צחוק)
05:18
It's all curled up.
81
318063
1626
הוא כולו מכורבל.
05:19
Now you have to add another shape and viewpoint to the object model.
82
319689
4719
עכשיו צריך להוסיף עוד צורה ונקודת מבט למודל האובייקט.
05:24
But what if cats are hidden?
83
324408
1715
אבל מה אם חתולים מתחבאים?
05:27
What about these silly cats?
84
327143
2219
מה עם החתולים המטופשים האלו?
05:31
Now you get my point.
85
331112
2417
עכשיו אתם מתחילים להבין את הנקודה שלי.
05:33
Even something as simple as a household pet
86
333529
3367
אפילו משהו פשוט כמו חיית מחמד ביתית
05:36
can present an infinite number of variations to the object model,
87
336896
4504
יכול להציג אינסוף צורות למודל של אובייקט,
05:41
and that's just one object.
88
341400
2233
וזה רק אובייקט אחד.
05:44
So about eight years ago,
89
344573
2492
אז לפני 8 שנים בערך,
05:47
a very simple and profound observation changed my thinking.
90
347065
5030
הסתכלות מאוד פשוטה ומעמיקה שינתה את המחשבה שלי.
05:53
No one tells a child how to see,
91
353425
2685
אף אחד לא אומר לילד איך לראות,
05:56
especially in the early years.
92
356110
2261
במיוחד לא בשנים המוקדמות.
05:58
They learn this through real-world experiences and examples.
93
358371
5000
הם לומדים דרך הנסיון בעולם האמיתי ודוגמאות.
06:03
If you consider a child's eyes
94
363371
2740
אם תתייחסו לעיניים של ילד
06:06
as a pair of biological cameras,
95
366111
2554
כזוג מצלמות ביולוגיות
06:08
they take one picture about every 200 milliseconds,
96
368665
4180
הן לוקחות תמונה אחת בערך כל 200 אלפיות השנייה,
06:12
the average time an eye movement is made.
97
372845
3134
הזמן הממוצע של תנועת עין.
06:15
So by age three, a child would have seen hundreds of millions of pictures
98
375979
5550
אז עד גיל שלוש, ילד יראה מאות מיליוני תמונות
06:21
of the real world.
99
381529
1834
של העולם האמיתי.
06:23
That's a lot of training examples.
100
383363
2280
זה הרבה דוגמאות אימון.
06:26
So instead of focusing solely on better and better algorithms,
101
386383
5989
אז במקום להתרכז אך ורק על אלגוריתמים טובים יותר ויותר,
06:32
my insight was to give the algorithms the kind of training data
102
392372
5272
התובנה שלי היתה לתת לאלגוריתמים את סוג מידע האימון
06:37
that a child was given through experiences
103
397644
3319
שילד מקבל דרך ניסיון
06:40
in both quantity and quality.
104
400963
3878
גם בכמות וגם באיכות.
06:44
Once we know this,
105
404841
1858
ברגע שאנחנו יודעים את זה,
06:46
we knew we needed to collect a data set
106
406699
2971
ידענו שאנחנו צריכים לאסוף מערכת מידע
06:49
that has far more images than we have ever had before,
107
409670
4459
שיש בה הרבה יותר תמונות ממה שהיו לנו אי פעם,
06:54
perhaps thousands of times more,
108
414129
2577
אולי פי כמה אלפים יותר,
06:56
and together with Professor Kai Li at Princeton University,
109
416706
4111
ויחד עם פרופסור קאי לי מאוניברסיטת פרינסטון,
07:00
we launched the ImageNet project in 2007.
110
420817
4752
התחלנו את פרוייקט אימג'נט ב-2007.
07:05
Luckily, we didn't have to mount a camera on our head
111
425569
3838
למזלנו, לא היינו צריכים לשים מצלמה על ראשינו
07:09
and wait for many years.
112
429407
1764
ולחכות הרבה שנים.
07:11
We went to the Internet,
113
431171
1463
ניגשנו לאינטרנט,
07:12
the biggest treasure trove of pictures that humans have ever created.
114
432634
4436
האוצר הגדול ביותר של תמונות שהאדם יצר אי פעם.
07:17
We downloaded nearly a billion images
115
437070
3041
הורדנו כמעט מיליארד תמונות
07:20
and used crowdsourcing technology like the Amazon Mechanical Turk platform
116
440111
5880
והשתמשנו בפעילות של הציבור הרחב כמו הפלטפורמת המכניקל טורק של אמזון
07:25
to help us to label these images.
117
445991
2339
07:28
At its peak, ImageNet was one of the biggest employers
118
448330
4900
בשיאו, אימג'נט היה אחד המעסיקים הגדולים
07:33
of the Amazon Mechanical Turk workers:
119
453230
2996
של פלטפורמת טורק של אמזון:
07:36
together, almost 50,000 workers
120
456226
3854
ביחד, כמעט 50,000 עובדים
07:40
from 167 countries around the world
121
460080
4040
מ-167 מדינות מסביב לעולם
07:44
helped us to clean, sort and label
122
464120
3947
עזרו לנו לנקות, לסדר ולתייג
07:48
nearly a billion candidate images.
123
468067
3575
כמעט מיליארד תמונות מועמדות.
07:52
That was how much effort it took
124
472612
2653
זה כמה מאמץ נדרש
07:55
to capture even a fraction of the imagery
125
475265
3900
כדי ללכוד שבריר מיכולת הדימוי
07:59
a child's mind takes in in the early developmental years.
126
479165
4171
שמוח של ילד מסוגל לעשות בשנות ההתפתחות המוקדמות.
08:04
In hindsight, this idea of using big data
127
484148
3902
בדיעבד, הרעיון להשתמש בביג דאטה
08:08
to train computer algorithms may seem obvious now,
128
488050
4550
בשביל לאמן אלגוריתם של מחשב נראה אולי ברור עכשיו,
08:12
but back in 2007, it was not so obvious.
129
492600
4110
אבל ב-2007, זה לא היה כזה ברור.
08:16
We were fairly alone on this journey for quite a while.
130
496710
3878
היינו יחסית לבד במסע הזה למשך זמן לא קצר.
08:20
Some very friendly colleagues advised me to do something more useful for my tenure,
131
500588
5003
כמה עמיתים ידידותיים הציעו לי לעשות משהו שימושי יותר בשביל הקביעות שלי,
08:25
and we were constantly struggling for research funding.
132
505591
4342
והיינו נאבקים כל הזמן על תקציבי מחקר.
08:29
Once, I even joked to my graduate students
133
509933
2485
פעם אחת, התבדחתי עם הסטודנטים שלי לתואר שני
08:32
that I would just reopen my dry cleaner's shop to fund ImageNet.
134
512418
4063
שאני פשוט אפתח מחדש את החנות לניקוי יבש שלי כדי לממן את אימג'נט.
08:36
After all, that's how I funded my college years.
135
516481
4761
אחרי הכל, ככה מימנתי את שנות הלימודים שלי.
08:41
So we carried on.
136
521242
1856
אז המשכנו.
08:43
In 2009, the ImageNet project delivered
137
523098
3715
ב-2009, פרוייקט אימג'נט סיפק
08:46
a database of 15 million images
138
526813
4042
בסיס נתונים של 15 מיליון תמונות
08:50
across 22,000 classes of objects and things
139
530855
4805
לרוחב 22,000 סוגי אובייקטים ודברים
08:55
organized by everyday English words.
140
535660
3320
מאורגנים לפי שפה אנגלית יומיומית.
08:58
In both quantity and quality,
141
538980
2926
גם בכמות וגם באיכות,
09:01
this was an unprecedented scale.
142
541906
2972
זה היה קנה מידה חסר תקדים.
09:04
As an example, in the case of cats,
143
544878
3461
כדוגמא, במקרה של חתולים,
09:08
we have more than 62,000 cats
144
548339
2809
יש לנו יותר מ-62,000 חתולים
09:11
of all kinds of looks and poses
145
551148
4110
בכל מיני מראות ותנוחות
09:15
and across all species of domestic and wild cats.
146
555258
5223
ועל פני כל המינים של חתולים ביתיים ופראיים.
09:20
We were thrilled to have put together ImageNet,
147
560481
3344
היינו נרגשים להרכיב את אימג'נט,
09:23
and we wanted the whole research world to benefit from it,
148
563825
3738
ורצינו שכל עולם המחקר ירוויח ממנו,
09:27
so in the TED fashion, we opened up the entire data set
149
567563
4041
אז ברוח TED, פתחנו את כל מערכת הנתונים שלנו
09:31
to the worldwide research community for free.
150
571604
3592
לקהילת המחקר ברחבי העולם בחינם.
09:36
(Applause)
151
576636
4000
(מחיאות כפיים)
09:41
Now that we have the data to nourish our computer brain,
152
581416
4538
עכשיו כשיש לנו את הנתונים להזין במוח הממוחשב שלנו,
09:45
we're ready to come back to the algorithms themselves.
153
585954
3737
אנחנו מוכנים לחזור לאלגוריתמים עצמם.
09:49
As it turned out, the wealth of information provided by ImageNet
154
589691
5178
כפי שהתברר, עושר המידע שסופק על ידי אימג'נט
09:54
was a perfect match to a particular class of machine learning algorithms
155
594869
4806
היה התאמה מושלמת לסוג מסויים של אלגוריתמים ללמידת מכונה
09:59
called convolutional neural network,
156
599675
2415
הנקראים רשת עצבים מורכבת,
10:02
pioneered by Kunihiko Fukushima, Geoff Hinton, and Yann LeCun
157
602090
5248
שפרצו דרך על ידי קוניהיקו פוקושימה, ג'ף הינטון ויאן לה-קון
10:07
back in the 1970s and '80s.
158
607338
3645
בשנות ה-70 וה-80.
10:10
Just like the brain consists of billions of highly connected neurons,
159
610983
5619
בדיוק כמו שהמוח מכיל מיליארדי נוירונים המחוברים היטב,
10:16
a basic operating unit in a neural network
160
616602
3854
יחידת הפעלה בסיסית ברשת הנויראלית
10:20
is a neuron-like node.
161
620456
2415
היא הצומת מנתב המידע דמוי נוירון.
10:22
It takes input from other nodes
162
622871
2554
הוא מקבל מידע מצמתים אחרים
10:25
and sends output to others.
163
625425
2718
ושולח אותם לאחרים.
10:28
Moreover, these hundreds of thousands or even millions of nodes
164
628143
4713
יתרה מזו, מאות אלפי או אולי אפילו מיליוני הצמתים
10:32
are organized in hierarchical layers,
165
632856
3227
מאורגנים בשכבות היררכיות,
10:36
also similar to the brain.
166
636083
2554
גם כן בדומה למוח.
10:38
In a typical neural network we use to train our object recognition model,
167
638637
4783
ברשת נויראלית טיפוסית אנו משתמשים כדי לאמן את המודל זיהוי האובייקטים שלנו,
10:43
it has 24 million nodes,
168
643420
3181
יש בו 24 מיליון צמתים,
10:46
140 million parameters,
169
646601
3297
140 מיליון משתנים,
10:49
and 15 billion connections.
170
649898
2763
ו-15 מיליארד קשרים.
10:52
That's an enormous model.
171
652661
2415
זה מודל ענק.
10:55
Powered by the massive data from ImageNet
172
655076
3901
המונע על ידי מידע נתונים עצום מאימג'נט
10:58
and the modern CPUs and GPUs to train such a humongous model,
173
658977
5433
ויחידות העיבוד המרכזיות והמעבדים הגרפיים לאימון מודל כזה כביר,
11:04
the convolutional neural network
174
664410
2369
הרשת הנויראלית המורכבת
11:06
blossomed in a way that no one expected.
175
666779
3436
פרחה בצורה שאף אחד לא ציפה לה.
11:10
It became the winning architecture
176
670215
2508
זה הפך להיות הארכיטקטורה המנצחת
11:12
to generate exciting new results in object recognition.
177
672723
5340
ביצירת תוצאות חדשות ומרגשות בזיהוי אובייקטים.
11:18
This is a computer telling us
178
678063
2810
זה מחשב שאומר לנו
11:20
this picture contains a cat
179
680873
2300
שהתמונה הזו מכילה חתול
11:23
and where the cat is.
180
683173
1903
ואיפה נמצא החתול.
11:25
Of course there are more things than cats,
181
685076
2112
כמובן שיש יותר דברים מחתולים,
11:27
so here's a computer algorithm telling us
182
687188
2438
אז הנה אלגוריתם של מחשב אומר לנו
11:29
the picture contains a boy and a teddy bear;
183
689626
3274
שהתמונה מכילה ילד ובובת דובי;
11:32
a dog, a person, and a small kite in the background;
184
692900
4366
כלב, אדם, ועפיפון קטן ברקע;
11:37
or a picture of very busy things
185
697266
3135
או תמונה של דברים מאוד עסוקים
11:40
like a man, a skateboard, railings, a lampost, and so on.
186
700401
4644
כמו איש, סקייטבורד, מעקות, עמוד תאורה וכן הלאה.
11:45
Sometimes, when the computer is not so confident about what it sees,
187
705045
5293
לפעמים, כשהמחשב לא בטוח לגמרי במה שהוא רואה,
11:51
we have taught it to be smart enough
188
711498
2276
לימדנו אותו להיות חכם מספיק
11:53
to give us a safe answer instead of committing too much,
189
713774
3878
כדי לתת לנו תשובה בטוחה במקום להתחייב יותר מדי,
11:57
just like we would do,
190
717652
2811
בדיוק כמו שאנחנו היינו עושים,
12:00
but other times our computer algorithm is remarkable at telling us
191
720463
4666
אבל בפעמים אחרות האלגוריתם הממוחשב שלנו מצויין בלהגיד לנו
12:05
what exactly the objects are,
192
725129
2253
מה בדיוק הם האובייקטים,
12:07
like the make, model, year of the cars.
193
727382
3436
כמו היצרן, המודל והשנה של מכוניות.
12:10
We applied this algorithm to millions of Google Street View images
194
730818
5386
יישמנו את האלגוריתם הזה למיליוני תמונות של מפת הרחובות של גוגל
12:16
across hundreds of American cities,
195
736204
3135
במאות ערים אמריקניות,
12:19
and we have learned something really interesting:
196
739339
2926
ולמדנו משהו מאוד מעניין:
12:22
first, it confirmed our common wisdom
197
742265
3320
דבר ראשון, זה אימת את הידע הנפוץ
12:25
that car prices correlate very well
198
745585
3290
שמחירי מכוניות נמצאים בקשר ישיר
12:28
with household incomes.
199
748875
2345
להכנסות משק הבית.
12:31
But surprisingly, car prices also correlate well
200
751220
4527
אבל באופן מפתיע, מחירי המכוניות נמצאים בקשר ישיר
12:35
with crime rates in cities,
201
755747
2300
עם רמת הפשע בערים,
12:39
or voting patterns by zip codes.
202
759007
3963
או תבנית הצבעות על פי מיקודים.
12:44
So wait a minute. Is that it?
203
764060
2206
אז רגע. זה הכל?
12:46
Has the computer already matched or even surpassed human capabilities?
204
766266
5153
האם המחשב השווה או אפילו עקף את היכולות האנושיות?
12:51
Not so fast.
205
771419
2138
לא כל כך מהר.
12:53
So far, we have just taught the computer to see objects.
206
773557
4923
עד עכשיו, אנחנו רק לימדנו את המחשב לראות אובייקטים.
12:58
This is like a small child learning to utter a few nouns.
207
778480
4644
זה כמו שילד קטן לומד לבטא מספר שמות עצם.
13:03
It's an incredible accomplishment,
208
783124
2670
זה הישג מדהים,
13:05
but it's only the first step.
209
785794
2460
אבל זה רק הצעד הראשון.
13:08
Soon, another developmental milestone will be hit,
210
788254
3762
בקרוב, עוד אבן דרך התפתחותית תושג,
13:12
and children begin to communicate in sentences.
211
792016
3461
וילדים מתחילים לתקשר במשפטים.
13:15
So instead of saying this is a cat in the picture,
212
795477
4224
אז במקום להגיד - זה חתול בתמונה,
13:19
you already heard the little girl telling us this is a cat lying on a bed.
213
799701
5202
כבר שמעתם את הילדה הקטנה אומרת לנו שזה חתול ששוכב על מיטה.
13:24
So to teach a computer to see a picture and generate sentences,
214
804903
5595
אז ללמד מחשב לראות תמונה ולייצר משפטים,
13:30
the marriage between big data and machine learning algorithm
215
810498
3948
הנישואים בין ביג דאטה לאלגוריתם לימוד מכונה
13:34
has to take another step.
216
814446
2275
צריכים לקחת עוד צעד.
13:36
Now, the computer has to learn from both pictures
217
816721
4156
עכשיו, המחשב צריך ללמוד משתי התמונות
13:40
as well as natural language sentences
218
820877
2856
כמו גם ממשפטים טבעיים בשפה
13:43
generated by humans.
219
823733
3322
שנוצרים על ידי בני אדם.
13:47
Just like the brain integrates vision and language,
220
827055
3853
בדיוק כמו שהמוח מייצר ראייה ושפה,
13:50
we developed a model that connects parts of visual things
221
830908
5201
אנחנו פיתחנו מודל שמקשר חלקים של דברים ויזואלים
13:56
like visual snippets
222
836109
1904
כמו מקטעים קצרים
13:58
with words and phrases in sentences.
223
838013
4203
עם מילים וביטויים במשפטים.
14:02
About four months ago,
224
842216
2763
לפני ארבעה חודשים בערך,
14:04
we finally tied all this together
225
844979
2647
סוף סוף קשרנו את כל זה ביחד
14:07
and produced one of the first computer vision models
226
847626
3784
ויצרנו את אחד ממודלי הראייה הממוחשבת הראשונים
14:11
that is capable of generating a human-like sentence
227
851410
3994
שמסוגלים לייצר משפט בדומה לאדם
14:15
when it sees a picture for the first time.
228
855404
3506
כאשר הוא רואה תמונה בפעם הראשונה.
14:18
Now, I'm ready to show you what the computer says
229
858910
4644
עכשיו, אני מוכנה להראות לכם מה המחשב אומר
14:23
when it sees the picture
230
863554
1975
כשהוא רואה את התמונה
14:25
that the little girl saw at the beginning of this talk.
231
865529
3830
שהילדה הקטנה ראתה בתחילת השיחה הזו.
14:31
(Video) Computer: A man is standing next to an elephant.
232
871519
3344
(וידאו) מחשב: איש עומד ליד פיל.
14:36
A large airplane sitting on top of an airport runway.
233
876393
3634
מטוס גדול עומד על מסלול טיסה.
14:41
FFL: Of course, we're still working hard to improve our algorithms,
234
881057
4212
פיי פיי: כמובן, אנחנו עדיין עובדים קשה כדי לשפר את האלגוריתמים שלנו,
14:45
and it still has a lot to learn.
235
885269
2596
ועדיין יש לו הרבה ללמוד.
14:47
(Applause)
236
887865
2291
(מחיאות כפיים)
14:51
And the computer still makes mistakes.
237
891556
3321
והמחשב עדיין עושה טעויות.
14:54
(Video) Computer: A cat lying on a bed in a blanket.
238
894877
3391
(וידאו) מחשב: חתול שוכב על מיטה בשמיכה.
14:58
FFL: So of course, when it sees too many cats,
239
898268
2553
פיי פיי: אז כמובן, כשהוא רואה יותר מדי חתולים,
15:00
it thinks everything might look like a cat.
240
900821
2926
הוא חושב שהכל יכול להיראות כמו חתול.
15:05
(Video) Computer: A young boy is holding a baseball bat.
241
905317
2864
(וידאו) מחשב: ילד צעיר מחזיק אלת בייסבול.
15:08
(Laughter)
242
908181
1765
(צחוק)
15:09
FFL: Or, if it hasn't seen a toothbrush, it confuses it with a baseball bat.
243
909946
4583
פיי פיי: או אם הוא לא ראה מברשת שיניים, הוא מבלבל את זה עם אלת בייסבול.
15:15
(Video) Computer: A man riding a horse down a street next to a building.
244
915309
3434
(וידאו) מחשב: איש רוכב על סוס במורד הרחוב ליד בניין.
15:18
(Laughter)
245
918743
2023
(צחוק)
15:20
FFL: We haven't taught Art 101 to the computers.
246
920766
3552
פיי פיי: לא לימדנו את המחשבים מבוא לאומנות.
15:25
(Video) Computer: A zebra standing in a field of grass.
247
925768
2884
(וידאו) מחשב: זברה עומדת בשדה עשב.
15:28
FFL: And it hasn't learned to appreciate the stunning beauty of nature
248
928652
3367
פיי פיי: והוא לא למד להעריך את היופי המדהים של הטבע
15:32
like you and I do.
249
932019
2438
כמוני וכמוכם.
15:34
So it has been a long journey.
250
934457
2832
אז עדיין יש לו דרך ארוכה.
15:37
To get from age zero to three was hard.
251
937289
4226
להגיע מגיל אפס לשלוש היה קשה.
15:41
The real challenge is to go from three to 13 and far beyond.
252
941515
5596
האתגר האמיתי הוא להגיע משלוש לשלוש עשרה ומעבר לזה.
15:47
Let me remind you with this picture of the boy and the cake again.
253
947111
4365
תרשו לי להזכיר לכם עם התמונה של הילד והעוגה שוב.
15:51
So far, we have taught the computer to see objects
254
951476
4064
עד עכשיו, לימדנו את המחשב לראות אובייקטים
15:55
or even tell us a simple story when seeing a picture.
255
955540
4458
או אפילו לספר לנו סיפור פשוט כשהוא רואה תמונה.
15:59
(Video) Computer: A person sitting at a table with a cake.
256
959998
3576
(וידאו) מחשב: אדם יושב ליד שולחן עם עוגה.
16:03
FFL: But there's so much more to this picture
257
963574
2630
פיי פיי: אבל יש עוד כל כך הרבה בתמונה הזו
16:06
than just a person and a cake.
258
966204
2270
מאשר רק אדם ועוגה.
16:08
What the computer doesn't see is that this is a special Italian cake
259
968474
4467
מה שהמחשב לא רואה זה שזו עוגה איטלקית מיוחדת
16:12
that's only served during Easter time.
260
972941
3217
שמוגשת רק בחג הפסחא.
16:16
The boy is wearing his favorite t-shirt
261
976158
3205
הילד לובש את החולצה האהובה עליו
16:19
given to him as a gift by his father after a trip to Sydney,
262
979363
3970
שניתנה לו על ידי אביו אחרי טיול בסידני,
16:23
and you and I can all tell how happy he is
263
983333
3808
ואתם ואני יכוים להגיד כמה מאושר הוא
16:27
and what's exactly on his mind at that moment.
264
987141
3203
ומה בדיוק הוא חושב ברגע הזה.
16:31
This is my son Leo.
265
991214
3125
זה בני ליאו.
16:34
On my quest for visual intelligence,
266
994339
2624
במסע שלי לאינטלגנציה חזותית,
16:36
I think of Leo constantly
267
996963
2391
אני כל הזמן חושבת על ליאו
16:39
and the future world he will live in.
268
999354
2903
ועל העולם העתידי בו הוא יחיה.
16:42
When machines can see,
269
1002257
2021
כשמכונות יכולות לראות,
16:44
doctors and nurses will have extra pairs of tireless eyes
270
1004278
4712
לרופאים ואחיות יהיה עוד זוג עיניים שלא מתעייפות
16:48
to help them to diagnose and take care of patients.
271
1008990
4092
כדי לעזור להם לאבחן ולדאוג למטופלים.
16:53
Cars will run smarter and safer on the road.
272
1013082
4383
מכוניות ינועו בצורה חכמה יותר ובטוחה יותר בדרכים.
16:57
Robots, not just humans,
273
1017465
2694
רובוטים, לא רק בני אדם,
17:00
will help us to brave the disaster zones to save the trapped and wounded.
274
1020159
4849
יעזרו לנו לעמוד בגבורה באזורי אסון ולהציל את הלכודים והפצועים.
17:05
We will discover new species, better materials,
275
1025798
3796
אנחנו נגלה מינים חדשים, חומרים טובים יותר,
17:09
and explore unseen frontiers with the help of the machines.
276
1029594
4509
ונחקור גבולות חדשים עם עזרה של המכונות.
17:15
Little by little, we're giving sight to the machines.
277
1035113
4167
לאט לאט, אנחנו נותנים יכולת ראייה למכונות.
17:19
First, we teach them to see.
278
1039280
2798
קודם כל, אנחנו מלמדים אותם לראות.
17:22
Then, they help us to see better.
279
1042078
2763
לאחר מכן, הם יעזרו לנו לראות טוב יותר.
17:24
For the first time, human eyes won't be the only ones
280
1044841
4165
בפעם הראשונה, העיניים האנושיות לא יהיו העיניים היחידות
17:29
pondering and exploring our world.
281
1049006
2934
שמהרהרות וחוקרות את העולם.
17:31
We will not only use the machines for their intelligence,
282
1051940
3460
אנחנו לא רק נשתמש במכונות בשביל האינטליגנציה שלהם,
17:35
we will also collaborate with them in ways that we cannot even imagine.
283
1055400
6179
אנחנו גם נשתף איתן פעולה בדרכים שאנחנו אפילו לא יכולים לדמיין.
17:41
This is my quest:
284
1061579
2161
זה המסע שלי:
17:43
to give computers visual intelligence
285
1063740
2712
לתת למחשבים תבונה חזותית
17:46
and to create a better future for Leo and for the world.
286
1066452
5131
וליצור עתיד טוב יותר בשביל ליאו ובשביל העולם.
17:51
Thank you.
287
1071583
1811
תודה רבה.
17:53
(Applause)
288
1073394
3785
(מחיאות כפיים)
על אתר זה

אתר זה יציג בפניכם סרטוני YouTube המועילים ללימוד אנגלית. תוכלו לראות שיעורי אנגלית המועברים על ידי מורים מהשורה הראשונה מרחבי העולם. לחץ פעמיים על הכתוביות באנגלית המוצגות בכל דף וידאו כדי להפעיל את הסרטון משם. הכתוביות גוללות בסנכרון עם הפעלת הווידאו. אם יש לך הערות או בקשות, אנא צור איתנו קשר באמצעות טופס יצירת קשר זה.

https://forms.gle/WvT1wiN1qDtmnspy7