How we teach computers to understand pictures | Fei Fei Li

1,159,394 views ・ 2015-03-23

TED


โปรดดับเบิลคลิกที่คำบรรยายภาษาอังกฤษด้านล่างเพื่อเล่นวิดีโอ

00:14
Let me show you something.
0
14366
3738
ฉันขอแสดงอะไรบางอย่าง
00:18
(Video) Girl: Okay, that's a cat sitting in a bed.
1
18104
4156
(วิดีโอ) เด็กหญิง: เอาล่ะ นี่คือแมวนั่งอยู่บนเตียง
00:22
The boy is petting the elephant.
2
22260
4040
เด็กชายกำลังลูบคลำช้าง
00:26
Those are people that are going on an airplane.
3
26300
4354
นั่นคือคนที่กำลังเดินทางในเครื่องบิน
00:30
That's a big airplane.
4
30654
2810
นั่นคือเครื่องบินขนาดใหญ่
00:33
Fei-Fei Li: This is a three-year-old child
5
33464
2206
Fei-Fei Li: นี่เป็นเด็กอายุสามขวบ
00:35
describing what she sees in a series of photos.
6
35670
3679
กำลังอธิบายสิ่งที่เธอเห็นในชุดรูปภาพ
00:39
She might still have a lot to learn about this world,
7
39349
2845
เธออาจจะมีสิ่งของจำนวนมากที่จะ เรียนรู้เกี่ยวกับโลกนี้
00:42
but she's already an expert at one very important task:
8
42194
4549
แต่เธอก็เป็นผู้เชี่ยวชาญในงานที่สำคัญมาก
00:46
to make sense of what she sees.
9
46743
2846
ที่จะทำความเข้าใจกับสิ่งที่เธอเห็น
00:50
Our society is more technologically advanced than ever.
10
50229
4226
สังคมของเราก้าวหน้ามากขึ้นกว่าเดิม
00:54
We send people to the moon, we make phones that talk to us
11
54455
3629
เราส่งคนไปยังดวงจันทร์ เราทำโทรศัพท์ ที่พูดคุยกับเรา
00:58
or customize radio stations that can play only music we like.
12
58084
4946
หรือปรับแต่งสถานีวิทยุที่สามารถเล่น เฉพาะเพลงที่เราชอบเท่านั้น
01:03
Yet, our most advanced machines and computers
13
63030
4055
แต่เครื่องที่ทันสมัยที่สุดและคอมพิวเตอร์ ของเรา
01:07
still struggle at this task.
14
67085
2903
ยังคงต่อสู้กับงานนี้
01:09
So I'm here today to give you a progress report
15
69988
3459
วันนี้ ฉันมาที่นี่เพื่อรายงานความคืบหน้า
01:13
on the latest advances in our research in computer vision,
16
73447
4047
เกี่ยวกับความก้าวหน้าล่าสุดในการวิจัย ของเรา คอมพิวเตอร์ที่มองเห็น
01:17
one of the most frontier and potentially revolutionary
17
77494
4161
หนึ่งในแนวพรมแดนและการปฏิวัติส่วนใหญ่
01:21
technologies in computer science.
18
81655
3206
เทคโนโลยีในวิทยาการคอมพิวเตอร์
01:24
Yes, we have prototyped cars that can drive by themselves,
19
84861
4551
ใช่ เรามีรถยนต์ต้นแบบที่สามารถขับขี่ ด้วยตัวเอง
01:29
but without smart vision, they cannot really tell the difference
20
89412
3853
แต่ไม่มีวิสัยทัศน์ที่ฉลาด พวกนั้น ไม่สามารถบอกความแตกต่าง
01:33
between a crumpled paper bag on the road, which can be run over,
21
93265
3970
ระหว่างถุงกระดาษยู่ยี่บนถนนซึ่ง สามารถเรียกวิ่งทับได้
01:37
and a rock that size, which should be avoided.
22
97235
3340
กับหินในขนาดที่ควรหลีกเลี่ยง
01:41
We have made fabulous megapixel cameras,
23
101415
3390
เราได้ทำกล้องล้านพิกเซลที่ยอดเยี่ยม
01:44
but we have not delivered sight to the blind.
24
104805
3135
แต่เราไม่ได้ให้การมองเห็นแก่คนตาบอด
01:48
Drones can fly over massive land,
25
108420
3305
โดรนสามารถบินผ่านพื้นดินขนาดใหญ่
01:51
but don't have enough vision technology
26
111725
2134
แต่ไม่ได้มีเทคโนโลยีการมองเห็นเพียงพอ
01:53
to help us to track the changes of the rainforests.
27
113859
3461
เพื่อช่วยในการติดตามการเปลี่ยนแปลง ของป่าฝน
01:57
Security cameras are everywhere,
28
117320
2950
กล้องรักษาความปลอดภัยมีอยู่ทั่วไป
02:00
but they do not alert us when a child is drowning in a swimming pool.
29
120270
5067
แต่กล้องไม่แจ้งเตือนเราเมื่อเด็กกำลัง จมน้ำในสระว่ายน้ำ
02:06
Photos and videos are becoming an integral part of global life.
30
126167
5595
ภาพถ่ายและวิดีโอกลายเป็นส่วนสำคัญ ของชีวิตในโลก
02:11
They're being generated at a pace that's far beyond what any human,
31
131762
4087
กล้องถูกสร้างขึ้นด้วยความเร็วที่ไกล เกินกว่าสิ่งที่มนุษย์
02:15
or teams of humans, could hope to view,
32
135849
2783
หรือทีมงานของมนุษย์สามารถหวังว่าจะเห็น
02:18
and you and I are contributing to that at this TED.
33
138632
3921
และคุณและฉันมีส่วนร่วมในกรณีนี้ที่ TED นี้
02:22
Yet our most advanced software is still struggling at understanding
34
142553
5232
แต่ซอฟต์แวร์ขั้นสูงที่สุดของเรา ยังคงต้องดิ้นรนเพื่อให้เข้าใจ
02:27
and managing this enormous content.
35
147785
3876
และจัดการกับเนื้อหาขนาดใหญ่นี้
02:31
So in other words, collectively as a society,
36
151661
5272
ดังนั้นในคำอื่นๆ เรียกรวมกันว่าเป็นสังคม
02:36
we're very much blind,
37
156933
1746
เราเป็นคนตาบอดมาก
02:38
because our smartest machines are still blind.
38
158679
3387
เพราะเครื่องที่ชาญฉลาดของเรา ยังคงตาบอด
02:43
"Why is this so hard?" you may ask.
39
163526
2926
"ทำไมถึงยากมาก" คุณอาจถาม
02:46
Cameras can take pictures like this one
40
166452
2693
กล้องสามารถถ่ายรูปได้เช่นนี้
02:49
by converting lights into a two-dimensional array of numbers
41
169145
3994
โดยการแปลงแสงเป็นแถวสองมิติ ของตัวเลข
02:53
known as pixels,
42
173139
1650
เรียกว่าพิกเซล
02:54
but these are just lifeless numbers.
43
174789
2251
แต่สิ่งเหล่านี้เป็นเพียงตัวเลขที่ตาย
02:57
They do not carry meaning in themselves.
44
177040
3111
พิกเซลไม่มีความหมายในตัวเอง
03:00
Just like to hear is not the same as to listen,
45
180151
4343
เช่นเดียวกับที่ได้ยินไม่เหมือนกับการฟัง
03:04
to take pictures is not the same as to see,
46
184494
4040
การถ่ายภาพไม่ได้เหมือนกับการดู
03:08
and by seeing, we really mean understanding.
47
188534
3829
และโดยการเห็น เราหมายถึง ความเข้าใจจริงๆ
03:13
In fact, it took Mother Nature 540 million years of hard work
48
193293
6177
ในความเป็นจริงแล้ว ธรรมชาติต้อง ใช้เวลา 540 ล้านปีในการทำงานหนัก
03:19
to do this task,
49
199470
1973
เพื่อทำภารกิจนี้
03:21
and much of that effort
50
201443
1881
และความพยายามส่วนมาก
03:23
went into developing the visual processing apparatus of our brains,
51
203324
5271
เข้าไปในการพัฒนาอุปกรณ์การประมวลผล ภาพของสมองของเรา
03:28
not the eyes themselves.
52
208595
2647
ไม่ใช่ตาเอง
03:31
So vision begins with the eyes,
53
211242
2747
ดังนั้นการมองเห็นเริ่มต้นด้วยดวงตา
03:33
but it truly takes place in the brain.
54
213989
3518
แต่เกิดขึ้นอย่างแท้จริงในสมอง
03:38
So for 15 years now, starting from my Ph.D. at Caltech
55
218287
5060
ดังนั้น เวลา 15 ปีตอนนี้ เริ่มต้นจาก ฉันทำปริญญา Ph.D. ที่ Caltech
03:43
and then leading Stanford's Vision Lab,
56
223347
2926
และจากนั้นก็บริหารห้องแล็บ การมองเห็นของ Stanford
03:46
I've been working with my mentors, collaborators and students
57
226273
4396
ฉันได้ทำงานร่วมกับพี่เลี้ยง ผู้ทำงาน ร่วมกันและนักเรียนของฉัน
03:50
to teach computers to see.
58
230669
2889
สอนคอมพิวเตอร์ให้ดู
03:54
Our research field is called computer vision and machine learning.
59
234658
3294
สาขาการวิจัยของเราเรียกว่า computer vision และ machine learning
03:57
It's part of the general field of artificial intelligence.
60
237952
3878
เป็นส่วนหนึ่งของสาขาวิชาปัญญาประดิษฐ์
04:03
So ultimately, we want to teach the machines to see just like we do:
61
243000
5493
ดังนั้น ในที่สุดเราต้องการสอนเครื่อง ให้เห็นเช่นเดียวกับที่เราเห็น
04:08
naming objects, identifying people, inferring 3D geometry of things,
62
248493
5387
การตั้งชื่อวัตถุ ระบุบุคคล คาดคะเน รูปทรงเรขาคณิต 3D ของสิ่งของ
04:13
understanding relations, emotions, actions and intentions.
63
253880
5688
เข้าใจความสัมพันธ์ อารมณ์ การกระทำและเจตนา
04:19
You and I weave together entire stories of people, places and things
64
259568
6153
คุณและฉันสานเรื่องราวทั้งหมดของ ผู้คน สถานที่ และสิ่งต่างๆ
04:25
the moment we lay our gaze on them.
65
265721
2164
ขณะที่เราจ้องสายตาของเราไว้
04:28
The first step towards this goal is to teach a computer to see objects,
66
268955
5583
ขั้นตอนแรกสู่เป้าหมายนี้คือ การสอน คอมพิวเตอร์ให้ดูวัตถุ
04:34
the building block of the visual world.
67
274538
3368
โคงสร้างของโลกของภาพ
04:37
In its simplest terms, imagine this teaching process
68
277906
4434
ในแง่ที่ง่ายที่สุด ลองจินตนาการ กระบวนการเรียนการสอนนี้
04:42
as showing the computers some training images
69
282340
2995
แสดงคอมพิวเตอร์ภาพการฝึกซ้อม บางอย่าง
04:45
of a particular object, let's say cats,
70
285335
3321
ของวัตถุเฉพาะ สมมติว่าเป็นแมว
04:48
and designing a model that learns from these training images.
71
288656
4737
และการออกแบบรูปแบบที่เรียนรู้จาก ภาพการฝึกซ้อมเหล่านี้
04:53
How hard can this be?
72
293393
2044
มันยากขนาดไหน
04:55
After all, a cat is just a collection of shapes and colors,
73
295437
4052
ท้ายที่สุด แมวเป็นเพียงชุดของ รูปทรงและสี
04:59
and this is what we did in the early days of object modeling.
74
299489
4086
และนี่คือสิ่งที่เราทำในวันแรกๆ ของการสร้างโมเดลวัตถุ
05:03
We'd tell the computer algorithm in a mathematical language
75
303575
3622
เราจะบอกอัลกอริธีมของคอมพิวเตอร์ ด้วยภาษาทางคณิตศาสตร์
05:07
that a cat has a round face, a chubby body,
76
307197
3343
ว่าแมวมีใบหน้ากลม ลำตัวอ้วน
05:10
two pointy ears, and a long tail,
77
310540
2299
มีสองหูแหลม และหางยาว
05:12
and that looked all fine.
78
312839
1410
และดูดีทั้งหมด
05:14
But what about this cat?
79
314859
2113
แต่อะไรเกี่ยวกับแมวตัวนี้ล่ะ
05:16
(Laughter)
80
316972
1091
(เสียงหัวเราะ)
05:18
It's all curled up.
81
318063
1626
มันขดตัว
05:19
Now you have to add another shape and viewpoint to the object model.
82
319689
4719
ตอนนี้ ต้องเพิ่มรูปร่าง - มุมมองอื่นในโมเดลวัตถุ
05:24
But what if cats are hidden?
83
324408
1715
แต่ถ้าแมวถูกซ่อนไว้
05:27
What about these silly cats?
84
327143
2219
แล้วแมวโง่เหล่านี้ล่ะ
05:31
Now you get my point.
85
331112
2417
ตอนนี้คุณเข้าใจแล้ว
05:33
Even something as simple as a household pet
86
333529
3367
แม้บางอย่างง่ายๆ เป็นแบบ สัตว์เลี้ยงในครัวเรือน
05:36
can present an infinite number of variations to the object model,
87
336896
4504
สามารถนำเสนอรูปแบบรูปแบบ ของวัตถุที่ไม่มีที่สิ้นสุด
05:41
and that's just one object.
88
341400
2233
และนั่นเป็นเพียงวัตถุเดียว
05:44
So about eight years ago,
89
344573
2492
ดังนั้นประมาณแปดปีที่ผ่านมา
05:47
a very simple and profound observation changed my thinking.
90
347065
5030
การสังเกตที่ง่ายและลึกซึ้ง ได้เปลี่ยนความคิดของฉัน
05:53
No one tells a child how to see,
91
353425
2685
ไม่มีใครบอกเด็กว่าจะดูอย่างไร
05:56
especially in the early years.
92
356110
2261
โดยเฉพาะอย่างยิ่งในช่วงปีแรกๆ
05:58
They learn this through real-world experiences and examples.
93
358371
5000
เด็กเรียนรู้ผ่านประสบการณ์ และตัวอย่างแห่งความเป็นจริง
06:03
If you consider a child's eyes
94
363371
2740
ถ้าคุณพิจารณาดวงตาของเด็ก
06:06
as a pair of biological cameras,
95
366111
2554
เป็นกล้องชีวภาพหนึ่งคู่
06:08
they take one picture about every 200 milliseconds,
96
368665
4180
กล้องถ่ายภาพทุกๆ 200 มิลลิวินาที
06:12
the average time an eye movement is made.
97
372845
3134
เวลาเฉลี่ยที่เกิดจากการเคลื่อนไหว ของตา
06:15
So by age three, a child would have seen hundreds of millions of pictures
98
375979
5550
ดังนั้นเมื่ออายุสามขวบ เด็กๆ จะได้เห็นภาพหลายร้อยภาพ
06:21
of the real world.
99
381529
1834
ในโลกแห่งความจริง
06:23
That's a lot of training examples.
100
383363
2280
นี่เป็นตัวอย่างการฝึกมากมาย
06:26
So instead of focusing solely on better and better algorithms,
101
386383
5989
ดังนั้น แทนที่จะเน้นเฉพาะ อัลกอริธึมที่ดีและดีขึ้น
06:32
my insight was to give the algorithms the kind of training data
102
392372
5272
ข้อมูลเชิงลึกของฉันคือ การให้ อัลกอริทึมเป็นแบบข้อมูลการฝึกซ้อม
06:37
that a child was given through experiences
103
397644
3319
ว่าเด็กได้ผ่านประสบการณ์
06:40
in both quantity and quality.
104
400963
3878
ทั้งในด้านปริมาณและคุณภาพ
06:44
Once we know this,
105
404841
1858
เมื่อเรารู้เรื่องนี้แล้ว
06:46
we knew we needed to collect a data set
106
406699
2971
เรารู้ว่า เราจำเป็นต้องรวบรวมชุดข้อมูล
06:49
that has far more images than we have ever had before,
107
409670
4459
ที่มีภาพไกลเกินกว่าที่เราเคยมีมาก่อน
06:54
perhaps thousands of times more,
108
414129
2577
บางที อีกหลายพันครั้ง
06:56
and together with Professor Kai Li at Princeton University,
109
416706
4111
และร่วมกับศาสตราจารย์ Kai Li ที่ Princeton University
07:00
we launched the ImageNet project in 2007.
110
420817
4752
เราได้เปิดตัว ImageNet
07:05
Luckily, we didn't have to mount a camera on our head
111
425569
3838
โชคดีที่เราไม่ต้องติดกล้อง บนศีรษะของเรา
07:09
and wait for many years.
112
429407
1764
และรอเป็นเวลาหลายปี
07:11
We went to the Internet,
113
431171
1463
เราไปที่อินเทอร์เน็ต
07:12
the biggest treasure trove of pictures that humans have ever created.
114
432634
4436
เป็นขุมสมบัติที่ยิ่งใหญ่ที่สุด ของภาพที่มนุษย์สร้างขึ้น
07:17
We downloaded nearly a billion images
115
437070
3041
เราดาวน์โหลดภาพมาแล้ว เกือบพันล้านภาพ
07:20
and used crowdsourcing technology like the Amazon Mechanical Turk platform
116
440111
5880
และใช้เทคโนโลยีกระจายไปยังกลุ่มเพื่อค้นหา คำตอบ เช่นแพลตฟอร์ม Amazon Mechanical Turk
07:25
to help us to label these images.
117
445991
2339
เพื่อช่วยให้เราติดป้ายกำกับรูปภาพเหล่านี้
07:28
At its peak, ImageNet was one of the biggest employers
118
448330
4900
ในตอนท้าย ImageNet เป็นหนึ่งใน นายจ้างที่ใหญ่ที่สุด
07:33
of the Amazon Mechanical Turk workers:
119
453230
2996
ของแรงงาน Amazon Mechanical Turk:
07:36
together, almost 50,000 workers
120
456226
3854
ร่วมกันเกือบ 50,000 คน
07:40
from 167 countries around the world
121
460080
4040
จาก 167 ประเทศทั่วโลก
07:44
helped us to clean, sort and label
122
464120
3947
ช่วยให้เราสามารถทำความสะอาด จัดเรียงและติดฉลากได้
07:48
nearly a billion candidate images.
123
468067
3575
เกือบหนึ่งพันล้านภาพที่ใช้
07:52
That was how much effort it took
124
472612
2653
นั่นเป็นความพยายามอย่างมาก
07:55
to capture even a fraction of the imagery
125
475265
3900
เพื่อจับภาพแม้แต่เศษเสี้ยว
07:59
a child's mind takes in in the early developmental years.
126
479165
4171
จิตใจของเด็กใช้เวลาในการพัฒนา ระยะต้นหลายปี
08:04
In hindsight, this idea of using big data
127
484148
3902
ในการมองย้อนกลับความคิดใน การใช้ข้อมูลขนาดใหญ่นี้
08:08
to train computer algorithms may seem obvious now,
128
488050
4550
การฝึกซ้อมอัลกอริธึมของคอมพิวเตอร์ อาจดูเหมือนชัดเจนในตอนนี้
08:12
but back in 2007, it was not so obvious.
129
492600
4110
แต่กลับไปในปี 2007 ยังไม่ชัดเจนดังนั้น
08:16
We were fairly alone on this journey for quite a while.
130
496710
3878
เราค่อนข้างโดดเดี่ยวในการเดินทาง ครั้งนี้มานานแล้ว
08:20
Some very friendly colleagues advised me to do something more useful for my tenure,
131
500588
5003
เพื่อนร่วมงานแนะนำให้ทำสิ่ง ที่เป็นประโยชน์มากขึ้นต่อตำแหน่ง
08:25
and we were constantly struggling for research funding.
132
505591
4342
และเราก็พยายามดิ้นรนเพื่อหาเงินทุนวิจัย
08:29
Once, I even joked to my graduate students
133
509933
2485
ครั้งหนึ่งฉันก็พูดเล่นกับนักศึกษา ระดับบัณฑิตศึกษาของฉัน
08:32
that I would just reopen my dry cleaner's shop to fund ImageNet.
134
512418
4063
ว่าฉันเพิ่งจะเปิดร้านขายของชำของฉัน อีกครั้งเพื่อลงทุนใน ImageNet
08:36
After all, that's how I funded my college years.
135
516481
4761
เพราะนั่นเป็นเหตุผลที่ฉันให้เงินทุน แก่วิทยาลัยของฉันเป็นเวลาหลายปี
08:41
So we carried on.
136
521242
1856
ดังนั้น เราจึงดำเนินการต่อ
08:43
In 2009, the ImageNet project delivered
137
523098
3715
ในปี 2552 โครงการ ImageNet ได้จัดส่ง
08:46
a database of 15 million images
138
526813
4042
ฐานข้อมูลขนาด 15 ล้านภาพ
08:50
across 22,000 classes of objects and things
139
530855
4805
ผ่านชั้นเรียนและวัตถุต่างๆ 22,000 ชั้น
08:55
organized by everyday English words.
140
535660
3320
จัดตามคำภาษาอังกฤษในชีวิตประจำวัน
08:58
In both quantity and quality,
141
538980
2926
ทั้งในด้านปริมาณและคุณภาพ
09:01
this was an unprecedented scale.
142
541906
2972
นี่เป็นระดับที่ไม่เคยปรากฏมาก่อน
09:04
As an example, in the case of cats,
143
544878
3461
ตัวอย่างเช่น ในกรณีของแมว
09:08
we have more than 62,000 cats
144
548339
2809
เรามีแมวมากกว่า 62,000 ตัว
09:11
of all kinds of looks and poses
145
551148
4110
รูปลักษณ์และโพสท่าทุกชนิด
09:15
and across all species of domestic and wild cats.
146
555258
5223
และแมวในประเทศและป่าทั่วทุกชนิด
09:20
We were thrilled to have put together ImageNet,
147
560481
3344
เราตื่นเต้นที่ได้ใส่ใน ImageNet
09:23
and we wanted the whole research world to benefit from it,
148
563825
3738
และเราต้องการให้โลกการวิจัย ทั้งหมดได้รับประโยชน์
09:27
so in the TED fashion, we opened up the entire data set
149
567563
4041
ดังนั้น ในรูปแบบ TED เราจึง เปิดชุดข้อมูลทั้งหมด
09:31
to the worldwide research community for free.
150
571604
3592
ไปยังชุมชนการวิจัยทั่วโลกแบบฟรีๆ
09:36
(Applause)
151
576636
4000
(เสียงปรบมือ)
09:41
Now that we have the data to nourish our computer brain,
152
581416
4538
ตอนนี้ เรามีข้อมูลที่จะช่วยบำรุง สมองคอมพิวเตอร์ของเรา
09:45
we're ready to come back to the algorithms themselves.
153
585954
3737
เราพร้อมที่จะกลับมาที่อัลกอริทึม ด้วยตัวเองแล้ว
09:49
As it turned out, the wealth of information provided by ImageNet
154
589691
5178
เมื่อเปิดความมั่งคั่งของข้อมูล ที่ได้จาก ImageNet
09:54
was a perfect match to a particular class of machine learning algorithms
155
594869
4806
เป็นการจับคู่ที่สมบูรณ์แบบกับชั้นเรียน ของกลไกการเรียนรู้ของเครื่อง
09:59
called convolutional neural network,
156
599675
2415
เรียกว่าเครือข่ายประสาทแบบม้วนขด
10:02
pioneered by Kunihiko Fukushima, Geoff Hinton, and Yann LeCun
157
602090
5248
ผู้บุกเบิกคือ Kunihiko Fukushima, Geoff Hinton และ Yann LeCun
10:07
back in the 1970s and '80s.
158
607338
3645
ย้อนกลับไปในทศวรรษ 1970 และยุค 1980
10:10
Just like the brain consists of billions of highly connected neurons,
159
610983
5619
มีเซลล์ประสาทที่เชื่อมต่อกัน อย่างมากถึงพันล้าน เหมือนสมอง
10:16
a basic operating unit in a neural network
160
616602
3854
หน่วยปฏิบัติการพื้นฐานใน เครือข่ายประสาทเทียม
10:20
is a neuron-like node.
161
620456
2415
เป็นโหนดแบบเซลล์ประสาท
10:22
It takes input from other nodes
162
622871
2554
ใช้อินพุตจากโหนดอื่น
10:25
and sends output to others.
163
625425
2718
และส่งข้อมูลไปยังโหนดอื่น
10:28
Moreover, these hundreds of thousands or even millions of nodes
164
628143
4713
นอกจากนี้ นับร้อยนับพันหรือนับล้านๆ โหนด
10:32
are organized in hierarchical layers,
165
632856
3227
ถูกจัดอยู่ในชั้นลำดับชั้น
10:36
also similar to the brain.
166
636083
2554
ยังคล้ายกับสมอง
10:38
In a typical neural network we use to train our object recognition model,
167
638637
4783
ในเครือข่ายประสาททั่วไป เราการฝึกซ้อม รูปแบบการจดจำวัตถุของเรา
10:43
it has 24 million nodes,
168
643420
3181
มี 24 ล้านโหนด
10:46
140 million parameters,
169
646601
3297
140 ล้านพารามิเตอร์
10:49
and 15 billion connections.
170
649898
2763
และการเชื่อมต่อ 15 พันล้าน
10:52
That's an enormous model.
171
652661
2415
นั่นเป็นรูปแบบที่ยิ่งใหญ่
10:55
Powered by the massive data from ImageNet
172
655076
3901
ขับเคลื่อนด้วยข้อมูลขนาดใหญ่จาก ImageNet
10:58
and the modern CPUs and GPUs to train such a humongous model,
173
658977
5433
และซีพียูและ GPU ที่ทันสมัยใน การฝึกซ้อมแบบจำลองที่ใหญ่มาก
11:04
the convolutional neural network
174
664410
2369
เครือข่ายประสาทแบบม้วนขด
11:06
blossomed in a way that no one expected.
175
666779
3436
เบ่งบานในแบบที่ไม่มีใครเคยคาดหวัง
11:10
It became the winning architecture
176
670215
2508
กลายเป็นสถาปัตยกรรมที่ชนะ
11:12
to generate exciting new results in object recognition.
177
672723
5340
เพื่อสร้างผลลัพธ์ใหม่ที่น่าตื่นเต้น ในการจดจำวัตถุ
11:18
This is a computer telling us
178
678063
2810
นี่คือคอมพิวเตอร์ที่บอกเรา
11:20
this picture contains a cat
179
680873
2300
ว่าภาพนี้มีแมว
11:23
and where the cat is.
180
683173
1903
และแมวอยู่ที่ไหน
11:25
Of course there are more things than cats,
181
685076
2112
แน่นอนว่า มีอะไรมากกว่าแมว
11:27
so here's a computer algorithm telling us
182
687188
2438
ดังนั้น นี่คืออัลกอริทึมของ คอมพิวเตอร์ที่บอกเรา
11:29
the picture contains a boy and a teddy bear;
183
689626
3274
ภาพมีเด็กผู้ชายและตุ๊กตาหมี
11:32
a dog, a person, and a small kite in the background;
184
692900
4366
สุนัข บุคคล และว่าวขนาดเล็กในพื้นหลัง
11:37
or a picture of very busy things
185
697266
3135
หรือภาพของสิ่งที่ยุ่งมากๆ
11:40
like a man, a skateboard, railings, a lampost, and so on.
186
700401
4644
เหมือนชายคนหนึ่ง สเก็ตบอร์ด ราว เสาไฟ และสิ่งอื่นๆ
11:45
Sometimes, when the computer is not so confident about what it sees,
187
705045
5293
บางครั้ง เมื่อคอมพิวเตอร์ ไม่ค่อยมั่นใจในสิ่งที่มองเห็น
11:51
we have taught it to be smart enough
188
711498
2276
เราได้สอนให้ฉลาดพอ
11:53
to give us a safe answer instead of committing too much,
189
713774
3878
เพื่อให้เราคำตอบที่ปลอดภัยแทน การกระทำที่มั่นใจมากเกินไป
11:57
just like we would do,
190
717652
2811
เช่นเดียวกับที่เราจะทำ
12:00
but other times our computer algorithm is remarkable at telling us
191
720463
4666
แต่บางครั้ง อัลกอริทึมคอมพิวเตอร์ ของเราก็น่าทึ่งที่บอกเรา
12:05
what exactly the objects are,
192
725129
2253
ว่าวัตถุที่มีเป็นอะไรจริงๆ
12:07
like the make, model, year of the cars.
193
727382
3436
เช่นยี่ห้อ แบบ รุ่นปีของรถยนต์
12:10
We applied this algorithm to millions of Google Street View images
194
730818
5386
เราใช้อัลกอริทึมนี้กับภาพ Google Street View นับล้านภาพ
12:16
across hundreds of American cities,
195
736204
3135
ข้ามร้อยเมืองของอเมริกัน
12:19
and we have learned something really interesting:
196
739339
2926
และเราได้เรียนรู้สิ่งที่น่าสนใจจริงๆ
12:22
first, it confirmed our common wisdom
197
742265
3320
ประการแรก ยืนยันภูมิปัญญาทั่วไปของเรา
12:25
that car prices correlate very well
198
745585
3290
ว่าราคารถยนต์มีความสัมพันธ์กันเป็นอย่างดี
12:28
with household incomes.
199
748875
2345
กับรายได้ครัวเรือน
12:31
But surprisingly, car prices also correlate well
200
751220
4527
แต่น่าเสียดายที่ราคารถยนต์ยังมี ความสัมพันธ์กันดี
12:35
with crime rates in cities,
201
755747
2300
กับอัตราการเกิดอาชญากรรมในเมือง
12:39
or voting patterns by zip codes.
202
759007
3963
หรือรูปแบบการลงคะแนนโดย ใช้รหัสไปรษณีย์
12:44
So wait a minute. Is that it?
203
764060
2206
รอสักครู่ นี่ใช่ไหม
12:46
Has the computer already matched or even surpassed human capabilities?
204
766266
5153
คอมพิวเตอร์มีการจับคู่หรือแม้กระทั่งมี มากกว่าความสามารถของมนุษย์หรือไม่
12:51
Not so fast.
205
771419
2138
ไม่เร็วนัก
12:53
So far, we have just taught the computer to see objects.
206
773557
4923
จนถึงปัจจุบัน เราได้สอนคอมพิวเตอร์ ให้ดูวัตถุเท่านั้น
12:58
This is like a small child learning to utter a few nouns.
207
778480
4644
นี่เหมือนกับเด็กเล็กๆ ที่เรียนรู้ที่ จะพูดคำนามไม่กี่คำ
13:03
It's an incredible accomplishment,
208
783124
2670
เป็นความสำเร็จที่น่าทึ่ง
13:05
but it's only the first step.
209
785794
2460
แต่นี่เป็นเพียงขั้นตอนแรกเท่านั้น
13:08
Soon, another developmental milestone will be hit,
210
788254
3762
ในไม่ช้า การพัฒนาอีกก้าวจะฮิต
13:12
and children begin to communicate in sentences.
211
792016
3461
และเด็กเริ่มสื่อสารเป็นประโยค
13:15
So instead of saying this is a cat in the picture,
212
795477
4224
ดังนั้นแทนที่จะบอกว่านี่เป็นแมวในภาพ
13:19
you already heard the little girl telling us this is a cat lying on a bed.
213
799701
5202
คุณได้ยินแล้วสาวน้อยบอกกับ เราว่า นี่คือแมวนอนอยู่บนเตียง
13:24
So to teach a computer to see a picture and generate sentences,
214
804903
5595
ดังนั้น เพื่อสอนคอมพิวเตอร์ ให้ดูภาพและสร้างประโยค
13:30
the marriage between big data and machine learning algorithm
215
810498
3948
การจับคู่ระหว่างข้อมูลขนาดใหญ่ และกลไกการเรียนรู้ด้วยเครื่อง
13:34
has to take another step.
216
814446
2275
ต้องใช้ขั้นตอนอื่น
13:36
Now, the computer has to learn from both pictures
217
816721
4156
ขณะนี้คอมพิวเตอร์ต้องเรียนรู้จากทั้งสองรูป
13:40
as well as natural language sentences
218
820877
2856
เช่นเดียวกับประโยคภาษาธรรมชาติ
13:43
generated by humans.
219
823733
3322
ที่สร้างขึ้นโดยมนุษย์
13:47
Just like the brain integrates vision and language,
220
827055
3853
เช่นเดียวกับสมองที่รวมวิสัยทัศน์และภาษา
13:50
we developed a model that connects parts of visual things
221
830908
5201
เราพัฒนารูปแบบที่เชื่อมโยงสิ่ง ที่มองเห็นบางส่วน
13:56
like visual snippets
222
836109
1904
เช่นตัวอย่างข้อมูลภาพ
13:58
with words and phrases in sentences.
223
838013
4203
มีคำและวลีในประโยค
14:02
About four months ago,
224
842216
2763
ประมาณสี่เดือนที่ผ่านมา
14:04
we finally tied all this together
225
844979
2647
เราโยงไว้ด้วยกันทั้งหมด
14:07
and produced one of the first computer vision models
226
847626
3784
และผลิตโมเดลวิสัยทัศน์ทาง คอมพิวเตอร์เครื่องแรก
14:11
that is capable of generating a human-like sentence
227
851410
3994
ที่มีความสามารถในการสร้าง ประโยคเหมือนมนุษย์
14:15
when it sees a picture for the first time.
228
855404
3506
เมื่อเห็นภาพเป็นครั้งแรก
14:18
Now, I'm ready to show you what the computer says
229
858910
4644
ตอนนี้ฉันพร้อมที่จะแสดง สิ่งที่คอมพิวเตอร์พูด
14:23
when it sees the picture
230
863554
1975
เมื่อเห็นภาพ
14:25
that the little girl saw at the beginning of this talk.
231
865529
3830
ที่สาวน้อยเห็นในตอนต้นของการพูดคุยนี้
14:31
(Video) Computer: A man is standing next to an elephant.
232
871519
3344
(วิดีโอ) คอมพิวเตอร์: มีชายคนหนึ่งกำลังยืนอยู่ข้างช้าง
14:36
A large airplane sitting on top of an airport runway.
233
876393
3634
เครื่องบินขนาดใหญ่จอดอยู่ ในรันเวย์ของสนามบิน
14:41
FFL: Of course, we're still working hard to improve our algorithms,
234
881057
4212
FFL: แน่นอน เรายังคงทำงานอย่างหนัก เพื่อปรับปรุงอัลกอริทึม
14:45
and it still has a lot to learn.
235
885269
2596
และยังคงมีสิ่งที่จะเรียนรู้อยู่มากมาย
14:47
(Applause)
236
887865
2291
(เสียงปรบมือ)
14:51
And the computer still makes mistakes.
237
891556
3321
และคอมพิวเตอร์ยังทำผิดพลาด
14:54
(Video) Computer: A cat lying on a bed in a blanket.
238
894877
3391
(วิดีโอ) คอมพิวเตอร์: แมวนอนบนเตียงในผ้าห่ม
14:58
FFL: So of course, when it sees too many cats,
239
898268
2553
FFL:ดังนั้น แน่นอนเมื่อเห็นแมวมากเกินไป
15:00
it thinks everything might look like a cat.
240
900821
2926
เครื่องคิดว่าทุกอย่างอาจดูเหมือนแมว
15:05
(Video) Computer: A young boy is holding a baseball bat.
241
905317
2864
(วิดีโอ) คอมพิวเตอร์: เด็กหนุ่มคนหนึ่งกำลังถือไม้เบสบอล
15:08
(Laughter)
242
908181
1765
(เสียงหัวเราะ)
15:09
FFL: Or, if it hasn't seen a toothbrush, it confuses it with a baseball bat.
243
909946
4583
FFL: หรือถ้ายังไม่เคยเห็นแปรงสีฟัน ก็จะสับสนกับไม้ตีเบสบอล
15:15
(Video) Computer: A man riding a horse down a street next to a building.
244
915309
3434
(วิดีโอ) คอมพิวเตอร์: คนขี่ม้าไปตาม ถนนข้างตึก
15:18
(Laughter)
245
918743
2023
(เสียงหัวเราะ)
15:20
FFL: We haven't taught Art 101 to the computers.
246
920766
3552
FFL: เราไม่ได้สอนวิชา Art 101 ให้แก่คอมพิวเตอร์
15:25
(Video) Computer: A zebra standing in a field of grass.
247
925768
2884
(วิดีโอ) คอมพิวเตอร์: ม้าลายยืนอยู่ในทุ่งหญ้า
15:28
FFL: And it hasn't learned to appreciate the stunning beauty of nature
248
928652
3367
FFL: และยังไม่ได้เรียนรู้ที่จะชื่นชมความงาม อันน่าทึ่งของธรรมชาติ
15:32
like you and I do.
249
932019
2438
เช่นคุณและฉัน
15:34
So it has been a long journey.
250
934457
2832
ดังนั้น จึงเป็นการเดินทางที่ยาวนาน
15:37
To get from age zero to three was hard.
251
937289
4226
เพื่อให้ได้มาตั้งแต่อายุศูนย์ ถึงสามปี ยังเป็นเรื่องยาก
15:41
The real challenge is to go from three to 13 and far beyond.
252
941515
5596
ความท้าทายที่แท้จริงคือ การไป จากสามปีถึง 13 ปีและไกลเกินกว่านั้น
15:47
Let me remind you with this picture of the boy and the cake again.
253
947111
4365
ฉันขอเตือนคุณด้วยภาพของ เด็กชายและเค้กนี้อีกครั้ง
15:51
So far, we have taught the computer to see objects
254
951476
4064
จนถึงปัจจุบัน เราได้สอน คอมพิวเตอร์ให้ดูวัตถุ
15:55
or even tell us a simple story when seeing a picture.
255
955540
4458
หรือแม้กระทั่งบอกเล่าเรื่องราว ที่เรียบง่ายเมื่อได้เห็นภาพ
15:59
(Video) Computer: A person sitting at a table with a cake.
256
959998
3576
(วิดีโอ) คอมพิวเตอร์: คนนั่งอยู่ที่โต๊ะกับเค้ก
16:03
FFL: But there's so much more to this picture
257
963574
2630
FFL: แต่มีอะไรมากขึ้นในภาพนี้
16:06
than just a person and a cake.
258
966204
2270
ไม่ใช่แค่คนและเค้ก
16:08
What the computer doesn't see is that this is a special Italian cake
259
968474
4467
สิ่งที่คอมพิวเตอร์ไม่เห็นคือ นี่เป็นเค้กอิตาเลียนพิเศษ
16:12
that's only served during Easter time.
260
972941
3217
ที่ให้บริการเฉพาะในช่วงเทศกาลอีสเตอร์
16:16
The boy is wearing his favorite t-shirt
261
976158
3205
เด็กชายกำลังใส่เสื้อยืดที่ชอบ
16:19
given to him as a gift by his father after a trip to Sydney,
262
979363
3970
พ่อให้เขาเป็นของขวัญหลังจาก เดินทางไปซิดนีย์
16:23
and you and I can all tell how happy he is
263
983333
3808
และคุณและฉันทั้งหมดสามารถ บอกได้ว่า เด็กมีความสุขแค่ไหน
16:27
and what's exactly on his mind at that moment.
264
987141
3203
และสิ่งที่อยู่ในใจของเขาในขณะนั้น
16:31
This is my son Leo.
265
991214
3125
นี่คือลีโอลูกชายของฉัน
16:34
On my quest for visual intelligence,
266
994339
2624
ในการสืบเสาะของฉันต่อปัญญาจากภาพ
16:36
I think of Leo constantly
267
996963
2391
ฉันคิดถึงเลโออย่างต่อเนื่อง
16:39
and the future world he will live in.
268
999354
2903
และโลกอนาคตที่ลูกจะมีชีวิตอยู่
16:42
When machines can see,
269
1002257
2021
เมื่อเครื่องสามารถมองเห็น
16:44
doctors and nurses will have extra pairs of tireless eyes
270
1004278
4712
แพทย์และพยาบาลจะมีสายตา ที่ไม่รู้จักเหน็ดเหนื่อย
16:48
to help them to diagnose and take care of patients.
271
1008990
4092
เพื่อช่วยในการวินิจฉัยและดูแลผู้ป่วย
16:53
Cars will run smarter and safer on the road.
272
1013082
4383
รถยนต์จะทำงานได้อย่างชาญฉลาด และปลอดภัยยิ่งขึ้นบนท้องถนน
16:57
Robots, not just humans,
273
1017465
2694
หุ่นยนต์ไม่ใช่แค่มนุษย์
17:00
will help us to brave the disaster zones to save the trapped and wounded.
274
1020159
4849
จะช่วยให้เรากล้าได้กล้าเสียในเขตภัยพิบัติ เพื่อช่วยผู้ที่ติดกับและได้รับบาดเจ็บ
17:05
We will discover new species, better materials,
275
1025798
3796
เราจะค้นพบสายพันธุ์ใหม่ วัสดุที่ดีขึ้น
17:09
and explore unseen frontiers with the help of the machines.
276
1029594
4509
และสำรวจแนวที่มองไม่เห็นด้วย ความช่วยเหลือของเครื่อง
17:15
Little by little, we're giving sight to the machines.
277
1035113
4167
เรากำลังให้เครื่องมองเห็นทีละเล็กทีละน้อย
17:19
First, we teach them to see.
278
1039280
2798
อันดับแรก เราสอนให้เครื่องเห็น
17:22
Then, they help us to see better.
279
1042078
2763
จากนั้น ก็ช่วยให้เราดูดีขึ้น
17:24
For the first time, human eyes won't be the only ones
280
1044841
4165
เป็นครั้งแรก ดวงตาของมนุษย์จะไม่ ขบคิดและ
17:29
pondering and exploring our world.
281
1049006
2934
สำรวจโลกของเราอย่างโดดเดี่ยว
17:31
We will not only use the machines for their intelligence,
282
1051940
3460
เราจะไม่เพียงแต่ใช้เครื่องเพื่อสติปัญญา ของเครื่อง
17:35
we will also collaborate with them in ways that we cannot even imagine.
283
1055400
6179
เราจะร่วมมือกับเครื่องด้วยวิธีที่ เราไม่สามารถจินตนาการได้
17:41
This is my quest:
284
1061579
2161
นี่คือภารกิจของฉัน
17:43
to give computers visual intelligence
285
1063740
2712
ทำให้คอมพิวเตอร์ฉลาด
17:46
and to create a better future for Leo and for the world.
286
1066452
5131
และเพื่อสร้างอนาคตที่ดีขึ้นสำหรับ ลีโอและสำหรับโลก
17:51
Thank you.
287
1071583
1811
ขอขอบคุณ
17:53
(Applause)
288
1073394
3785
(เสียงปรบมือ)
เกี่ยวกับเว็บไซต์นี้

ไซต์นี้จะแนะนำคุณเกี่ยวกับวิดีโอ YouTube ที่เป็นประโยชน์สำหรับการเรียนรู้ภาษาอังกฤษ คุณจะได้เห็นบทเรียนภาษาอังกฤษที่สอนโดยอาจารย์ชั้นนำจากทั่วโลก ดับเบิลคลิกที่คำบรรยายภาษาอังกฤษที่แสดงในแต่ละหน้าของวิดีโอเพื่อเล่นวิดีโอจากที่นั่น คำบรรยายเลื่อนซิงค์กับการเล่นวิดีโอ หากคุณมีความคิดเห็นหรือคำขอใด ๆ โปรดติดต่อเราโดยใช้แบบฟอร์มการติดต่อนี้

https://forms.gle/WvT1wiN1qDtmnspy7