Big Data - Tim Smith

Thăm dò ranh giới của "dữ liệu lớn" (Big Data) - Tim Smith

589,741 views

2013-05-03 ・ TED-Ed


New videos

Big Data - Tim Smith

Thăm dò ranh giới của "dữ liệu lớn" (Big Data) - Tim Smith

589,741 views ・ 2013-05-03

TED-Ed


Vui lòng nhấp đúp vào phụ đề tiếng Anh bên dưới để phát video.

00:00
Translator: Andrea McDonough Reviewer: Jessica Ruby
0
0
7000
Translator: Trinh Le Reviewer: Thao My Le Ngo
00:31
Big data is an elusive concept.
1
31085
2762
Dữ liệu lớn (Big Data) là một khái niệm khó nắm bắt.
00:35
It represents an amount of digital information,
2
35987
2688
Nó đại diện cho một lượng lớn thông tin kĩ thuật số
00:38
which is uncomfortable to store,
3
38675
2170
khó lưu trữ,
00:40
transport,
4
40845
1128
di chuyển,
00:41
or analyze.
5
41973
1878
hay phân tích.
00:43
Big data is so voluminous
6
43851
1915
Dữ liệu lớn rất đồ sộ,
00:45
that it overwhelms the technologies of the day
7
45766
2708
nó lấn át các công nghệ ngày nay
00:48
and challenges us to create the next generation
8
48474
2425
và thách thức chúng ta tạo ra thế hệ tiếp theo
00:50
of data storage tools and techniques.
9
50899
3105
của công cụ và kỹ thuật lưu trữ dữ liệu.
00:59
So, big data isn't new.
10
59557
1779
Dữ liệu lớn không phải là một khái niệm mới.
01:01
In fact, physicists at CERN have been rangling
11
61336
2358
Trong thực tế, các nhà vật lý học tại CERN đã tranh cãi
01:03
with the challenge of their ever-expanding big data for decades.
12
63694
4399
với thách thức không ngừng mở rộng dữ liệu lớn trong nhiều thập kỷ.
Năm mươi năm trước, dữ liệu của CERN đã có thể được lưu trữ
01:09
Fifty years ago, CERN's data could be stored
13
69431
2323
01:11
in a single computer.
14
71754
1752
trong một máy tính duy nhất.
01:13
OK, so it wasn't your usual computer,
15
73506
2154
Vâng, nó không phải là máy tính thông thường của bạn,
01:15
this was a mainframe computer
16
75660
1417
nó là một máy tính chính,
01:17
that filled an entire building.
17
77077
2310
mà diện tích lấp đầy cả một toà nhà.
01:21
To analyze the data,
18
81494
1169
Để phân tích dữ liệu,
01:22
physicists from around the world traveled to CERN
19
82663
2948
các nhà vật lý học từ khắp nơi trên thế giới đến CERN
01:25
to connect to the enormous machine.
20
85611
3026
để kết nối với cái máy khổng lồ này.
Vào những năm 1970, dữ liệu lớn không ngừng phát triển của chúng ta
01:31
In the 1970's, our ever-growing big data
21
91075
2853
01:33
was distributed across different sets of computers,
22
93928
2750
được phân phối ra những bộ máy tính khác nhau,
01:36
which mushroomed at CERN.
23
96678
2030
mọc lên như nấm tại CERN.
01:38
Each set was joined together
24
98708
1442
Mỗi bộ gồm các máy tính được kết nối với nhau
01:40
in dedicated, homegrown networks.
25
100150
2528
bằng mạng riêng chuyên dụng.
01:42
But physicists collaborated without regard
26
102678
1786
Nhưng các nhà vật lý học cần phải hợp tác
01:44
for the boundaries between sets,
27
104464
1949
bất kể ranh giới giữa các bộ máy,
01:46
hence needed to access data on all of these.
28
106413
2889
và cần truy cập dữ liệu trên tất cả các bộ máy tính này.
01:49
So, we bridged the independent networks together
29
109302
1985
Do đó, chúng tôi tạo ra cầu nối nối các mạng độc lập lại với nhau
01:51
in our own CERNET.
30
111287
3092
tạo thành CERNET.
01:54
In the 1980's, islands of similar networks
31
114379
2848
Vào những năm 1980, rất nhiều những mạng tương tự
sử dụng các ngôn ngữ địa phương khác nhau
01:57
speaking different dialects
32
117227
1544
01:58
sprung up all over Europe and the States,
33
118771
2540
xuất hiện khắp châu Âu và Mỹ,
02:01
making remote access possible but torturous.
34
121311
3091
hỗ trợ truy cập từ xa, nhưng còn nhiều khó khăn.
02:04
To make it easy for our physicists across the world
35
124402
2144
Để giúp các nhà vật lý trên khắp thế giới
02:06
to access the ever-expanding big data
36
126546
2405
dễ dàng truy cập dữ liệu lớn ngày càng mở rộng
02:08
stored at CERN without traveling,
37
128951
1793
được lưu trữ tại CERN, mà không cần di chuyển,
02:10
the networks needed to be talking
38
130744
1299
các mạng này cần phải nói cùng một ngôn ngữ với nhau.
02:12
with the same language.
39
132043
1370
02:13
We adopted the fledgling internet working standard from the States,
40
133413
3795
Chúng tôi thông qua các tiêu chuẩn hoạt động mạng Internet của Mỹ,
02:17
followed by the rest of Europe,
41
137208
1376
và sau đó bởi châu Âu,
02:18
and we established the principal link at CERN
42
138584
2168
và chúng tôi thành lập các liên kết chính tại CERN
02:20
between Europe and the States in 1989,
43
140752
2503
liên kết châu Âu và Mỹ vào năm 1989,
02:23
and the truly global internet took off!
44
143255
2786
và mạng Internet toàn cầu thực sự cất cánh từ đó!
02:28
Physicists could easily then access
45
148580
1791
Các nhà vật lý sau đó có thể dễ dàng truy cập
02:30
the terabytes of big data
46
150371
1812
hàng terabyte dữ liệu lớn từ xa
02:32
remotely from around the world,
47
152183
1663
từ khắp nơi trên thế giới,
02:33
generate results,
48
153846
1379
nhờ đó,
02:35
and write papers in their home institutes.
49
155225
2295
viết báo cáo ngay tại viện nhà.
02:37
Then, they wanted to share their findings
50
157520
1501
Sau đó, họ muốn chia sẻ các nghiên cứu
02:39
with all their colleagues.
51
159021
1792
với các đồng nghiệp.
02:40
To make this information sharing easy,
52
160813
1603
Để giúp việc chia sẻ thông tin được dễ dàng,
02:42
we created the web in the early 1990's.
53
162416
2942
chúng tôi tạo ra trang web vào đầu những năm 1990.
02:45
Physicists no longer needed to know
54
165358
1838
Các nhà vật lý không còn cần phải biết
02:47
where the information was stored
55
167196
1637
thông tin được lưu trữ ở đâu
02:48
in order to find it and access it on the web,
56
168833
2569
để tìm và truy cập trên mạng,
02:51
an idea which caught on across the world
57
171402
2134
ý tưởng này lan rộng ra khắp thế giới
02:53
and has transformed the way we communicate
58
173536
2376
và đã thay đổi cách chúng ta giao tiếp
02:55
in our daily lives.
59
175912
1668
trong cuộc sống hàng ngày.
03:00
During the early 2000's,
60
180226
1407
Đầu những năm 2000,
03:01
the continued growth of our big data
61
181633
1990
sự tăng trưởng liên tục của dữ liệu lớn
03:03
outstripped our capability to analyze it at CERN,
62
183623
3291
vượt xa khả năng của chúng t để phân tích chúng tại CERN,
03:06
despite having buildings full of computers.
63
186914
3585
mặc dù đã có các toà nhà đầy những máy tính.
Chúng tôi phải bắt đầu phân phối lại hàng petabyte dữ liệu
03:10
We had to start distributing the petabytes of data
64
190499
2306
03:12
to our collaborating partners
65
192805
1582
đến các đối tác hợp tác
03:14
in order to employ local computing and storage
66
194387
2752
để sử dụng và lưu trữ trên máy tính nội bộ
03:17
at hundreds of different institutes.
67
197139
2835
tại hàng trăm viện nghiên cứu.
03:19
In order to orchestrate these interconnected resources
68
199974
2295
Để sắp xếp cho các nguồn lực này kết nối với nhau
03:22
with their diverse technologies,
69
202269
2044
với các công nghệ đa dạng,
chúng tôi phát triển một mạng lưới điện toán,
03:24
we developed a computing grid,
70
204313
1751
03:26
enabling the seamless sharing
71
206064
1576
tạo điều kiện để chia sẻ thông suốt
03:27
of computing resources around the globe.
72
207640
2428
các tài nguyên máy tính trên toàn cầu.
03:30
This relies on trust relationships and mutual exchange.
73
210068
4391
Điều này dựa trên các mối quan hệ tin tưởng và trao đổi lẫn nhau.
Nhưng mô hình mạng lưới này không thể được chuyển giao
03:34
But this grid model could not be transferred
74
214459
2293
03:36
out of our community so easily,
75
216752
2284
ra khỏi cộng đồng nghiên cứu một cách dễ dàng,
nơi không phải ai cũng có nguồn tài nguyên để chia sẻ
03:39
where not everyone has resources to share
76
219036
2294
03:41
nor could companies be expected
77
221330
1876
và các công ty cũng
03:43
to have the same level of trust.
78
223206
2753
không cùng mức độ tin cậy như nhau.
03:45
Instead, an alternative, more business-like approach
79
225959
2295
Thay vào đó, một phương pháp khác thay thế, chuyên nghiệp hơn
03:48
for accessing on-demand resources
80
228254
1836
để truy cập vào các nguồn tài nguyên theo yêu cầu
03:50
has been flourishing recently,
81
230090
1708
đã được phát triển gần đây
03:51
called cloud computing,
82
231798
1668
gọi là điện toán đám mây,
03:53
which other communities are now exploiting
83
233466
1876
mà các cộng đồng hiện nay đang khai thác
03:55
to analyzing their big data.
84
235342
2000
để phân tích dữ liệu lớn.
03:57
It might seem paradoxical for a place like CERN,
85
237342
2987
Nó giống như một nghịch lý khi một nơi như CERN,
04:00
a lab focused on the study
86
240329
1571
một phòng thí nghiệm tập trung vào nghiên cứu
04:01
of the unimaginably small building blocks of matter,
87
241900
3171
những khối vật chất nhỏ mà ta khó có thể tưởng tượng
04:05
to be the source of something as big as big data.
88
245071
3377
lại là nguồn gốc của một thứ to lớn như là dữ liệu lớn.
04:08
But the way we study the fundamental particles,
89
248448
2082
Nhưng cách mà chúng tôi nghiên cứu hạt cơ bản
04:10
as well as the forces by which they interact,
90
250530
2613
cũng như các lực, và cách chúng tương tác,
04:13
involves creating them fleetingly,
91
253143
2103
liên quan đến việc tạo ra chúng nhanh chóng,
04:15
colliding protons in our accelerators
92
255246
2368
va chạm các proton trong máy gia tốc,
04:17
and capturing a trace of them
93
257614
1427
và lưu giữ các dấu vết chúng để lại
04:19
as they zoom off near light speed.
94
259041
2273
khi chúng phóng gần với tốc độ ánh sáng.
04:21
To see those traces,
95
261314
994
Để thấy những dấu vết này,
04:22
our detector, with 150 million sensors,
96
262308
3448
các máy nhận diện, với 150 triệu cảm ứng,
04:25
acts like a really massive 3-D camera,
97
265756
2475
hoạt động như một máy ảnh 3D cực lớn,
04:28
taking a picture of each collision event -
98
268231
2110
chụp ảnh từng va chạm một -
04:30
that's up to 14 millions times per second.
99
270341
2550
lên đến 14 triệu lần một giây.
04:32
That makes a lot of data.
100
272891
2533
Nó tạo ra rất nhiều dữ liệu.
04:37
But if big data has been around for so long,
101
277194
2159
Nhưng nếu dữ liệu lớn đã có mặt lâu như vậy,
04:39
why do we suddenly keep hearing about it now?
102
279353
2627
tại sao chúng ta đột nhiên cứ nghe nói về chúng gần đây?
04:41
Well, as the old metaphor explains,
103
281980
1711
Vâng, như phép ẩn dụ cũ giải thích,
04:43
the whole is greater than the sum of its parts,
104
283691
2788
toàn bộ là lớn hơn tổng của các bộ phận của nó,
04:46
and this is no longer just science that is exploiting this.
105
286479
3777
và không chỉ là khoa học mới khai thác điều này.
Thưc tế là, chúng ta có thể lấy được nhiều kiến thức hơn
04:50
The fact that we can derive more knowledge
106
290256
1604
04:51
by joining related information together
107
291860
2330
bằng cách nối các thông tin liên quan với nhau
04:54
and spotting correlations
108
294190
1551
và tìm điểm tương quan,
04:55
can inform and enrich numerous aspects of everyday life,
109
295741
3391
có thể làm phong phú hơn nhiều khía cạnh của cuộc sống hàng ngày,
04:59
either in real time,
110
299132
1028
trong thời gian thực,
05:00
such as traffic or financial conditions,
111
300160
2291
như giao thông hay điều kiện tài chính,
05:02
in short-term evolutions,
112
302451
1755
trong diễn biến ngắn hạn
05:04
such as medical or meteorological,
113
304206
2127
như y tế hoặc khí tượng,
05:06
or in predictive situations,
114
306333
1725
hay để dự kiến các tình huống
05:08
such as business, crime, or disease trends.
115
308058
3020
như xu hướng kinh doanh, tội phạm, hay bệnh dịch.
05:13
Virtually every field is turning to gathering big data,
116
313369
3063
Hầu như mọi lĩnh vực đang chuyển sang thu thập dữ liệu lớn,
05:16
with mobile sensor networks spanning the globe,
117
316432
2337
với mạng lưới cảm biến di động bao trùm toàn cầu,
05:18
cameras on the ground and in the air,
118
318769
2287
máy ảnh trên mặt đất, và trong không khí,
05:21
archives storing information published on the web,
119
321056
3011
lưu trữ dữ liệu đã được công bố trên mạng,
05:24
and loggers capturing the activities
120
324067
2129
và ghi chép lưu lại các hoạt động
05:26
of Internet citizens the world over.
121
326196
2699
của các công dân mạng trên toàn thế giới.
05:28
The challenge is on to invent new tools and techniques
122
328895
2591
Thách thức là việc đầu tư vào các công cụ và kỹ thuật mới
05:31
to mine these vast stores,
123
331486
1953
để khai thác nguồn tài nguyên khổng lồ
05:33
to inform decision making,
124
333439
1801
để giúp cho việc ra quyết định,
05:35
to improve medical diagnosis,
125
335240
2256
để cải thiện việc chẩn đoán y tế,
05:37
and otherwise to answer needs and desires
126
337496
2210
còn nếu không thì để trả lời các nhu cầu vả mong muốn
05:39
of tomorrow's society in ways that are unimagined today.
127
339706
3957
của xã hội ngày mai bằng cách mà hôm nay không hình dung ra được.
Về trang web này

Trang web này sẽ giới thiệu cho bạn những video YouTube hữu ích cho việc học tiếng Anh. Bạn sẽ thấy các bài học tiếng Anh được giảng dạy bởi các giáo viên hàng đầu từ khắp nơi trên thế giới. Nhấp đúp vào phụ đề tiếng Anh hiển thị trên mỗi trang video để phát video từ đó. Phụ đề cuộn đồng bộ với phát lại video. Nếu bạn có bất kỳ nhận xét hoặc yêu cầu nào, vui lòng liên hệ với chúng tôi bằng biểu mẫu liên hệ này.

https://forms.gle/WvT1wiN1qDtmnspy7