Big Data - Tim Smith

На рубеже эры больших данных — Тим Смит

589,741 views ・ 2013-05-03

TED-Ed


Пожалуйста, дважды щелкните на английские субтитры ниже, чтобы воспроизвести видео.

00:00
Translator: Andrea McDonough Reviewer: Jessica Ruby
0
0
7000
Переводчик: Pauline Hortman Редактор: Aliaksandr Autayeu
00:31
Big data is an elusive concept.
1
31085
2762
Большие данные — это сложное понятие.
00:35
It represents an amount of digital information,
2
35987
2688
Это объём электронных данных,
00:38
which is uncomfortable to store,
3
38675
2170
неудобный для хранения,
00:40
transport,
4
40845
1128
передачи
00:41
or analyze.
5
41973
1878
или анализа.
00:43
Big data is so voluminous
6
43851
1915
Большие данные настолько объёмные,
00:45
that it overwhelms the technologies of the day
7
45766
2708
что для работы с ними недостаточно современных технологий,
00:48
and challenges us to create the next generation
8
48474
2425
поэтому нам приходится разрабатывать новое поколение инструментов
00:50
of data storage tools and techniques.
9
50899
3105
и способов для хранения данных.
00:59
So, big data isn't new.
10
59557
1779
Большие данные появились давно.
01:01
In fact, physicists at CERN have been rangling
11
61336
2358
На самом деле, физики в ЦЕРН пытаются решить проблему
01:03
with the challenge of their ever-expanding big data for decades.
12
63694
4399
растущего объёма больших данных десятилетиями.
01:09
Fifty years ago, CERN's data could be stored
13
69431
2323
Пятьдесят лет назад все данные ЦЕРН
01:11
in a single computer.
14
71754
1752
помещались на один компьютер.
01:13
OK, so it wasn't your usual computer,
15
73506
2154
Конечно, это был не просто компьютер,
01:15
this was a mainframe computer
16
75660
1417
а большой суперкомпьютер,
01:17
that filled an entire building.
17
77077
2310
занимавший целое здание.
01:21
To analyze the data,
18
81494
1169
Чтобы проанализировать данные,
01:22
physicists from around the world traveled to CERN
19
82663
2948
физики со всего мира приезжали в ЦЕРН
01:25
to connect to the enormous machine.
20
85611
3026
и подключались к гигантской машине.
01:31
In the 1970's, our ever-growing big data
21
91075
2853
В 1970-е постоянно растущий объём больших данных
01:33
was distributed across different sets of computers,
22
93928
2750
распределялся между несколькими группами компьютеров,
01:36
which mushroomed at CERN.
23
96678
2030
созданных в ЦЕРН.
01:38
Each set was joined together
24
98708
1442
Компьютеры в группах были соединены между собой
01:40
in dedicated, homegrown networks.
25
100150
2528
как в специализированной домашней сети.
01:42
But physicists collaborated without regard
26
102678
1786
Однако совместная работа физиков
01:44
for the boundaries between sets,
27
104464
1949
часто выходила за пределы таких групп
01:46
hence needed to access data on all of these.
28
106413
2889
и требовала доступа к данным на всех компьютерах.
01:49
So, we bridged the independent networks together
29
109302
1985
Было решено объединить независимые сети
01:51
in our own CERNET.
30
111287
3092
в общую сеть CERNET.
01:54
In the 1980's, islands of similar networks
31
114379
2848
В 1980-е по всей Европе и в США
01:57
speaking different dialects
32
117227
1544
появилось множество сетей,
01:58
sprung up all over Europe and the States,
33
118771
2540
использовавших разные протоколы.
02:01
making remote access possible but torturous.
34
121311
3091
Удалённый доступ стал возможным, но всё ещё оставался затруднительным.
02:04
To make it easy for our physicists across the world
35
124402
2144
Чтобы физикам со всего мира
02:06
to access the ever-expanding big data
36
126546
2405
могли легко получать доступ к растущим большим данным,
02:08
stored at CERN without traveling,
37
128951
1793
не приезжая в ЦЕРН,
02:10
the networks needed to be talking
38
130744
1299
сети должны были общаться между собой
02:12
with the same language.
39
132043
1370
на одном «языке».
02:13
We adopted the fledgling internet working standard from the States,
40
133413
3795
Был принят молодой рабочий стандарт для сети Интернет,
02:17
followed by the rest of Europe,
41
137208
1376
появившийся в США и подхваченный Европой.
02:18
and we established the principal link at CERN
42
138584
2168
Основное соединение между Европой и США
02:20
between Europe and the States in 1989,
43
140752
2503
было установлено в ЦЕРН в 1989-м году.
02:23
and the truly global internet took off!
44
143255
2786
С этого начался мировой Интернет.
02:28
Physicists could easily then access
45
148580
1791
Физики со всего мира получили удалённый доступ
02:30
the terabytes of big data
46
150371
1812
к терабайтам больших данных,
02:32
remotely from around the world,
47
152183
1663
и теперь могли
02:33
generate results,
48
153846
1379
получать результаты
02:35
and write papers in their home institutes.
49
155225
2295
и писать статьи, находясь в своих университетах.
02:37
Then, they wanted to share their findings
50
157520
1501
Затем учёные захотели делиться своими открытиями
02:39
with all their colleagues.
51
159021
1792
с коллегами.
02:40
To make this information sharing easy,
52
160813
1603
Чтобы помочь им в этом,
02:42
we created the web in the early 1990's.
53
162416
2942
в начале 90-х мы создали сеть.
02:45
Physicists no longer needed to know
54
165358
1838
Физикам больше не нужно было знать,
02:47
where the information was stored
55
167196
1637
где храниться информация,
02:48
in order to find it and access it on the web,
56
168833
2569
чтобы найти и получить доступ к ней в сети.
02:51
an idea which caught on across the world
57
171402
2134
Эта идея распространилась по миру
02:53
and has transformed the way we communicate
58
173536
2376
и преобразила наше
02:55
in our daily lives.
59
175912
1668
повседневное общение.
03:00
During the early 2000's,
60
180226
1407
В начале 2000-х
03:01
the continued growth of our big data
61
181633
1990
растущий объём больших данных
03:03
outstripped our capability to analyze it at CERN,
62
183623
3291
превзошёл возможности ЦЕРН по их анализу,
03:06
despite having buildings full of computers.
63
186914
3585
несмотря на целые ангары компьютеров в его распоряжении.
03:10
We had to start distributing the petabytes of data
64
190499
2306
Мы перешли к распределению петабайтов данных
03:12
to our collaborating partners
65
192805
1582
между нашими партнёрами,
03:14
in order to employ local computing and storage
66
194387
2752
чтобы воспользоваться мощностью компьютеров
03:17
at hundreds of different institutes.
67
197139
2835
в сотнях различных институтов.
03:19
In order to orchestrate these interconnected resources
68
199974
2295
Чтобы взаимосвязанные, но разнообразные ресурсы
03:22
with their diverse technologies,
69
202269
2044
могли работать слаженно,
03:24
we developed a computing grid,
70
204313
1751
мы разработали вычислительную систему,
03:26
enabling the seamless sharing
71
206064
1576
которая позволяла беспрепятственно пользоваться
03:27
of computing resources around the globe.
72
207640
2428
вычислительными ресурсами по всему миру.
03:30
This relies on trust relationships and mutual exchange.
73
210068
4391
Работа такой структуры опирается на доверие и взаимный обмен.
03:34
But this grid model could not be transferred
74
214459
2293
Однако такую модель довольно сложно привить
03:36
out of our community so easily,
75
216752
2284
для использования в глобальной сети,
03:39
where not everyone has resources to share
76
219036
2294
где не каждый может предоставить такие ресурсы,
03:41
nor could companies be expected
77
221330
1876
и не все компании обладают
03:43
to have the same level of trust.
78
223206
2753
должным уровнем доверия.
03:45
Instead, an alternative, more business-like approach
79
225959
2295
Альтернативой стал более прагматичный и популярный
03:48
for accessing on-demand resources
80
228254
1836
в последнее время подход
03:50
has been flourishing recently,
81
230090
1708
к решению проблемы доступа к ресурсам по запросу —
03:51
called cloud computing,
82
231798
1668
облачные вычисления,
03:53
which other communities are now exploiting
83
233466
1876
которые теперь используются многими сообществами
03:55
to analyzing their big data.
84
235342
2000
для анализа больших данных.
03:57
It might seem paradoxical for a place like CERN,
85
237342
2987
Кажется парадоксальным, что ЦЕРН,
04:00
a lab focused on the study
86
240329
1571
лаборатория для исследования
04:01
of the unimaginably small building blocks of matter,
87
241900
3171
мельчайших частиц материи,
04:05
to be the source of something as big as big data.
88
245071
3377
могла породить что-то настолько массивное, как большие данные.
04:08
But the way we study the fundamental particles,
89
248448
2082
Мы изучаем фундаментальные частицы
04:10
as well as the forces by which they interact,
90
250530
2613
и силы их взаимодействия
04:13
involves creating them fleetingly,
91
253143
2103
путём их кратковременного воссоздания
04:15
colliding protons in our accelerators
92
255246
2368
с помощью столкновения протонов в ускорителях
04:17
and capturing a trace of them
93
257614
1427
и регистрации следов, оставляемых ими,
04:19
as they zoom off near light speed.
94
259041
2273
когда они проносятся мимо со скоростью света.
04:21
To see those traces,
95
261314
994
Чтобы увидеть такие следы наш детектор частиц,
04:22
our detector, with 150 million sensors,
96
262308
3448
оборудованный 150 миллионами датчиков,
04:25
acts like a really massive 3-D camera,
97
265756
2475
работает как гигантская трёхмерная камера,
04:28
taking a picture of each collision event -
98
268231
2110
регистрируя все столкновения —
04:30
that's up to 14 millions times per second.
99
270341
2550
то есть около 14 миллионов раз в секунду.
04:32
That makes a lot of data.
100
272891
2533
Это огромный объём данных.
04:37
But if big data has been around for so long,
101
277194
2159
Но раз о больших данных известно так давно,
04:39
why do we suddenly keep hearing about it now?
102
279353
2627
почему вдруг все стали говорить о них сейчас?
04:41
Well, as the old metaphor explains,
103
281980
1711
Как говорится, целое есть нечто большее,
04:43
the whole is greater than the sum of its parts,
104
283691
2788
чем сумма его частей.
04:46
and this is no longer just science that is exploiting this.
105
286479
3777
Более того большими данными теперь оперирует не только наука.
04:50
The fact that we can derive more knowledge
106
290256
1604
То, что мы теперь можем узнать больше,
04:51
by joining related information together
107
291860
2330
объединяя данные в одной области
04:54
and spotting correlations
108
294190
1551
и выявляя взаимосвязи,
04:55
can inform and enrich numerous aspects of everyday life,
109
295741
3391
может обогатить самые разные сферы жизни.
04:59
either in real time,
110
299132
1028
Например, в режиме реального времени
05:00
such as traffic or financial conditions,
111
300160
2291
при анализе дорожно-транспортной или финансовой систем;
05:02
in short-term evolutions,
112
302451
1755
при решении краткосрочных задач —
05:04
such as medical or meteorological,
113
304206
2127
в медицине и метеорологии;
05:06
or in predictive situations,
114
306333
1725
при прогнозировании —
05:08
such as business, crime, or disease trends.
115
308058
3020
в бизнесе, криминалистике и эпидемиологии.
05:13
Virtually every field is turning to gathering big data,
116
313369
3063
Большие данные теперь применяются почти во всех областях.
05:16
with mobile sensor networks spanning the globe,
117
316432
2337
Для их сбора земной шар окутывают паутины мобильных датчиков;
05:18
cameras on the ground and in the air,
118
318769
2287
на земле и в воздухе размещены камеры;
05:21
archives storing information published on the web,
119
321056
3011
архивы хранят информацию, опубликованную в сети;
05:24
and loggers capturing the activities
120
324067
2129
программы регистрации фиксируют
05:26
of Internet citizens the world over.
121
326196
2699
активность интернет-пользователей по всему миру.
05:28
The challenge is on to invent new tools and techniques
122
328895
2591
Перед нами снова стоит нелёгкая задача — нужны новые инструменты и методы
05:31
to mine these vast stores,
123
331486
1953
для обработки данных в архивах,
05:33
to inform decision making,
124
333439
1801
чтобы принимать взвешенные решения,
05:35
to improve medical diagnosis,
125
335240
2256
улучшать качество медицинской диагностики;
05:37
and otherwise to answer needs and desires
126
337496
2210
иными словами, найти такие способы удовлетворить нужды общества будущего,
05:39
of tomorrow's society in ways that are unimagined today.
127
339706
3957
о которых мы не смеем даже помыслить сегодня.
Об этом сайте

Этот сайт познакомит вас с видеороликами YouTube, полезными для изучения английского языка. Вы увидите уроки английского языка, преподаваемые высококлассными учителями со всего мира. Дважды щелкните по английским субтитрам, отображаемым на каждой странице видео, чтобы воспроизвести видео оттуда. Субтитры прокручиваются синхронно с воспроизведением видео. Если у вас есть какие-либо комментарии или пожелания, пожалуйста, свяжитесь с нами, используя эту контактную форму.

https://forms.gle/WvT1wiN1qDtmnspy7