How statistics can be misleading - Mark Liddell

1,440,818 views ・ 2016-01-14

TED-Ed


Пожалуйста, дважды щелкните на английские субтитры ниже, чтобы воспроизвести видео.

Переводчик: Roman Ianvarev Редактор: Yekaterina Jussupova
00:06
Statistics are persuasive.
0
6636
2441
Статистика убедительна.
00:09
So much so that people, organizations, and whole countries
1
9077
3464
Настолько, что люди, организации и целые страны
00:12
base some of their most important decisions on organized data.
2
12541
5206
принимают важнейшие решения, опираясь на систематизированные данные.
00:17
But there's a problem with that.
3
17747
1737
Но существует проблема.
00:19
Any set of statistics might have something lurking inside it,
4
19484
3817
В любом наборе статистических данных может таиться то,
00:23
something that can turn the results completely upside down.
5
23301
3950
что способно полностью перевернуть результаты с ног на голову.
00:27
For example, imagine you need to choose between two hospitals
6
27251
3669
Представьте, что вам нужно выбрать одну из двух больниц
00:30
for an elderly relative's surgery.
7
30920
2817
для операции пожилого родственника.
00:33
Out of each hospital's last 1000 patient's,
8
33737
2697
Из последней тысячи пациентов этих больниц
00:36
900 survived at Hospital A,
9
36434
3178
в больнице А выжило 900 человек,
00:39
while only 800 survived at Hospital B.
10
39612
3409
а в больнице Б — 800.
00:43
So it looks like Hospital A is the better choice.
11
43021
3149
Похоже, что больница А — лучший выбор.
00:46
But before you make your decision,
12
46170
1673
Но принимая решение, имейте в виду,
00:47
remember that not all patients arrive at the hospital
13
47843
3568
что состояние здоровья пациентов, прибывших в больницу,
00:51
with the same level of health.
14
51411
2400
было неодинаковым.
00:53
And if we divide each hospital's last 1000 patients
15
53811
2892
Если разделить последнюю тысячу пациентов обеих больниц
00:56
into those who arrived in good health and those who arrived in poor health,
16
56703
4429
на тех, кто прибыл в хорошем и в плохом состоянии здоровья,
01:01
the picture starts to look very different.
17
61132
2640
получится совсем другая картина.
01:03
Hospital A had only 100 patients who arrived in poor health,
18
63772
4077
В больницу А прибыло лишь 100 пациентов в плохом состоянии здоровья,
01:07
of which 30 survived.
19
67849
2476
из которых 30 выжили.
01:10
But Hospital B had 400, and they were able to save 210.
20
70325
4527
В больницу Б поступило 400 тяжелобольных, из которых удалось спасти 210.
01:14
So Hospital B is the better choice
21
74852
2317
Таким образом больница Б — лучший выбор
01:17
for patients who arrive at hospital in poor health,
22
77169
3572
для пациентов, прибывающих в плохом состоянии здоровья,
01:20
with a survival rate of 52.5%.
23
80741
3785
с коэффициентом выживаемости — 52,5 %.
01:24
And what if your relative's health is good when she arrives at the hospital?
24
84526
3919
А если на момент поступления в больницу здоровье вашего родственника в норме?
01:28
Strangely enough, Hospital B is still the better choice,
25
88445
3826
Удивительно, но и тут больница Б — лучший выбор
01:32
with a survival rate of over 98%.
26
92271
3405
с коэффициентом выживаемости — 98%.
01:35
So how can Hospital A have a better overall survival rate
27
95676
3057
Но почему у больницы А суммарный показатель выживаемости выше,
01:38
if Hospital B has better survival rates for patients in each of the two groups?
28
98733
6097
если у больницы Б выше показатель выживаемости пациентов обеих групп?
01:44
What we've stumbled upon is a case of Simpson's paradox,
29
104830
3759
То, с чем мы столкнулись, называется парадоксом Симпсона,
01:48
where the same set of data can appear to show opposite trends
30
108589
3310
при котором набор данных может показывать обратную тенденцию
01:51
depending on how it's grouped.
31
111899
2765
в зависимости от того, как он сгруппирован.
01:54
This often occurs when aggregated data hides a conditional variable,
32
114664
4080
Такое случается, когда сводные данные содержат условную переменную,
01:58
sometimes known as a lurking variable,
33
118744
2633
также известную, как скрытая переменная.
02:01
which is a hidden additional factor that significantly influences results.
34
121377
5207
Это скрытый дополнительный фактор, существенно влияющий на результаты.
02:06
Here, the hidden factor is the relative proportion of patients
35
126584
3439
В данном случае скрытый фактор — это доля пациентов,
02:10
who arrive in good or poor health.
36
130023
3241
прибывших в хорошем или плохом состоянии здоровья.
02:13
Simpson's paradox isn't just a hypothetical scenario.
37
133264
3280
Парадокс Симпсона — это не просто гипотетический сценарий.
02:16
It pops up from time to time in the real world,
38
136544
2380
Время от времени он возникает в реальном мире,
02:18
sometimes in important contexts.
39
138924
3208
иногда при важных обстоятельствах.
02:22
One study in the UK appeared to show
40
142132
1998
Исследование, проведённое в Великобритании,
02:24
that smokers had a higher survival rate than nonsmokers
41
144130
3470
показало более высокую долю выживаемости курящих людей, нежели некурящих,
02:27
over a twenty-year time period.
42
147600
2246
более чем за 20-летний период времени.
02:29
That is, until dividing the participants by age group
43
149846
3461
Но разделение участников на возрастные группы
02:33
showed that the nonsmokers were significantly older on average,
44
153307
4516
показало, что некурящие, в среднем, были существенно старше,
02:37
and thus, more likely to die during the trial period,
45
157823
3107
а значит имели больше шансов умереть во время испытательного срока
02:40
precisely because they were living longer in general.
46
160930
3508
именно потому, что они в целом прожили больше.
02:44
Here, the age groups are the lurking variable,
47
164438
2848
Здесь скрытой переменной являются возрастные группы,
02:47
and are vital to correctly interpret the data.
48
167286
2890
крайне важные для корректной интерпретации данных.
02:50
In another example,
49
170176
1383
Другой пример:
02:51
an analysis of Florida's death penalty cases
50
171559
2722
анализ случаев смертной казни во Флориде
02:54
seemed to reveal no racial disparity in sentencing
51
174281
3984
не выявил расового неравенства при вынесении приговоров
02:58
between black and white defendants convicted of murder.
52
178265
3316
чернокожим и белым людям, обвиняемым в убийстве.
03:01
But dividing the cases by the race of the victim told a different story.
53
181581
4815
Но разделение дел по расам жертв рассказало другую историю.
03:06
In either situation,
54
186396
1573
При прочих равных обстоятельствах
03:07
black defendants were more likely to be sentenced to death.
55
187969
3122
чернокожим обвиняемым чаще выносили смертный приговор.
03:11
The slightly higher overall sentencing rate for white defendants
56
191091
3975
Немного большее количество приговоров для белых ответчиков было связано с тем,
03:15
was due to the fact that cases with white victims
57
195066
3626
что делá об убийстве белых людей
03:18
were more likely to elicit a death sentence
58
198692
2667
чаще приводили преступника к смертному приговору,
03:21
than cases where the victim was black,
59
201359
2732
чем делá, где жертвы были чернокожими,
03:24
and most murders occurred between people of the same race.
60
204091
4392
а большинство убийств совершалось между представителями одной расы.
03:28
So how do we avoid falling for the paradox?
61
208483
2836
Так как же избежать выводов, содержащих парадокс?
03:31
Unfortunately, there's no one-size-fits-all answer.
62
211319
3367
К несчастью, универсального ответа не существует.
03:34
Data can be grouped and divided in any number of ways,
63
214686
3818
Данные могут быть сгруппированы и разделены любым количеством способов,
03:38
and overall numbers may sometimes give a more accurate picture
64
218504
3602
и иногда суммарный показатель даёт более точную картину,
03:42
than data divided into misleading or arbitrary categories.
65
222106
4532
чем данные, разделённые на случайные категории.
03:46
All we can do is carefully study the actual situations the statistics describe
66
226638
5451
Всё, что можно сделать — тщательно изучить ситуации, описываемые статистикой,
03:52
and consider whether lurking variables may be present.
67
232089
3888
и решить, возможно ли здесь присутствие скрытой переменной.
03:55
Otherwise, we leave ourselves vulnerable to those who would use data
68
235977
3401
В противном случае мы беззащитны перед теми, кто использует данные
03:59
to manipulate others and promote their own agendas.
69
239378
3271
для манипуляции другими людьми в собственных интересах.
Об этом сайте

Этот сайт познакомит вас с видеороликами YouTube, полезными для изучения английского языка. Вы увидите уроки английского языка, преподаваемые высококлассными учителями со всего мира. Дважды щелкните по английским субтитрам, отображаемым на каждой странице видео, чтобы воспроизвести видео оттуда. Субтитры прокручиваются синхронно с воспроизведением видео. Если у вас есть какие-либо комментарии или пожелания, пожалуйста, свяжитесь с нами, используя эту контактную форму.

https://forms.gle/WvT1wiN1qDtmnspy7