How statistics can be misleading - Mark Liddell

Как статистиката може да бъде подвеждаща - Марк Лидел

1,440,818 views

2016-01-14 ・ TED-Ed


New videos

How statistics can be misleading - Mark Liddell

Как статистиката може да бъде подвеждаща - Марк Лидел

1,440,818 views ・ 2016-01-14

TED-Ed


Моля, кликнете два пъти върху английските субтитри по-долу, за да пуснете видеото.

Translator: Borislava Goneva Reviewer: Anton Hikov
00:06
Statistics are persuasive.
0
6636
2441
Статистиката е убедителна.
00:09
So much so that people, organizations, and whole countries
1
9077
3464
Дотолкова, че хора, организации и цели държави
00:12
base some of their most important decisions on organized data.
2
12541
5206
основават някои от най-важните си решения на преработена информация.
00:17
But there's a problem with that.
3
17747
1737
Но съществува проблем в това.
00:19
Any set of statistics might have something lurking inside it,
4
19484
3817
Всяка статистика може да съдържа нещо подвеждащо в себе си,
00:23
something that can turn the results completely upside down.
5
23301
3950
нещо, което преобръща резултатите с главата надолу.
00:27
For example, imagine you need to choose between two hospitals
6
27251
3669
Например, представи си, че трябва да избереш между две болници
00:30
for an elderly relative's surgery.
7
30920
2817
за операция на възрастен роднина.
00:33
Out of each hospital's last 1000 patient's,
8
33737
2697
От последните 1000 пациенти на всяка болница,
00:36
900 survived at Hospital A,
9
36434
3178
900 оцелели в Болница А,
00:39
while only 800 survived at Hospital B.
10
39612
3409
докато само 800 оцелели в Болница Б.
00:43
So it looks like Hospital A is the better choice.
11
43021
3149
Изглежда, сякаш Болница А е по-добрият избор.
00:46
But before you make your decision,
12
46170
1673
Но преди да вземеш решение,
00:47
remember that not all patients arrive at the hospital
13
47843
3568
помни, че не всички пациенти са приети в болницата
00:51
with the same level of health.
14
51411
2400
с еднакво здравословно състояние.
00:53
And if we divide each hospital's last 1000 patients
15
53811
2892
Ако разделим последните 1000 пациенти на всяка болница
00:56
into those who arrived in good health and those who arrived in poor health,
16
56703
4429
на приети в добро състояние и приети във влошено състояние,
01:01
the picture starts to look very different.
17
61132
2640
картинката придобива различен вид.
01:03
Hospital A had only 100 patients who arrived in poor health,
18
63772
4077
Болница А е имала само 100 пациенти във влошено състояние,
01:07
of which 30 survived.
19
67849
2476
от които 30 оцелели.
01:10
But Hospital B had 400, and they were able to save 210.
20
70325
4527
Но Болница Б е имала 400, от които успели да спасят 210.
01:14
So Hospital B is the better choice
21
74852
2317
Така че Болница Б е по-добрият избор
01:17
for patients who arrive at hospital in poor health,
22
77169
3572
за пациенти, които пристигат с лошо здравословно състояние,
01:20
with a survival rate of 52.5%.
23
80741
3785
тъй като шансът за оцеляване е 52,5%.
01:24
And what if your relative's health is good when she arrives at the hospital?
24
84526
3919
А какво става, ако здравето на роднината е добро, когато е приет в болницата?
01:28
Strangely enough, Hospital B is still the better choice,
25
88445
3826
Колкото и да е странно, Болница Б отново е по-добрият избор,
01:32
with a survival rate of over 98%.
26
92271
3405
защото шансът за оцеляване в този случай е над 98%.
01:35
So how can Hospital A have a better overall survival rate
27
95676
3057
Но как може Болница А да има цялостно по-добър шанс за оцеляване,
01:38
if Hospital B has better survival rates for patients in each of the two groups?
28
98733
6097
ако Болница Б има по-добра статистика за пациенти и в двете групи?
01:44
What we've stumbled upon is a case of Simpson's paradox,
29
104830
3759
Натъкнали сме се на случай, засягащ парадокса на Симпсън,
01:48
where the same set of data can appear to show opposite trends
30
108589
3310
където еднаква информация може да показва противоположни тендеции
01:51
depending on how it's grouped.
31
111899
2765
в зависимост от това как се групира.
01:54
This often occurs when aggregated data hides a conditional variable,
32
114664
4080
Това често се случва, когато обобщена информация крие условна променлива,
01:58
sometimes known as a lurking variable,
33
118744
2633
понякога наричана подвеждаща променлива,
02:01
which is a hidden additional factor that significantly influences results.
34
121377
5207
която е скрит допълнителен фактор, значително повлияващ резултатите.
02:06
Here, the hidden factor is the relative proportion of patients
35
126584
3439
Тук скритият фактор е относителната пропорция на пациенти,
02:10
who arrive in good or poor health.
36
130023
3241
които са приети в добро или влошено състояние.
02:13
Simpson's paradox isn't just a hypothetical scenario.
37
133264
3280
Парадоксът на Симпсън не е просто хипотетичен сценарий.
02:16
It pops up from time to time in the real world,
38
136544
2380
Появява се от време на време в реалния свят,
02:18
sometimes in important contexts.
39
138924
3208
понякога във важен контекст.
02:22
One study in the UK appeared to show
40
142132
1998
Едно проучване във Великобритания показало
02:24
that smokers had a higher survival rate than nonsmokers
41
144130
3470
по-висок шанс за оцеляване при пушачите, отколкото при непушачите
02:27
over a twenty-year time period.
42
147600
2246
за период от 20 години.
02:29
That is, until dividing the participants by age group
43
149846
3461
Разделянето на участниците във възрастови групи
02:33
showed that the nonsmokers were significantly older on average,
44
153307
4516
показало, че непушачите били значително по-възрастни
02:37
and thus, more likely to die during the trial period,
45
157823
3107
и, следователно, с по-голяма вероятност да починат по време на експеримента,
02:40
precisely because they were living longer in general.
46
160930
3508
именно защото живели по-дълго по принцип.
02:44
Here, the age groups are the lurking variable,
47
164438
2848
Тук възрастовите групи са подвеждащата променлива
02:47
and are vital to correctly interpret the data.
48
167286
2890
и са ключови за правилното интерпретиране на данните.
02:50
In another example,
49
170176
1383
В друг пример,
02:51
an analysis of Florida's death penalty cases
50
171559
2722
анализ на случаите на смъртна присъда във Флорида
02:54
seemed to reveal no racial disparity in sentencing
51
174281
3984
показал липса на расово пристрастие при осъждането
02:58
between black and white defendants convicted of murder.
52
178265
3316
между цветнокожи и бели обвиняеми, осъдени за убийство.
03:01
But dividing the cases by the race of the victim told a different story.
53
181581
4815
Но разделянето на случая по раса на жертвата променило цялата история.
03:06
In either situation,
54
186396
1573
И в двете ситуации,
03:07
black defendants were more likely to be sentenced to death.
55
187969
3122
имало тенденция цветнокожите обвиняеми да бъдат осъдени на смърт.
03:11
The slightly higher overall sentencing rate for white defendants
56
191091
3975
Малко по-високият процент на осъждане на бели обвиняеми
03:15
was due to the fact that cases with white victims
57
195066
3626
се дължал на факта, че при случаите с бели жертви
03:18
were more likely to elicit a death sentence
58
198692
2667
било по-вероятно да се издаде смъртна присъда,
03:21
than cases where the victim was black,
59
201359
2732
отколкото в случаите, където жертвата била цветнокожа
03:24
and most murders occurred between people of the same race.
60
204091
4392
и повечето убийства се случвали между хора с еднаква раса.
03:28
So how do we avoid falling for the paradox?
61
208483
2836
Тогава как да избегнем попадането в този парадокс?
03:31
Unfortunately, there's no one-size-fits-all answer.
62
211319
3367
За съжаление, няма универсален отговор.
03:34
Data can be grouped and divided in any number of ways,
63
214686
3818
Информацията може да бъде групирана поделена по многобройни начини
03:38
and overall numbers may sometimes give a more accurate picture
64
218504
3602
и обобщените показатели понякога предлагат по-точна картина,
03:42
than data divided into misleading or arbitrary categories.
65
222106
4532
отколкото поделените в подвеждащи или случайни категории.
03:46
All we can do is carefully study the actual situations the statistics describe
66
226638
5451
Само можем внимателно да проучим реалните ситуации, които статистиките описват
03:52
and consider whether lurking variables may be present.
67
232089
3888
и да преценим дали съществуват подвеждащи променливи.
03:55
Otherwise, we leave ourselves vulnerable to those who would use data
68
235977
3401
В противния случай оставяме на тези, които използват информацията
03:59
to manipulate others and promote their own agendas.
69
239378
3271
да манипулират останалите в полза на собствените си виждания.
Относно този уебсайт

Този сайт ще ви запознае с видеоклипове в YouTube, които са полезни за изучаване на английски език. Ще видите уроци по английски език, преподавани от първокласни учители от цял свят. Кликнете два пъти върху английските субтитри, показани на всяка страница с видеоклипове, за да възпроизведете видеото оттам. Субтитрите се превъртат в синхрон с възпроизвеждането на видеото. Ако имате някакви коментари или искания, моля, свържете се с нас, като използвате тази форма за контакт.

https://forms.gle/WvT1wiN1qDtmnspy7