How statistics can be misleading - Mark Liddell

1,427,995 views ・ 2016-01-14

TED-Ed


Veuillez double-cliquer sur les sous-titres anglais ci-dessous pour lire la vidéo.

Traducteur: Jerome Bohec Relecteur: eric vautier
00:06
Statistics are persuasive.
0
6636
2441
Les statistiques sont convaincantes.
00:09
So much so that people, organizations, and whole countries
1
9077
3464
Si bien que des personnes, organisations et pays,
00:12
base some of their most important decisions on organized data.
2
12541
5206
prennent d'importantes décisions en se fondant sur ces données.
00:17
But there's a problem with that.
3
17747
1737
Mais il y a un problème.
00:19
Any set of statistics might have something lurking inside it,
4
19484
3817
Toute statistique peut cacher quelque chose,
00:23
something that can turn the results completely upside down.
5
23301
3950
qui peut complètement transformer les résultats.
00:27
For example, imagine you need to choose between two hospitals
6
27251
3669
Par exemple, imaginez que vous deviez choisir entre deux hôpitaux
00:30
for an elderly relative's surgery.
7
30920
2817
pour une opération sur une personne âgée.
00:33
Out of each hospital's last 1000 patient's,
8
33737
2697
Sur les 1000 derniers patients, de chaque hôpital,
00:36
900 survived at Hospital A,
9
36434
3178
900 ont survécu dans l'hôpital A,
00:39
while only 800 survived at Hospital B.
10
39612
3409
contre seulement 800 dans l'hôpital B.
00:43
So it looks like Hospital A is the better choice.
11
43021
3149
Il semble donc que l'hôpital A est le meilleur choix.
00:46
But before you make your decision,
12
46170
1673
Mais avant de décider,
00:47
remember that not all patients arrive at the hospital
13
47843
3568
rappelez-vous que tous les patients n'arrivent pas à l'hôpital
00:51
with the same level of health.
14
51411
2400
dans le même état de santé.
00:53
And if we divide each hospital's last 1000 patients
15
53811
2892
Et si l'on sépare les 1000 derniers patients
00:56
into those who arrived in good health and those who arrived in poor health,
16
56703
4429
entre ceux arrivés en bonne santé et ceux arrivés en mauvaise santé,
01:01
the picture starts to look very different.
17
61132
2640
la situation diffère significativement.
01:03
Hospital A had only 100 patients who arrived in poor health,
18
63772
4077
L'hôpital A ne comptait que 100 patients arrivés en mauvaise santé,
01:07
of which 30 survived.
19
67849
2476
dont 30 ont survécu.
01:10
But Hospital B had 400, and they were able to save 210.
20
70325
4527
Mais l'hôpital B en comptait 400, et 210 purent être sauvés.
01:14
So Hospital B is the better choice
21
74852
2317
Donc l'hôpital B est le meilleur choix
01:17
for patients who arrive at hospital in poor health,
22
77169
3572
pour les patients qui arrivent à l'hôpital en mauvaise santé,
01:20
with a survival rate of 52.5%.
23
80741
3785
avec un taux de survie de 52,5 %.
01:24
And what if your relative's health is good when she arrives at the hospital?
24
84526
3919
Et si la santé de votre parente est bonne quand elle arrive à l'hôpital ?
01:28
Strangely enough, Hospital B is still the better choice,
25
88445
3826
Curieusement, l'hôpital B est toujours meilleur,
01:32
with a survival rate of over 98%.
26
92271
3405
avec un taux de survie de 98%.
01:35
So how can Hospital A have a better overall survival rate
27
95676
3057
Comment l'hôpital A peut-il avoir un meilleur taux de survie global
01:38
if Hospital B has better survival rates for patients in each of the two groups?
28
98733
6097
si l'hôpital B a de meilleurs taux de survie
pour les patients en bonne et mauvaise santé ?
01:44
What we've stumbled upon is a case of Simpson's paradox,
29
104830
3759
C'est le paradoxe de Simpson !
01:48
where the same set of data can appear to show opposite trends
30
108589
3310
Un même ensemble de données peut montrer des tendances opposées,
01:51
depending on how it's grouped.
31
111899
2765
selon la façon dont elles sont regroupées.
01:54
This often occurs when aggregated data hides a conditional variable,
32
114664
4080
Lorsque des données agrégées masquent une variable conditionnelle,
01:58
sometimes known as a lurking variable,
33
118744
2633
parfois appelée variable cachée,
02:01
which is a hidden additional factor that significantly influences results.
34
121377
5207
ce facteur caché influence significativement les résultats.
02:06
Here, the hidden factor is the relative proportion of patients
35
126584
3439
Ici, le facteur caché est la proportion relative des patients
02:10
who arrive in good or poor health.
36
130023
3241
qui arrivent en bonne ou mauvaise santé.
02:13
Simpson's paradox isn't just a hypothetical scenario.
37
133264
3280
Le paradoxe de Simpson n'est pas qu'un scénario hypothétique.
02:16
It pops up from time to time in the real world,
38
136544
2380
Il apparaît dans le monde réel,
02:18
sometimes in important contexts.
39
138924
3208
parfois dans des contextes importants.
02:22
One study in the UK appeared to show
40
142132
1998
Une étude au Royaume-Uni semblait montrer
02:24
that smokers had a higher survival rate than nonsmokers
41
144130
3470
que les fumeurs avaient un taux de survie plus élevé que les non-fumeurs
02:27
over a twenty-year time period.
42
147600
2246
sur une période de vingt ans.
02:29
That is, until dividing the participants by age group
43
149846
3461
Mais répartir les participants par groupe d'âge
02:33
showed that the nonsmokers were significantly older on average,
44
153307
4516
a montré que les non-fumeurs étaient en moyenne plus âgés,
02:37
and thus, more likely to die during the trial period,
45
157823
3107
et donc, plus susceptibles de décéder durant l'étude,
02:40
precisely because they were living longer in general.
46
160930
3508
justement parce qu'ils vivaient plus longtemps en général.
02:44
Here, the age groups are the lurking variable,
47
164438
2848
Ici, les groupes d'âge sont la variable cachée,
02:47
and are vital to correctly interpret the data.
48
167286
2890
et sont essentiels pour interpréter les données.
02:50
In another example,
49
170176
1383
Dans un autre exemple,
02:51
an analysis of Florida's death penalty cases
50
171559
2722
une étude sur la peine de mort en Floride
02:54
seemed to reveal no racial disparity in sentencing
51
174281
3984
semblait ne révéler aucune disparité raciale,
02:58
between black and white defendants convicted of murder.
52
178265
3316
entre accusés noirs et blancs, reconnus coupables d'assassinat.
03:01
But dividing the cases by the race of the victim told a different story.
53
181581
4815
Mais, en répartissant selon la couleur des victimes, l'histoire était tout autre.
03:06
In either situation,
54
186396
1573
Dans les deux cas,
03:07
black defendants were more likely to be sentenced to death.
55
187969
3122
les accusés noirs étaient plus susceptibles d'être condamnés.
03:11
The slightly higher overall sentencing rate for white defendants
56
191091
3975
Le taux de condamnation légèrement supérieur pour les accusés blancs
03:15
was due to the fact that cases with white victims
57
195066
3626
était dû au fait que les cas avec des victimes blanches
03:18
were more likely to elicit a death sentence
58
198692
2667
étaient plus susceptibles d'entraîner la peine de mort
03:21
than cases where the victim was black,
59
201359
2732
que les cas où la victime était noire.
03:24
and most murders occurred between people of the same race.
60
204091
4392
Et la plupart des meurtres avaient eu lieu entre des gens de même couleur.
03:28
So how do we avoid falling for the paradox?
61
208483
2836
Alors, comment éviter de tomber dans ce paradoxe ?
03:31
Unfortunately, there's no one-size-fits-all answer.
62
211319
3367
Malheureusement, il n'y a pas de réponse unique.
03:34
Data can be grouped and divided in any number of ways,
63
214686
3818
Les données peuvent être regroupées et divisées de plein de façons,
03:38
and overall numbers may sometimes give a more accurate picture
64
218504
3602
et les chiffres globaux peuvent parfois donner une image plus précise
03:42
than data divided into misleading or arbitrary categories.
65
222106
4532
que des données divisées en catégories trompeuses ou arbitraires.
03:46
All we can do is carefully study the actual situations the statistics describe
66
226638
5451
Il faut étudier attentivement
les situations décrites par les statistiques
03:52
and consider whether lurking variables may be present.
67
232089
3888
et se demander s'il peut y avoir des variables cachées.
03:55
Otherwise, we leave ourselves vulnerable to those who would use data
68
235977
3401
Faute de quoi, nous serions vulnérables aux tentatives de manipulation
03:59
to manipulate others and promote their own agendas.
69
239378
3271
de personnes désirant utiliser ces données à des fins personnelles.
À propos de ce site Web

Ce site vous présentera des vidéos YouTube utiles pour apprendre l'anglais. Vous verrez des leçons d'anglais dispensées par des professeurs de premier ordre du monde entier. Double-cliquez sur les sous-titres anglais affichés sur chaque page de vidéo pour lire la vidéo à partir de là. Les sous-titres défilent en synchronisation avec la lecture de la vidéo. Si vous avez des commentaires ou des demandes, veuillez nous contacter en utilisant ce formulaire de contact.

https://forms.gle/WvT1wiN1qDtmnspy7