下の英語字幕をダブルクリックすると動画を再生できます。
翻訳: Naoko Fujii
校正: Tomoyuki Suzuki
00:06
Statistics are persuasive.
0
6636
2441
統計には説得力があります
00:09
So much so that people, organizations,
and whole countries
1
9077
3464
それはそれは強力なので
人々や組織 そして国が
00:12
base some of their most important
decisions on organized data.
2
12541
5206
最も重要な決定を下すときには
データを参考にします
00:17
But there's a problem with that.
3
17747
1737
でもここに ある問題があります
00:19
Any set of statistics might have something
lurking inside it,
4
19484
3817
どんな統計でも
その中に潜んでいるものが
00:23
something that can turn the results
completely upside down.
5
23301
3950
結果を全く逆に
してしまうことがあるのです
00:27
For example, imagine you need to choose
between two hospitals
6
27251
3669
例えば 年をとった親戚の手術のため
00:30
for an elderly relative's surgery.
7
30920
2817
2つの病院から1つを
選ばねばならないとしましょう
00:33
Out of each hospital's
last 1000 patient's,
8
33737
2697
各病院の直近1000人の患者のうち
00:36
900 survived at Hospital A,
9
36434
3178
A病院では900人が生存していましたが
00:39
while only 800 survived at Hospital B.
10
39612
3409
B病院では800人だけでした
00:43
So it looks like Hospital A
is the better choice.
11
43021
3149
するとA病院を選ぶのが
良いように見えます
00:46
But before you make your decision,
12
46170
1673
でも決断する前に
00:47
remember that not all patients
arrive at the hospital
13
47843
3568
思い出してください
来院する患者の健康度は
00:51
with the same level of health.
14
51411
2400
全員が同一ではありません
00:53
And if we divide each hospital's
last 1000 patients
15
53811
2892
各病院の直近1000人の患者を
00:56
into those who arrived in good health
and those who arrived in poor health,
16
56703
4429
健康状態が良い者と
悪い者とに分けてみると
01:01
the picture starts to look very different.
17
61132
2640
見えてくる状況は
大きく変わってきます
01:03
Hospital A had only 100 patients
who arrived in poor health,
18
63772
4077
A病院では 健康状態が悪い患者は
たった100人しか来ておらず
01:07
of which 30 survived.
19
67849
2476
そのうち30人が生存していますが
01:10
But Hospital B had 400,
and they were able to save 210.
20
70325
4527
B病院には状態の悪い患者が400人来て
210人を救うことができました
01:14
So Hospital B is the better choice
21
74852
2317
だから健康状態が悪い患者の場合は
01:17
for patients who arrive
at hospital in poor health,
22
77169
3572
B病院を選ぶ方が良いんです
01:20
with a survival rate of 52.5%.
23
80741
3785
生存率は52.5%です
01:24
And what if your relative's health
is good when she arrives at the hospital?
24
84526
3919
ではその親戚の健康状態が
受診時に良好だったとしたら?
01:28
Strangely enough, Hospital B is still
the better choice,
25
88445
3826
不思議なことに B病院の方が
やはり良い選択なんです
01:32
with a survival rate of over 98%.
26
92271
3405
生存率は98%です
01:35
So how can Hospital A have a better
overall survival rate
27
95676
3057
ではどちらのグループの生存率も
B病院が勝っているのに
01:38
if Hospital B has better survival rates
for patients in each of the two groups?
28
98733
6097
どうしてA病院の生存率の方が
総計では上になるのでしょう?
01:44
What we've stumbled upon is a case
of Simpson's paradox,
29
104830
3759
私たちが陥っているのは
「シンプソンのパラドックス」です
01:48
where the same set of data can appear
to show opposite trends
30
108589
3310
同一のデータでも
グループの分け方によって
01:51
depending on how it's grouped.
31
111899
2765
逆の傾向を示すことがあるんです
01:54
This often occurs when aggregated data
hides a conditional variable,
32
114664
4080
これがよく起きるのは 集められたデータが
ある条件変数を隠し持っているときです
01:58
sometimes known as a lurking variable,
33
118744
2633
それはときに
潜伏変数と言われるもので
02:01
which is a hidden additional factor
that significantly influences results.
34
121377
5207
結果に重要な影響を与えるような
隠れた別の要因のことです
02:06
Here, the hidden factor is the relative
proportion of patients
35
126584
3439
ここでの隠れた要因とは
訪れる患者の健康状態に関する
02:10
who arrive in good or poor health.
36
130023
3241
相対的な比率です
02:13
Simpson's paradox isn't just
a hypothetical scenario.
37
133264
3280
シンプトンのパラドックスは
単なる仮説ではありません
02:16
It pops up from time
to time in the real world,
38
136544
2380
現実の世界にときどき
現れているんです
02:18
sometimes in important contexts.
39
138924
3208
重要な場面でも起こっています
02:22
One study in the UK appeared to show
40
142132
1998
英国でのある研究では
02:24
that smokers had a higher survival rate
than nonsmokers
41
144130
3470
喫煙者が非喫煙者よりも
02:27
over a twenty-year time period.
42
147600
2246
20年間にわたり
高い生存率を示しました
02:29
That is, until dividing the participants
by age group
43
149846
3461
しかし対象者を
年齢で区分してみると
02:33
showed that the nonsmokers
were significantly older on average,
44
153307
4516
非喫煙者の平均年齢が
明らかに高いことが分かりました
02:37
and thus, more likely
to die during the trial period,
45
157823
3107
したがって 研究期間中に
死亡する確率がより高いわけです
02:40
precisely because they were living longer
in general.
46
160930
3508
そもそも長く生きていますからね
02:44
Here, the age groups
are the lurking variable,
47
164438
2848
ここでは年齢が潜伏変数であり
02:47
and are vital to correctly
interpret the data.
48
167286
2890
それに基づくグループ分けは
正確なデータ解釈に不可欠です
02:50
In another example,
49
170176
1383
別の例は
02:51
an analysis of Florida's
death penalty cases
50
171559
2722
フロリダの死刑に関する分析です
02:54
seemed to reveal
no racial disparity in sentencing
51
174281
3984
殺人で有罪となった被告が
黒人か白人かで
02:58
between black and white defendants
convicted of murder.
52
178265
3316
死刑宣告について人種の偏りは
全く見られませんでした
03:01
But dividing the cases by the race
of the victim told a different story.
53
181581
4815
しかし被害者の人種でグループ分けすると
別の結果が見えてきました
03:06
In either situation,
54
186396
1573
被害者がどちらの場合でも
03:07
black defendants were more likely
to be sentenced to death.
55
187969
3122
黒人の被告の方が
死刑宣告の確率が高かったのです
03:11
The slightly higher overall sentencing
rate for white defendants
56
191091
3975
白人被告の死刑宣告率が
総計するとわずかに高かったのは
03:15
was due to the fact
that cases with white victims
57
195066
3626
被害者が白人の場合
03:18
were more likely
to elicit a death sentence
58
198692
2667
被害者が黒人の場合よりも
03:21
than cases where the victim was black,
59
201359
2732
死刑判決が下されやすく
03:24
and most murders occurred between
people of the same race.
60
204091
4392
大半の殺人は同じ人種間で
起きていたからです
03:28
So how do we avoid
falling for the paradox?
61
208483
2836
ではこのパラドックスに陥るのを
どうすれば避けられるでしょう?
03:31
Unfortunately,
there's no one-size-fits-all answer.
62
211319
3367
あいにく万能の答えはありません
03:34
Data can be grouped and divided
in any number of ways,
63
214686
3818
データはどのようにも
グループ化 または分割できるうえ
03:38
and overall numbers may sometimes
give a more accurate picture
64
218504
3602
誤解を招く あるいは恣意的な形で
カテゴリ化されたデータより
03:42
than data divided into misleading
or arbitrary categories.
65
222106
4532
総計の方が正確である場合もあります
03:46
All we can do is carefully study the
actual situations the statistics describe
66
226638
5451
私たちにできることは
その統計が示す現実の状況を慎重に調べ
03:52
and consider whether lurking variables
may be present.
67
232089
3888
潜伏変数が存在する可能性を
検討することです
03:55
Otherwise, we leave ourselves
vulnerable to those who would use data
68
235977
3401
そうでないとデータで他人を操って
03:59
to manipulate others
and promote their own agendas.
69
239378
3271
自分の方針を通そうとする人たちに対し
私たちは無防備になってしまいます
New videos
このウェブサイトについて
このサイトでは英語学習に役立つYouTube動画を紹介します。世界中の一流講師による英語レッスンを見ることができます。各ビデオのページに表示される英語字幕をダブルクリックすると、そこからビデオを再生することができます。字幕はビデオの再生と同期してスクロールします。ご意見・ご要望がございましたら、こちらのお問い合わせフォームよりご連絡ください。