How statistics can be misleading - Mark Liddell

1,435,666 views ・ 2016-01-14

TED-Ed


Vui lòng nhấp đúp vào phụ đề tiếng Anh bên dưới để phát video.

Translator: Thuc Nhi Le Reviewer: Trang Nguyen Phuong
00:06
Statistics are persuasive.
0
6636
2441
Thống kê rất có tính thuyết phục.
00:09
So much so that people, organizations, and whole countries
1
9077
3464
Đến nỗi nhiều người, tổ chức, và đất nước
00:12
base some of their most important decisions on organized data.
2
12541
5206
đưa ra các quyết định quan trọng dựa trên số liệu.
00:17
But there's a problem with that.
3
17747
1737
Nhưng thống kê có một vấn đề.
00:19
Any set of statistics might have something lurking inside it,
4
19484
3817
Bất cứ số liệu thống kê nào cũng có điều ẩn chứa đằng sau,
00:23
something that can turn the results completely upside down.
5
23301
3950
điều có thể hoàn toàn đảo lộn kết quả.
00:27
For example, imagine you need to choose between two hospitals
6
27251
3669
Ví dụ như tưởng tượng bạn sẽ chọn một trong hai bệnh viện
00:30
for an elderly relative's surgery.
7
30920
2817
để phẫu thuật cho người thân lớn tuổi của bạn.
00:33
Out of each hospital's last 1000 patient's,
8
33737
2697
Trong số 1000 bệnh nhân gần đây của mỗi bệnh viện,
00:36
900 survived at Hospital A,
9
36434
3178
900 người sống sót ở bệnh viện A,
00:39
while only 800 survived at Hospital B.
10
39612
3409
trong khi chỉ có 800 sống sót ở bệnh viện B.
00:43
So it looks like Hospital A is the better choice.
11
43021
3149
Vậy nên có vẻ bệnh viện A là lựa chọn tốt hơn.
00:46
But before you make your decision,
12
46170
1673
Nhưng trước khi quyết định,
00:47
remember that not all patients arrive at the hospital
13
47843
3568
nhớ rằng không phải tất cả bệnh nhân đến bệnh viện
00:51
with the same level of health.
14
51411
2400
với tình trạng sức khỏe giống nhau.
00:53
And if we divide each hospital's last 1000 patients
15
53811
2892
Và nếu ta chia 1000 bệnh nhân ở mỗi bệnh viện
00:56
into those who arrived in good health and those who arrived in poor health,
16
56703
4429
thành nhóm người có sức khỏe tốt và nhóm có sức khỏe kém,
01:01
the picture starts to look very different.
17
61132
2640
bạn sẽ thấy sự khác biệt.
01:03
Hospital A had only 100 patients who arrived in poor health,
18
63772
4077
Bệnh viện A chỉ có 100 bệnh nhân có sức khỏe kém,
01:07
of which 30 survived.
19
67849
2476
mà chỉ có 30 người sống sót.
01:10
But Hospital B had 400, and they were able to save 210.
20
70325
4527
Nhưng bệnh viện B có 400 người nhưng lại cứu sống 210 người.
01:14
So Hospital B is the better choice
21
74852
2317
Vì thế bệnh viện B là lựa chọn tốt hơn
01:17
for patients who arrive at hospital in poor health,
22
77169
3572
cho bệnh nhân có tình trạng sức khỏe xấu,
01:20
with a survival rate of 52.5%.
23
80741
3785
với tỉ lệ sống sót là 52.5%.
01:24
And what if your relative's health is good when she arrives at the hospital?
24
84526
3919
Và nếu sức khỏe người thân bạn tốt khi đến bệnh viện?
01:28
Strangely enough, Hospital B is still the better choice,
25
88445
3826
Lạ lùng là bệnh viện B vẫn tốt hơn,
01:32
with a survival rate of over 98%.
26
92271
3405
với tỉ lệ sống sót là 98%.
01:35
So how can Hospital A have a better overall survival rate
27
95676
3057
Vậy làm sao bệnh viện A lại có tỉ lệ sống sót cao hơn
01:38
if Hospital B has better survival rates for patients in each of the two groups?
28
98733
6097
khi bệnh viện B có tỉ lệ bệnh nhân sống sót ở mỗi nhóm cao hơn?
01:44
What we've stumbled upon is a case of Simpson's paradox,
29
104830
3759
Vấn đề ta gặp phải gọi là Nghịch lí Simpson,
01:48
where the same set of data can appear to show opposite trends
30
108589
3310
khi nhóm số liệu giống nhau cho các xu hướng trái ngược
01:51
depending on how it's grouped.
31
111899
2765
dựa vào cách nó được phân nhóm.
01:54
This often occurs when aggregated data hides a conditional variable,
32
114664
4080
Điều này thường xảy ra khi dữ liệu tổng hợp mất một biến có điều kiện
01:58
sometimes known as a lurking variable,
33
118744
2633
đôi khi được gọi là biến ẩn,
02:01
which is a hidden additional factor that significantly influences results.
34
121377
5207
là một yếu tố gián tiếp gây ảnh hưởng lớn đến kết quả.
02:06
Here, the hidden factor is the relative proportion of patients
35
126584
3439
Ở đây, yếu tố gián tiếp là lượng bệnh nhân
02:10
who arrive in good or poor health.
36
130023
3241
đến trong tình trạng sức khỏe tốt hay kém.
02:13
Simpson's paradox isn't just a hypothetical scenario.
37
133264
3280
Nghịch lí Simpston không chỉ xuất hiện trong lí thuyết.
02:16
It pops up from time to time in the real world,
38
136544
2380
Nó còn hay xuất hiện trong cuộc sống,
02:18
sometimes in important contexts.
39
138924
3208
thỉnh thoảng còn trong các trường hợp quan trọng.
02:22
One study in the UK appeared to show
40
142132
1998
Một nghiên cứu ở Anh cho thấy
02:24
that smokers had a higher survival rate than nonsmokers
41
144130
3470
lượng người hút thuốc sống sót nhiều hơn người không hút
02:27
over a twenty-year time period.
42
147600
2246
trong khoảng thời gian 20 năm.
02:29
That is, until dividing the participants by age group
43
149846
3461
Tuy nhiên, khi chia người tham gia nghiên cứu theo nhóm tuổi
02:33
showed that the nonsmokers were significantly older on average,
44
153307
4516
trung bình người không hút thuốc lớn tuổi hơn nhiều,
02:37
and thus, more likely to die during the trial period,
45
157823
3107
và vì thế dễ chết trong thời gian thí nghiệm,
02:40
precisely because they were living longer in general.
46
160930
3508
phần vì họ nhìn chung sống lâu hơn.
02:44
Here, the age groups are the lurking variable,
47
164438
2848
Ở đây, nhóm tuổi chính là biến ẩn,
02:47
and are vital to correctly interpret the data.
48
167286
2890
và quyết định đến tính đúng đắn của số liệu.
02:50
In another example,
49
170176
1383
Trong trường hợp khác,
02:51
an analysis of Florida's death penalty cases
50
171559
2722
một phân tích các vụ tử hình ở Florida
02:54
seemed to reveal no racial disparity in sentencing
51
174281
3984
cho thấy không có sự phân biệt sắc tộc khi tuyên án
02:58
between black and white defendants convicted of murder.
52
178265
3316
giữa những người da trắng và da đen bị kết tội giết người.
03:01
But dividing the cases by the race of the victim told a different story.
53
181581
4815
Nhưng khi chia các trường hợp theo sắc tộc lại có sự khác biệt.
03:06
In either situation,
54
186396
1573
Trong mỗi trường hợp,
03:07
black defendants were more likely to be sentenced to death.
55
187969
3122
bị cáo da đen có xu hướng bị án tử hình hơn.
03:11
The slightly higher overall sentencing rate for white defendants
56
191091
3975
Nhìn chung tỉ lệ tuyên án cho bị cáo da trắng cao hơn
03:15
was due to the fact that cases with white victims
57
195066
3626
bởi vì trường hợp các nạn nhân là người da trắng
03:18
were more likely to elicit a death sentence
58
198692
2667
có xu hướng đưa ra án tử hình,
03:21
than cases where the victim was black,
59
201359
2732
hơn trường hợp nạn nhân là người da đen,
03:24
and most murders occurred between people of the same race.
60
204091
4392
và phần lớn vụ giết người diễn ra giữa nguời cùng màu da.
03:28
So how do we avoid falling for the paradox?
61
208483
2836
Vậy làm sao để tránh nghịch lí này?
03:31
Unfortunately, there's no one-size-fits-all answer.
62
211319
3367
Tiếc rằng, không có câu trả lời nào đúng cho mọi trường hợp.
03:34
Data can be grouped and divided in any number of ways,
63
214686
3818
Số liệu có thể được nhóm lại và chia ra theo nhiều cách khác nhau,
03:38
and overall numbers may sometimes give a more accurate picture
64
218504
3602
và các số liệu tổng hợp thường đưa ra kết quả chính xác
03:42
than data divided into misleading or arbitrary categories.
65
222106
4532
hơn là số liệu được phân chia thành các nhóm không phù hợp.
03:46
All we can do is carefully study the actual situations the statistics describe
66
226638
5451
Những gì ta có thể làm là khảo sát kĩ các tình huống thực tế được mô tả
03:52
and consider whether lurking variables may be present.
67
232089
3888
và xem xét khả năng xuất hiện của các thay đổi ẩn.
03:55
Otherwise, we leave ourselves vulnerable to those who would use data
68
235977
3401
Nếu không, ta sẽ dễ trở thành đối tượng của những người dùng thông tin
03:59
to manipulate others and promote their own agendas.
69
239378
3271
để chi phối người khác và phục vụ cho lợi ích của bản thân.
Về trang web này

Trang web này sẽ giới thiệu cho bạn những video YouTube hữu ích cho việc học tiếng Anh. Bạn sẽ thấy các bài học tiếng Anh được giảng dạy bởi các giáo viên hàng đầu từ khắp nơi trên thế giới. Nhấp đúp vào phụ đề tiếng Anh hiển thị trên mỗi trang video để phát video từ đó. Phụ đề cuộn đồng bộ với phát lại video. Nếu bạn có bất kỳ nhận xét hoặc yêu cầu nào, vui lòng liên hệ với chúng tôi bằng biểu mẫu liên hệ này.

https://forms.gle/WvT1wiN1qDtmnspy7