Ðại cương về phân tích số liệu
Phép ước lượng
Dân số và mẫu
Thông
thường chúng ta không thể nghiên cứu toàn bộ dân số mà chúng ta quan tâm. Chúng
ta thường chỉ có thể nghiên cứu chỉ một phần dân số đó, phần này được gọi là mẫu
(sample) và từ đó ước đoán về những đặc tính của dân số.
Trong
nghiên cứu khoa học, chúng ta đi từ đặc trưng của cá thể (biến số - variable) để
có được đặc trưng của mẫu (được gọi là thống kê - statistics) và từ đặc trưng của
mẫu chúng ta sử dụng phương pháp suy luận thống kê và lí giải để có được đặc
trưng của dân số (được gọi là tham số - parameter)
Một
loại mẫu thường được gặp trong nghiên cứu là mẫu ngẫu nhiên đơn.
Khi lấy mẫu ngẫu nhiên đơn, chúng ta có
thể tính được giá trị trung bình và độ
lệch chuẩn của mẫu. Rõ ràng là giá trị trung bình và độ lệch chuẩn sẽ khác nhau
với những mẫu khác nhau. Tuy vậy các nhà thống kê đã chứng minh rằng giá trị
trung bình của mẫu sẽ có phân phối bình thường và các giá trị trung bình này sẽ
tập trung tại trung bình của dân số. Do đó nếu chúng ta tính trung bình của mẫu
thì chúng ta hi vọng trung bình của dân số sẽ nằm ngay tại hay ở lân cận trung
bình của mẫu. Ðộ phân tán của trung bình mẫu xung quanh chung bình dân số được
gọi là sai số chuẩn (standard error) và sẽ giảm đi khi cỡ mẫu càng lớn:
Độ lệch chuẩn và sai số chuẩn là hai đại lượng thể hiện sự
phân tán nhưng độ lệch chuẩn thể hiện sự phân tán của cá thể chung quanh giá
trình trung bình dân số còn sai số chuẩn là đại lượng thể hiện sự phân tán của
con số thống kê (trung bình mẫu hay tỉ lệ của mẫu) chung quanh giá trị của tham
số (trung bình dân số hay tỉ lệ của dân số).
Ước lượng khoảng tin cậy của trung bình
Như
chúng ta đã trình bày, trung bình của mẫu sẽ dao động nhưng tập trung tại giá trị trung bình của dân số, nên chúng
ta có thể ước lượng trung bình dân số bằng cách tính trung bình của mẫu.
Nhưng
do trung bình mẫu có dao động, chúng ta không chắc là trung bình mẫu sẽ chính
xác bằng trung bình của dân số mà chỉ có thể tin là trung bình dân số nằm ở vị
trí đâu đó chung quanh trung bình của dân số. Các nhà thống kê cho rằng 95% các
trường hợp trung bình dân số không nằm xa quá 1,96 x SE so với trung bình mẫu: phạm vi này được gọi
là khoảng tin cậy 95%. Như vậy khoảng tin cậy 95% của trung bình của biến sô định
lượng
Trong
trường hợp cỡ mẫu nhỏ (n < 30), chúng ta không thể sử dụng giá trị 1,96 như
trong công thức trên mà cần phải sử dụng các giá trị hơi lớn hơn (và càng lớn nếu
cỡ mẫu càng nhỏ), giá trị này được gọi là giá trị của phân phối t với (cỡ mẫu – 1) độ tự do.
Bài
tập:
1.
Một nghiên cứu ghi nhận trên cỡ mẫu 1235 trẻ sơ sinh ở tỉnh Đồng Tháp cho thấy
trọng lượng trung bình của trẻ sơ sinh là 3121 gram và độ lệch chuẩn là 435
gram. Hãy ước lượng khoảng tin cậy 95% của trọng lượng trung bình của trẻ sơ
sinh tỉnh Đồng Tháp.
Sử
dụng công thức trên ta tính được:
95%CI=3096.74 - 3145.26 gram.
2.
Chiều cao của 10 thanh niên là 160; 162; 165; 166; 169; 170; 172; 172; 176;
176. Hãy ước lượng khoảng tin cậy 95% của chiều cao trung bình.
Trước
tiên chúng ta phải xác định trung bình của chiều cao là 168,8 cm và độ lệch chuẩn
của chiều cao là 5,493. Do cỡ mẫu là 10 chúng ta phải dò bảng phân phối t ở 9 độ
tự do ta được giá trị t (tương ứng với khoảng tin cậy 95%) là 2,26. Từ đó chúng
ta tính được khoảng tin cậy 95%
95%CI = 164.87 - 164.87.
Ước lượng khoảng tin cậy của tỉ lệ
Để
ước lượng khoảng tin cậy của một tỉ lệ, chúng ta cần xác định tỉ lệ p sau đó dựa
vào p để ước lượng khoảng tin cậy 95% của p
đến
Bài tập
Điều
tra trên 127 thanh niên có 45 thanh niên hút thuốc lá. Hãy tính tỉ lệ thanh
niên hút thuốc lá và khoảng tin cậy 95% của tỉ lệ hút thuốc lá.
Chúng
ta tính được tỉ lệ hút thuốc lá ở thanh niên là 0.354 (35.4%). Dựa vào công thức
trên chúng ta tính được khoảng tin cậy 95% của tỉ lệ hút thuốc lá là 0,271 đến
0,438
Suy luận thống kê
Kiểm định ý nghĩa
Phương
pháp kiểm định ý nghĩa được Fisher đề xuất và dựa trên căn bản của phép phản chứng.
Phép phản chứng trong logic học sử dụng bằng mệnh đề: Nếu A kéo theo B thì
không B sẽ kéo theo không A.
Một
thí dụ của phép phản chứng là khi chúng ta gặp một bệnh nhân nghi ngờ tắc ruột
và chúng ta hỏi bệnh sử xem bệnh nhân có bí trung tiện hay không. Giả sử bệnh
nhân không bí trung tiện thì chúng ta sẽ bác cỏ chẩn đoán tắc ruột với suy luận
sau: Nếu bệnh nhân bị tắc ruột sẽ bí trung tiện thì bệnh nhân sẽ bí trung tiện,
do bệnh nhân không bí trung tiện nên bệnh nhân không bị tắc ruột.
Một
cách tổng quan hơn, khi chúng ta đưa ra giả thuyết chẩn đoán (thí dụ như chẩn
đoán tắc ruột), chúng ta thường sẽ xem xét các hệ quả phổ biến giả thuyết này
(Bệnh nhân tắc ruột thường bị đau bụng,nôn ói, bí trung tiện và chướng bụng).
Việc không có một trong các hậu quả phổ biến của giả thuyết này (thí dụ như bệnh
nhân không có đau bụng, không có nôn ói, không bị bí trung tiện hay không có
chướng bụng) thì chúng ta có thể bác bỏ chẩn đoán. Các biến cố nằm ngoài các hệ
quả phổ biến của giả thuyết (biến cố không có đau bụng, không có nôn ói, không
bị bí trung tiện hay không có chướng bụng) được gọi là miền bác bỏ của chẩn
đoán.
Trong kiểm định
thống kê người ta cũng sử dụng các lập luận tương tự. Để kiểm định một giả thuyết
thống kê (được gọi là giả thuyết Ho) cần phải xác định miền xảy ra phổ biến của
các con số thống kê (như trung bình, tỉ lệ, thống kê t, thống kê z, thống kê
chi bình phương, v.v.) và nếu con số thống kê này nằm ngoài miền xảy ra phổ biến
thì chúng ta sẽ bác bỏ giả thuyết Ho. Miền nằm ngoài miền xảy ra phổ biến của số
thống kê được gọi miền bác bỏ.
Hình 1. Nguyên tắc kiểm định ý nghĩa
theo Fisher. Đường cong phân phối hình
chuông thể hiện phân phối của thống kê của z khi µ=0 (giả thuyết Ho). Vùng diện
tích dưới đường cong màu trắng thể hiện miền các thống kê z thường xảy ra nếu
giả thuyết Ho là đúng. Vùng diện tích dưới đường cong màu sẫm là miền bác bỏ giả
thuyết Ho và có diện tích là xác suất
sai lầm loại 1 (5%).
Khi sử dụng kiểm định ý nghĩa chúng ta cần lưu ý các điểm
sau:
- Kiểm định dựa trên nguyên tắc phản chứng nghĩa là chúng
ta chỉ có thể bác bỏ chứ không thể chứng minh được giả thuyết Ho. Vì vậy nếu
chúng ta muốn chứng minh hút thuốc lá là yếu tố nguy cơ của ung thư phổi thì phải
đặt ra giả thuyết thống kê Ho là hút thuốc lá không phải là yếu tố nguy cơ của
ung thư phổi và sử dụng phương pháp kiểm định để bác bỏ điều này.
Giả thuyết Ho phải thể hiện bằng đẳng thức (thí
dụ như giả thuyết Ho: RR=1 hay Ho: điểm trung bình về bệnh lây truyền qua đường
tình dục ở nam thanh niên = điểm trung bình về bệnh lây truyền qua đường tình dục
ở nữ thanh niên ) thì mới có thể tính được phân phối của thống kê. Giả thuyết
Ho không thể thể hiện bằng bất đẳng thức (Ho: RR>1 là sai)
Do diện
tích miền bác bỏ là một con số cố định (thường là 0,05), để xác định con số thống
kê T có nằm trong miền bác bỏ hay không người ta tính xác suất xảy ra thống kê
cực đoan hơn giá trị T nếu giả thuyết Ho là đúng (được thể hiện bằng công thức:
P (>T |Ho) ). Xác suất này được gọi là giá trị p. Và nếu giá trị p nhỏ hơn
ngưỡng bác bỏ nghĩa là thống kê T nằm trong vùng bác bỏ và chúng ta có thể bác
bỏ giả thuyết Ho.
Giá trị p được kí
hiệu khác nhau trên các phần mềm thống kê. Thí dụ ở phần mềm Epi-Info, giá trị
p được kí hiệu là p-value, ở phần mềm
SPSS, giá trị p được kí hiệu là Sig. Ở phần mềm Stata, các giá trị p thường được
kí hiệu khác nhau tùy theo thống kê được sử dụng là thống kê gì. Cụ thể, trong
phần mềm Stata, giá trị p được kí hiệu như sau:
P > |T| (nếu kiểm
định t)
P > |z| (nếu kiểm định z)
Prob > chi2 (kiểm
định chi bình phương)
Prob > F (Kiểm định F; Kiểm định ANOVA)
Kiểm định giả thuyết
Khuyết
điểm của phương pháp kiểm định ý nghĩa khi không bác bỏ được giả thuyết H0
chúng ta không biết được xác suất H0 đúng là bao nhiêu. Một nhà thống
kê học khác tên là Neyman đã đề ra phương pháp kiểm định giả thuyết trong đó có
xét đến sai lầm loại 2.
Sai
lầm loại một và sai lầm loại hai
Sai lầm loại một: bác bỏ giả thuyết
H0 trong khi giả thuyết H0 là đúng.
Sai lầm loại hai: Không bác bỏ giả
thuyết H0 trong khi giả thuyết H0 sai.
Trong
nghiên cứu thống kê người ta không bao giờ có thể chắc chắn. Do vậy, khi nhà
nghiên cứu đi đến kết luận bác bỏ giả thuyết H0, người nghiên cứu có
thể bị sai lầm (sai lầm loại một - với một xác suất nào đó). Khi nhà nghiên cứu
không bác bỏ giả thuyết H0, nhà nghiên cứu cũng có thể bị sai lầm
(sai lầm loại hai - cũng với một xác suất nào đó). Một điều nên nhớ là bằng kiểm định thống kê người ta có thể xác định
được xác suất sai lầm loại một nhưng không thể tính được xác suất sai lầm loại
hai mà chỉ có thể tính được dựa vào đối thuyết Ha và cỡ mẫu của nghiên cứu.
Ðôi
khi người ta còn sử dụng khái niệm năng lực (power) của kiểm định thống kê.
Năng lực của kiểm định thống kê = 1 - xác suất sai lầm loại 2. Khái niệm năng lực
của thống kê hay được dùng trong tính cỡ mẫu.
Bảng 1. Tóm tắt về sai lầm loại
1, sai lầm loại 2 và giá trị ngưỡng của
nó
|
Chân lí là Ho đúng
(Không có sự khác biệt)
|
Chân lí là Ha đúng
(Không có sự khác biệt)
|
Bác bỏ giả thuyết H0
|
Sai lầm loại 1
(Xác suất = a)
|
Kết luận đúng
(Xác suất = 1-b =
Power của nghiên cứu)
|
Không bác bỏ giả thuyết H0
|
Kết luận đúng
(Xác suất = 1-a)
|
Sai lầm loại II
(Xác suất = b)
|
Chọn lựa kiểm định phù hợp
Như
vậy nguyên lí của kiểm định ý nghĩa (hay kiểm định giả thuyết là như nhau). Các
kiểm định chỉ khác nhau việc lựa chọn thống kê xuất phát từ giả thuyết H0.
Việc lựa chọn này phụ thuộc vào biến số của vấn đề quan tâm và thiết kế của
nghiên cứu.
Bảng 10. Chọn lựa kiểm định
phù hợp theo thiết kế nghiên cứu
|
Loại thiết kế nghiên cứu
|
Thang đo của biến số phụ thuộc
|
|
Ba (hay nhiêù) nhóm điều trị gồm
các cá nhân khác nhau
|
Trước và sau một điều trị (hoặc
2 điều trị) ở trên cùng các đối tượng
|
Nhiều điều trị trên cùng các đối
tượng
|
Liên hệ giữa hai biến số
|
Ðịnh lượng (mẫu rút từ một dân số
có phân phối bình thường và phương sai hai nhóm đồng nhất
|
t-test không bắt cặp
|
Phân tích phương sai
|
t-test bắt cặp
|
Phân tích phương sai đo lường lập
lại
|
Hồi quy tuyến tính và tương quan
pearson
|
Ðịnh tính - Danh định
|
c2 bảng 2 x n
|
c2 bảng 3 x n
|
test McNemar
|
Cochrance Q
|
Hệ số của bảng n x m
(phi, OR, RR)
|
Ðịnh tính -Thứ tự
(hay biến định lượng không bình
thường)
|
Kiểm định tổng sắp hạng Mann-Whitney
|
Kruskal-Wallis
|
Kiểm định sắp hạng có dấu
Wilcoxon
|
Friedman
|
hệ số tương quan Spearman
|
Bảng 11. Chọn lựa kiểm định phù hợp để tìm
sự liên hệ giữa biến độc lập và biến phụ thuộc
Biến phụ thuộc
|
Biến độc lập
|
Nhị giá
|
Danh định (hoặc thứ tự)
|
Định lượng, đa biến (hoặc
thứ tự)
|
Định lượng phân phối bình
thường
|
T-test
|
ANOVA
|
Hồi quy tuyến tính
|
Biến định lượng phân phối
không bình thường – Biến thứ tự
|
Mann-Whitney
|
Kruskal-Wallis
|
TQ Spearman
|
Nhị giá
|
Chi bình phương
|
Chi bình phương
|
Hồi quy logistic
|
Sống còn
|
Wilcoxon tổng quát
Logrank
|
Wilcoxon tổng quát
Logrank
|
Hồi quy Cox
|
Phép kiểm t bắt cặp
Tiên
lượng của bệnh nhân suy hô hấp mãn tính tăng carbonic thường kém (tỉ lệ tử vong
trong 3 năm thay đổi từ 30% đến 100%) và hiện tại chưa có phương pháp điều trị
hữu hiệu. Tilapur và Mir (Am J Med 1984;
77:987) cho rằng chế độ ăn giảm carbonhydrate có thể cải thiện tình trạng hô hấp.
Các nhà nghiên cứu này tiến hành thực nghiệm trên 8 người suy hô hấp mãn tính
(có dấu hiệu của tim lớn, gan lớn, phù và tăng áp phổi) với chế độ điều trị bằng
chế độ ăn 600 Kcal và ghi nhận PaO2 (phân áp oxy động mạch) và PaCO2 (phân áp
carbon dioxide động mạch) trước và sau điều trị. Kết quả nghiên cứu được trình
bày trong Bảng 1. Hãy so sánh trung bình của phân áp oxy động mạch trước và sau
khi điều trị.
Bảng 1. Phân áp Oxy động mạch và phân áp CO2 động mạch trên 8 đối tượng trước và sau chế độ điều trị với chế độ ăn giảm
carbonhydrate
Đối tượng
|
Pa02 trước
|
Pa02 sau
|
Hiệu số
|
PaC02 trước
|
PaC02 sau
|
Hiệu số
|
1
|
70
|
82
|
12
|
49
|
45
|
-4
|
2
|
59
|
66
|
7
|
68
|
54
|
-14
|
3
|
53
|
65
|
12
|
65
|
60
|
-5
|
4
|
54
|
62
|
8
|
57
|
60
|
3
|
5
|
44
|
74
|
30
|
76
|
59
|
-17
|
6
|
58
|
77
|
19
|
62
|
54
|
-8
|
7
|
64
|
68
|
4
|
49
|
47
|
-2
|
8
|
43
|
59
|
16
|
53
|
50
|
-3
|
Thực hành:
Bước 1: Xây dựng giả thuyết Ho:
Ho:
Phân áp oxy động mạch trước và sau điều trị không thay đổi
Bước 2: Chọn kiểm định phù hợp
Kiểm
định phù hơp là kiểm định t bắt cặp với 7 độ tự do
Bước 3: Tính thống kê t
Tính
trung bình và độ lệch chuẩn của biến số d (hiệu số của phân áp oxy động mạch
trước và sau điều trị) để tính thống kê t
Bước 4: tính xác suất của giá trị thống kê t
Để
tính xác suất của giá trị thống kê t ta sử dụng hàm tdist(giá trị t, độ tự do,
2). Cụ thể để tính p tương ứng với giá trị t = 4.63 ở 7 độ tự do chúng ta đánh
công thức "=tdist(4.63, 7, 2) vào một ô. Kết quả ta được giá trị p=
0.002397687.
Bước 5: Kết luận
Vì
giá trị p= 0.002397687 nhỏ hơn 0.05 nên chúng ta bác bỏ giả thuyết Ho nghĩa là
phân áp oxy động mạch có cải thiện sau khi điều trị.
Phép kiểm t (không bắt cặp)
Nhằm
tìm hiểu vai trò của catecholamine trong tăng huyết áp vô căn, de Champlain
(Circ Res 1976; 38:109) nghiên cứu 22 bênh nhân tăng huyết áp vô căn (gồm 13
người có nồng độ catecholamine cao và 9 bình thường), ghi nhận nhịp tim, huyết
áp tâm thu, huyết áp tâm trương. Kết quả của nghiên cứu được trình bày trong bảng
2. Hãy so sánh nhịp tim ở hai nhóm, nhóm có tăng catecholamine và nhóm không
tăng catecholamine.
Bảng 1. Trung bình và độ lệch chuẩn của Luợng
catecholamine huyết thanh, nhịp tim, huyết áp tâm thu và huyết áp tâm trung ở
13 bệnh nhân tăng huyết áp tăng catecholamine và 9 bệnh nhân tăng huyết áp
không tăng catecholamine
|
Tăng catecholamine
|
Không tăng
|
Số bệnh nhân
|
13
|
9
|
catecholamine huyết thanh (ug/mL)
|
`x=0.484 s=0.133
|
`x=0.206 s=0.060
|
Nhịp tim
|
`x=90.7 s=11.5
|
`x=77.8 s=13.2
|
Huyết áp tâm thu
|
`x=171.3 s=13.7
|
`x=147.4 s=9.9
|
Huyết áp tâm trương
|
`x=103.0 s=8.3
|
`x=95.6 s=12.9
|
Thực hành:
Bước 1: Xây dựng giả thuyết Ho:
Ho:
Trung bình nhịp tim ở nhóm bệnh nhân có tăng catecholamine = nhịp tim trung
bình ở nhóm bệnh nhân không tăng catecholamine
Bước 2: Chọn kiểm định phù hợp
Kiểm
định phù hơp là kiểm định t với (n1+n2-2) = 20 độ tự do
Bước 3: Tính thống kê t
Trước
tiên chúng ta phải tính độ lệch chuẩn gộp
(Để
dễ nhớ công thức tính độ lệch chuẩn gộp chúng ta cần lưu ý phương sai gộp là
trung bình của phương sai của mỗi nhóm với trọng số là độ tự do của phương sai
đó)
Sau
đó chúng ta tính thống kê t
Bước 4: tính xác suất của giá trị thống kê t
Sử
dụng máy vi tính chúng ta tính được giá trị p= 0,024123071 (nếu sử dụng bảng số
thống kê chúng ta sẽ tìm được p <0,05)
Bước 5: Kết luận
Vì
giá trị p= 0,024123071 nhỏ hơn 0,05 nên chúng ta bác bỏ giả thuyết Ho nghĩa là
giữa hai nhóm bệnh nhân có sự khá biệt về nhịp tim trung bình.
Phân tích phương sai
Anionwo
et al. (1981, BMJ; 282:283) muốn tìm hiểu xem mức hemoglobin trong 3 nhóm bệnh
hồng càu liềm có khác nhau hay không bằng cách ghi nhận mức hemoglobin ở 3 nhóm
bệnh nhân.
Bảng 7. Phân
tích phương sai một chiều: sự khác biệt trong nồng độ hemoglobin giữa các bệnh
nhân bị các loại bệnh hồng cầu liềm khác nhau. Số liệu từ Anionwo et al. (1981)
British Medical Journal, 282, 283-6
(a)
Số liệu
Loại bệnh hồng cầu liềm
|
Số bệnh nhân
(ni)
|
Trung bình
(`xi)
|
s.d.
(si)
|
Giá trị của các cá thể
hemoglobin g%
(x)
|
Hb SS
|
16
|
8,712
|
0,844
|
7,2; 7,7; 8,0; 8,1; 8,3; 8,4; 8,4; 8,5; 8,6; 8,7; 9,1; 9,1; 9,1; 9,8;
10,1; 10,3
|
Hb S/b-thalassaemia
|
10
|
10,630
|
1,284
|
8,1; 9,2; 10,0; 10,4; 10,6; 10,9; 11,1; 11,9; 12,0; 12,1
|
Hb SC
|
15
|
13,300
|
0,942
|
10,7; 11,3; 11,5; 11,6; 11,7; 11,8; 12,0; 12,1; 12,3; 12,6; 12,6; 13,3;
13,8; 13,8; 13,9
|
Hãy
sử dụng kiểm định thống kê phù hợp để so sánh nồng độ Hemoglobin trung bình ở 3
nhóm bệnh nhân bị hồng cầu liềm.
Thực hành:
Bước 1: Xây dựng giả thuyết Ho:
Ho:
Trung bình Nồng độ hemoglobin ở 3 nhóm bệnh HC liềm bằng nhau
Bước 2: Chọn kiểm định phù hợp
Kiểm
định phù hợp là phương pháp phân tích phương sai (ANOVA) với thống kê F với (số
nhóm, số quan sát - số nhóm) = (2,38) độ
tự do ; F tới hạn= 3,32
Bước 3: Lập bảng ANOVA và Tính thống kê F
Chúng
ta lập thành bảng phân tích phương sai như sau:
Nguồn biến thiên
|
SS
|
d.f.
|
MS=SS/d.f.
|
MS giữa các nhóm
F= ----------------------------
MS
bên trong nhóm
|
Giữa các nhóm
|
99,92
|
2
|
49,96
|
50.03 , P<0,001
|
Trong các nhóm
|
37,95
|
38
|
1,00
|
|
Tổng cộng
|
137,85
|
40
|
|
|
Các giá trị ở trên có thể tính theo công thức sau:
Giữa các nhóm
SSb= S ni´(xi-`x)2= S nixi2-(Sx)2/N
= 16 ´ 8,71252+10 ´ 10,63002+15 ´ 12,3002 - 430,22/41=99,92
dfb = k-1 = 2
MSb = SS/d.f.
Trong các nhóm
SSw = S (ni -1)si2
=15 x 0,84452 + 9 x 1,28412 + 14 x 0,9419 = 37,96
dfw=
N - k = 41-3 = 38
MSw = SS/d.f.
Và giá trị thống kê F
F = MSb/MSw
Bước 4: tính xác suất của giá trị thống kê F
Dựa
vào máy tính chúng ta tính được giá trị p= 2.26 x 10-11. Chúng ta cũng
có thể dựa vào bảng thống kê F để tìm được p <0,001
Bước 5: Kết luận
Vì
giá trị rất nhỏ nên chúng ta bác bỏ giả thuyết Ho nghĩa là ba nhóm bệnh nhân bệnh
hồng cầu liềm có giá trị hemoglobin trung bình khác nhau có ý nghĩa thống kê.
Phép kiểm chi bình phương
Có
240 người được tiêm vaccine phòng bệnh cúm và
220 người được tiêm placebo. Trong nhóm tiêm vaccine có 20 người bị cúm
và trong nhóm tiêm placebo có 80 người bị cúm. Hãy so sánh tỉ lệ mắc cúm giữa 2
nhóm: nhóm tiêm vaccine và nhóm tiêm placebo? Hãy cho biết mức độ liên hệ giữa
vaccine cúm và bệnh cúm?
Thực hành
Bước 1: Xây dựng giả thuyết Ho:
Ho:
Tỉ lệ mắc cúm ở nhóm tiêm vaccine = tỉ lệ mắc cúm ở nhóm không tiêm vaccine
Bước 2: Chọn kiểm định phù hợp
Kiểm
định phù hợp là kiểm định chi bình phương với 1 độ tự do
Bước 3: Lập bảng 2 x 2 và Tính thống kê chi bình phương
Lập
bảng 2 x 2 như sau
Kết quả
|
Mắc bệnh cúm
|
Không mắc
|
Tổng
|
Tiêm chủng
|
Có
|
20 a
(8,3%)
|
220 b
|
240 a+b
|
Placebo
|
80 c
(36,4%)
|
140 d
|
220 c+d
|
Tổng
|
100 a+c
|
360 b+d
|
460 N
|
Để
tính thống kê chi bình phương có hai cách:
Phương pháp chính thức:
- Tính các giá trị kì vọng (E) ở các
ô, giá trị kì vọng của một ô bằng tích các ô biên chia cho tổng số chung (thí dụ
giá trị kì vọng của ô a Ea = (a+b) ´ (a+c) /N, giá trị kì vọng của ô c Ec
= (a+b) ´ (c+d) /N)
- Tính giá trị chi bình phương theo
công thức
Trong thí dụ này
Công thức tính tắt cho bảng 2 ´ 2
Bước 4: tính xác suất của giá trị thống kê c2
Sử
dụng máy vi tính chúng ta được giá trị p= 3,31 x 10-13 nghĩa là giá
trị của p rất nhỏ. Sử dụng bảng số chúng ta biết được p < 0,001.
Bước 5: Kết luận
Vì
giá trị rất nhỏ nên chúng ta bác bỏ giả thuyết Ho. Chúng ta có thể kết luận tỉ
lệ mắc cúm ở nhóm tiêm vaccine thấp hơn có ý nghĩa thống kê so với nhóm tiêm
placebo.
Sự tương quan của hai biến số định tính
Mức độ liên hệ giữa tiêm chủng vaccine và mắc bệnh cúm
Mức
độ liên hệ giữa hai biến số định tính được ước lượng bằng cách sử dụng RR (hoặc
OR nếu trong nghiên cứu bệnh chứng). Giả sử số liệu của bảng 2 x2 nằm ở vùng
C2:D3 chúng ta có thể tính RR bằng cách nhập công thức "=MHRR(C2:D3)"
ta được RR=0,23 với khoảng tin cậy 95% của RR từ 0,15 đến 0,36
So sánh tỉ lệ của biến số nhị giá : Kiểm định chi-bình
phương
Khi
hai biến số là biến số nhị giá người ta sử dụng giá trị RR hay OR để đo lường mức
độ liên hệ (xem lại phần các số đo dịch tễ).
Kết quả
|
Mắc bệnh
|
Không mắc bệnh
|
Tổng
|
Biến số phơi nhiễm
|
Phơi nhiễm
|
a1
|
b1
|
N1
|
Không phơi nhiễm
|
ao
|
b0
|
N0
|
Tổng
|
a1+a0
|
b1+b0
|
N=N1+N0
|
Tỉ
số nguy cơ (RR) là tỉ số của nguy cơ của nhóm phơi nhiễm trên nguy cơ của nhóm
không phơi nhiễm:
RR
= (a1/N1)/(a0/N0)
Khoảng
tin cậy 95% của tỉ số nguy cơ:
hay(test-based CI)
Tỉ
số số chênh (OR) là tỉ số của số chênh mắc bệnh của nhóm phơi nhiễm trên số chênh
mắc bệnh ở nhóm không phơi nhiễm. Trong trường hợp nghiên cứu bệnh chứng tỉ số
số chênh là tỉ số của số chênh phơi nhiễm của nhóm bệnh trên số chênh phơi nhiễm
ở nhóm không chứng.
RR
= (a1/b1)/(a0/b0)
Khoảng
tin cậy 95% của tỉ số số chênh:
Bài tập
Một
nghiên cứu bệnh chứng nhằm tìm mối liên hệ giữa sự ăn thịt và viêm ruột hoại tử
đã tìm được 61 trường hợp viêm ruột hoại tử và 57 trường hợp chứng. Trong nhóm
bị viêm ruột hoại tử có 50 trường hợp có tiền căn ăn thịt (gần đây) và trong nhóm chứng có 16 trường
hợp có tiền căn ăn thịt. Hãy tìm ước lượng số đo liên hệ giữa ăn thịt và viêm
ruột hoại tử.
Table 5. Sự liên
hệ giữa ăn thịt trong thời gian gần đầu và viêm ruột hoại tử ở Papua New Guinea
(OR=11,6)
|
Ăn thịt
trong thời gian gần đây
|
Không ăn thịt
trong thời gian gần đây
|
Tổng số
|
Nhóm bệnh
|
50 a1
|
11 b1
|
61
|
Nhóm chứng
|
16 a0
|
41 b0
|
57
|
Tổng số
|
66
|
52
|
118
|
Nếu
tỉ lệ ăn thịt ở nhóm bệnh (50/61) cao hơn tỉ lệ ăn thịt trong nhóm chứng
(16/57) có ý nghĩa thống kê thì chúng ta có thể kết luận rằng có sự liên quan
giữa ăn thịt và viêm ruột hoại tử. Đây là bài toán so sánh tỉ lệ của một biến số
định tính ở hai nhóm và được giải quyết bằng kiểm định chi bình phương.
Tuy
nhiên bằng việc kiểm định giả thuyết chúng ta chỉ xác định có mối liên hệ mà
không biết độ lớn của sự liên hệ. Bởi vì đây là nghiên cứu bệnh chứng chúng ta
không tính được RR mà phải sử dụng OR để đo lường sức mạnh liên hệ. Sử dụng
công thức tính OR và khoảng tin cậy của OR ta được:
OR
= (a1/b1)/(a0/b0) = (a1 ´ b0)/(a0 ´ b1) = 11.65 và
khoảng
tin cậy 95% của OR = 4.87 đến 27.85
Bài tập
Có
240 người được tiêm vaccine phòng bệnh cúm và
220 người được tiêm placebo. Trong nhóm tiêm vaccine có 20 người bị cúm
và trong nhóm tiêm placebo có 80 người bị cúm. Hãy so sánh tỉ lệ mắc cúm giữa 2
nhóm: nhóm tiêm vaccine và nhóm tiêm placebo? Hãy cho biết mức độ liên hệ giữa
vaccine cúm và bệnh cúm?
Kết quả
|
Mắc bệnh cúm
|
Không mắc
|
Tổng
|
Tiêm chủng
|
Có
|
20 a1
(8,3%)
|
220 b1
|
240 N1
|
Placebo
|
80 a0
(36,4%)
|
140 d
|
220 N0
|
Tổng
|
100
|
360
|
460 N
|
Ta
tính được RR = (a1/N1)/(a0/N0) =
(20/240)/(80/220) = 0.23
Khoảng
tin cậy 95% của tỉ số nguy cơ:
= 0.15
đến 0.36
Quan hệ giữa hai biến số định lượng
Tương quan
Tương
quan là số đo mức độ hai biến số định lượng cùng thay đổi với nhau. Có nhiều loại
hệ số tương quan, nhưng chúng đều có giá trị từ -1 đến 1. Nếu chúng có giá trị
bằng zero có nghĩa là hai biến số độc lập và không quan hệ gì với nhau. Nếu
chúng có giá trị dương có nghĩa là hai biến số đồng biến với nhau, nếu chúng có
giá trị âm nghĩa là hai biến số nghịch biến. Giá trị tuyệt đối của hệ số tương
quan càng gần một nghĩa là hai biến số có liên hệ chặt với nhau và vai trò của
sai số ngẫu nhiên sẽ ít hơn. Khi trị tuyệt đối của hệ số tương quan bằng một có
nghĩa là hoàn toàn không có sai số ngẫu nhiên.
Loại
hệ số tương quan được sử dụng phổ biến nhất là hệ số tương quan Pearson r:
Lí giải ý nghĩa của hệ số
tương quan Pearson
-
Hệ số tương quan luôn luôn nằm trong đoạn [-1,1]
-
Hệ số tương quan r dương chứng tỏ hai biến số là đồng biến; hệ số tương quan r
âm chứng tỏ hai biến số là nghịch biến.
-
Trị số tuyệt đối của hệ số tương quan r nói lên mức độ liên quan giữa hai biến
số. Nếu trị tuyệt đối của r bằng 1 (r=1 hay r=-1), quan hệ hoàn toàn tuyến tính
nghĩa là tất cả các điểm nằm trên đường hồi quy (Hình 9.2 d và 9.2f). Nếu trị
tuyệt đối của r nhỏ hơn 1 sẽ có các điểm số liệu phân tán chung quanh đường hồi
quy (hình 9.2 c và 9.2e).
-
Bình phương của hệ số tương quan (r2) thể hiện tỉ lệ biến thiên của
biến số phụ thuộc được giải thích bằng sự biến thiên của biến số độc lập (nếu mối
liên hệ này là nhân quả)
-
Nếu r=0, không có mối liên hệ tuyến tính giữa hai biến số. Ðiều này có nghĩa là
(1) không có mối liên hệ gì giữa hai biến số hoặc (hình 9.2a) (2) mối liên hệ
giữa hai biến số không phải là tuyến tính (hình 9.2b)
-
Theo quy ước, quan hệ với r từ 0,1 đến
0,3 là quan hệ yếu, từ 0,3 đến 0,5 quan hệ trung bình và trên 0,5 là quan hệ mạnh.
Hồi quy
Hồi
quy là một mô hình toán học mô tả sự biến đổi của một biến số này theo những biến
số khác.
Một
phương trình hồi quy có thể có dạng như sau:
cân nặng (kg) = 6,85 + 0,18 ´ tháng tuổi
(phương
trình hồi quy tính cân nặng của trẻ từ 9 đến 40 tháng tuổi theo tháng tuổi)
theo
phương trình này người ta gọi:
cân nặng: biến số phụ thuộc
tháng tuổi: biến số độc lập
6,85: hệ số của hằng số, hay còn gọi là điểm chặn
(intercept)
0,18: hệ số của biến số tháng tuổi.
Một
cách tổng quát phương trình hồi quy sẽ có dạng:
Y = b0 + b1 x1 + b2 x2 +
b3 x3
Với y là
biến số phụ thuộc
x1, x2, x3
là các biến số độc lập
b0: điểm chặn của phương
trình
b1, b2, b3
: hệ số của các biến số độc lập
Hệ
số của biến số độc lập nói lên nếu biến số độc lập tăng một đơn vị thì biến số
phụ thuộc y sẽ thay đổi bao nhiêu. Cụ thể hơn nếu biến số x2 thay đổi
một đơn vị thì biến số y sẽ tăng giá trị là b2 (biến số y sẽ giảm nếu
giá trị b2 âm).
Bài tập
1.
Một nhà nghiên cứu ghi nhận lượng muối ăn và huyết áp tâm thu của 5 đối tượng
trong bảng 4.
Đối tượng
|
Lượng muối
|
Huyết áp
|
1
|
5
|
110
|
2
|
10
|
120
|
3
|
12
|
110
|
4
|
18
|
120
|
5
|
20
|
140
|
Hãy tìm mối liên hệ giữa huyết áp tâm thu và
lượng muối sử dụng.
Thực hành
Để
tìm sự liên hệ giữa hai biến số định lượng chúng ta sử dụng hệ số tương quan. Dựa
vào công thức ta tính được r
= 0,771829.
Như
vậy có mối liên quan thuận giữa lượng muối ăn và huyết áp tâm thu. Mối liên
quan này là mạnh và lượng muối ăn giải thích cho đến 60% (0.77 ´ 0.77) sự thay đổi của huyết áp
tâm thu.
Chúng
ta cũng tìm được phương trình của huyết áp theo lượng muối tiêu thụ sẽ là:
Huyết
áp tâm thu = 99,8 mmHg + 1,55 x Lượng muối.
Giá
trị 99,8 được gọi là điểm chặn của phương trình hồi quy và 1,55 là hệ số góc của
biến số lượng muối tiêu thụ. Điều này có nghĩa là nếu lượng muối ăn tăng thêm 1
gram/ngày thì huyết áp tâm thu sẽ tăng trung bình 1,55 mmHg.
2.
Lý giải ý nghĩa của phân tán đồ sau
Figure 8. Trọng lượng sơ sinh theo tuổi thai (tuần) của
641 trẻ sinh do thụ thai trong ống nghiệm ở Anh quốc
Đăng nhận xét