Bài 4: Đại cương về Phân tích số liệu

Ðại cương về phân tích số liệu

Phép ước lượng

Dân số và mẫu

Thông thường chúng ta không thể nghiên cứu toàn bộ dân số mà chúng ta quan tâm. Chúng ta thường chỉ có thể nghiên cứu chỉ một phần dân số đó, phần này được gọi là mẫu (sample) và từ đó ước đoán về những đặc tính của dân số.

Trong nghiên cứu khoa học, chúng ta đi từ đặc trưng của cá thể (biến số - variable) để có được đặc trưng của mẫu (được gọi là thống kê - statistics) và từ đặc trưng của mẫu chúng ta sử dụng phương pháp suy luận thống kê và lí giải để có được đặc trưng của dân số (được gọi là tham số - parameter)


Một loại mẫu thường  được gặp  trong nghiên cứu là mẫu ngẫu nhiên đơn. Khi  lấy mẫu ngẫu nhiên đơn, chúng ta có thể tính được   giá trị trung bình và độ lệch chuẩn của mẫu. Rõ ràng là giá trị trung bình và độ lệch chuẩn sẽ khác nhau với những mẫu khác nhau. Tuy vậy các nhà thống kê đã chứng minh rằng giá trị trung bình của mẫu sẽ có phân phối bình thường và các giá trị trung bình này sẽ tập trung tại trung bình của dân số. Do đó nếu chúng ta tính trung bình của mẫu thì chúng ta hi vọng trung bình của dân số sẽ nằm ngay tại hay ở lân cận trung bình của mẫu. Ðộ phân tán của trung bình mẫu xung quanh chung bình dân số được gọi là sai số chuẩn (standard error) và sẽ giảm đi khi cỡ mẫu càng lớn:


Độ lệch chuẩn và sai số chuẩn là hai đại lượng thể hiện sự phân tán nhưng độ lệch chuẩn thể hiện sự phân tán của cá thể chung quanh giá trình trung bình dân số còn sai số chuẩn là đại lượng thể hiện sự phân tán của con số thống kê (trung bình mẫu hay tỉ lệ của mẫu) chung quanh giá trị của tham số (trung bình dân số hay tỉ lệ của dân số).

Ước lượng khoảng tin cậy của trung bình

Như chúng ta đã trình bày, trung bình của mẫu sẽ dao động nhưng tập trung  tại giá trị trung bình của dân số, nên chúng ta có thể ước lượng trung bình dân số bằng cách tính trung bình của mẫu.

Nhưng do trung bình mẫu có dao động, chúng ta không chắc là trung bình mẫu sẽ chính xác bằng trung bình của dân số mà chỉ có thể tin là trung bình dân số nằm ở vị trí đâu đó chung quanh trung bình của dân số. Các nhà thống kê cho rằng 95% các trường hợp trung bình dân số không nằm xa quá 1,96 x SE  so với trung bình mẫu: phạm vi này được gọi là khoảng tin cậy 95%. Như vậy khoảng tin cậy 95% của trung bình của biến sô định lượng

           
Trong trường hợp cỡ mẫu nhỏ (n < 30), chúng ta không thể sử dụng giá trị 1,96 như trong công thức trên mà cần phải sử dụng các giá trị hơi lớn hơn (và càng lớn nếu cỡ mẫu càng nhỏ), giá trị này được gọi là giá trị của phân phối t với  (cỡ mẫu – 1) độ tự do.


Bài tập:

1. Một nghiên cứu ghi nhận trên cỡ mẫu 1235 trẻ sơ sinh ở tỉnh Đồng Tháp cho thấy trọng lượng trung bình của trẻ sơ sinh là 3121 gram và độ lệch chuẩn là 435 gram. Hãy ước lượng khoảng tin cậy 95% của trọng lượng trung bình của trẻ sơ sinh tỉnh Đồng Tháp.

Sử dụng công thức trên ta tính được:
            95%CI=3096.74 - 3145.26 gram.

2. Chiều cao của 10 thanh niên là 160; 162; 165; 166; 169; 170; 172; 172; 176; 176. Hãy ước lượng khoảng tin cậy 95% của chiều cao trung bình.
Trước tiên chúng ta phải xác định trung bình của chiều cao là 168,8 cm và độ lệch chuẩn của chiều cao là 5,493. Do cỡ mẫu là 10 chúng ta phải dò bảng phân phối t ở 9 độ tự do ta được giá trị t (tương ứng với khoảng tin cậy 95%) là 2,26. Từ đó chúng ta tính được khoảng tin cậy 95%

95%CI = 164.87 - 164.87.

Ước lượng khoảng tin cậy của tỉ lệ

Để ước lượng khoảng tin cậy của một tỉ lệ, chúng ta cần xác định tỉ lệ p sau đó dựa vào p để ước lượng khoảng tin cậy 95% của p

 đến  

Bài tập
Điều tra trên 127 thanh niên có 45 thanh niên hút thuốc lá. Hãy tính tỉ lệ thanh niên hút thuốc lá và khoảng tin cậy 95% của tỉ lệ hút thuốc lá.

Chúng ta tính được tỉ lệ hút thuốc lá ở thanh niên là 0.354 (35.4%). Dựa vào công thức trên chúng ta tính được khoảng tin cậy 95% của tỉ lệ hút thuốc lá là 0,271 đến 0,438

Suy luận thống kê

Kiểm định ý nghĩa

Phương pháp kiểm định ý nghĩa được Fisher đề xuất và dựa trên căn bản của phép phản chứng. Phép phản chứng trong logic học sử dụng bằng mệnh đề: Nếu A kéo theo B thì không B sẽ kéo theo không A.


Một thí dụ của phép phản chứng là khi chúng ta gặp một bệnh nhân nghi ngờ tắc ruột và chúng ta hỏi bệnh sử xem bệnh nhân có bí trung tiện hay không. Giả sử bệnh nhân không bí trung tiện thì chúng ta sẽ bác cỏ chẩn đoán tắc ruột với suy luận sau: Nếu bệnh nhân bị tắc ruột sẽ bí trung tiện thì bệnh nhân sẽ bí trung tiện, do bệnh nhân không bí trung tiện nên bệnh nhân không bị tắc ruột.

Một cách tổng quan hơn, khi chúng ta đưa ra giả thuyết chẩn đoán (thí dụ như chẩn đoán tắc ruột), chúng ta thường sẽ xem xét các hệ quả phổ biến giả thuyết này (Bệnh nhân tắc ruột thường bị đau bụng,nôn ói, bí trung tiện và chướng bụng). Việc không có một trong các hậu quả phổ biến của giả thuyết này (thí dụ như bệnh nhân không có đau bụng, không có nôn ói, không bị bí trung tiện hay không có chướng bụng) thì chúng ta có thể bác bỏ chẩn đoán. Các biến cố nằm ngoài các hệ quả phổ biến của giả thuyết (biến cố không có đau bụng, không có nôn ói, không bị bí trung tiện hay không có chướng bụng) được gọi là miền bác bỏ của chẩn đoán.

Trong kiểm định thống kê người ta cũng sử dụng các lập luận tương tự. Để kiểm định một giả thuyết thống kê (được gọi là giả thuyết Ho) cần phải xác định miền xảy ra phổ biến của các con số thống kê (như trung bình, tỉ lệ, thống kê t, thống kê z, thống kê chi bình phương, v.v.) và nếu con số thống kê này nằm ngoài miền xảy ra phổ biến thì chúng ta sẽ bác bỏ giả thuyết Ho. Miền nằm ngoài miền xảy ra phổ biến của số thống kê được gọi miền bác bỏ.
Hình 1. Nguyên tắc kiểm định ý nghĩa theo Fisher.  Đường cong phân phối hình chuông thể hiện phân phối của thống kê của z khi µ=0 (giả thuyết Ho). Vùng diện tích dưới đường cong màu trắng thể hiện miền các thống kê z thường xảy ra nếu giả thuyết Ho là đúng. Vùng diện tích dưới đường cong màu sẫm là miền bác bỏ giả thuyết Ho  và có diện tích là xác suất sai lầm loại 1 (5%).

Khi sử dụng kiểm định ý nghĩa chúng ta cần lưu ý các điểm sau:

- Kiểm định dựa trên nguyên tắc phản chứng nghĩa là chúng ta chỉ có thể bác bỏ chứ không thể chứng minh được giả thuyết Ho. Vì vậy nếu chúng ta muốn chứng minh hút thuốc lá là yếu tố nguy cơ của ung thư phổi thì phải đặt ra giả thuyết thống kê Ho là hút thuốc lá không phải là yếu tố nguy cơ của ung thư phổi và sử dụng phương pháp kiểm định để bác bỏ điều này.

Giả thuyết Ho phải thể hiện bằng đẳng thức (thí dụ như giả thuyết Ho: RR=1 hay Ho: điểm trung bình về bệnh lây truyền qua đường tình dục ở nam thanh niên = điểm trung bình về bệnh lây truyền qua đường tình dục ở nữ thanh niên ) thì mới có thể tính được phân phối của thống kê. Giả thuyết Ho không thể thể hiện bằng bất đẳng thức (Ho: RR>1 là sai)

Do diện tích miền bác bỏ là một con số cố định (thường là 0,05), để xác định con số thống kê T có nằm trong miền bác bỏ hay không người ta tính xác suất xảy ra thống kê cực đoan hơn giá trị T nếu giả thuyết Ho là đúng (được thể hiện bằng công thức: P (>T |Ho) ). Xác suất này được gọi là giá trị p. Và nếu giá trị p nhỏ hơn ngưỡng bác bỏ nghĩa là thống kê T nằm trong vùng bác bỏ và chúng ta có thể bác bỏ giả thuyết Ho.

Giá trị p được kí hiệu khác nhau trên các phần mềm thống kê. Thí dụ ở phần mềm Epi-Info, giá trị p được kí hiệu là  p-value, ở phần mềm SPSS, giá trị p được kí hiệu là Sig. Ở phần mềm Stata, các giá trị p thường được kí hiệu khác nhau tùy theo thống kê được sử dụng là thống kê gì. Cụ thể, trong phần mềm Stata, giá trị p được kí hiệu như sau:
P > |T| (nếu kiểm định t) 

P > |z| (nếu kiểm định z)

Prob > chi2 (kiểm định chi bình phương)

Prob > F (Kiểm định F; Kiểm định ANOVA) 

Kiểm định giả thuyết

Khuyết điểm của phương pháp kiểm định ý nghĩa khi không bác bỏ được giả thuyết H0 chúng ta không biết được xác suất H0 đúng là bao nhiêu. Một nhà thống kê học khác tên là Neyman đã đề ra phương pháp kiểm định giả thuyết trong đó có xét đến sai lầm loại 2.


Sai lầm loại một và sai lầm loại hai

Sai lầm loại một: bác bỏ giả thuyết H0 trong khi giả thuyết H0 là đúng.
Sai lầm loại hai: Không bác bỏ giả thuyết H0 trong khi giả thuyết H0 sai.

Trong nghiên cứu thống kê người ta không bao giờ có thể chắc chắn. Do vậy, khi nhà nghiên cứu đi đến kết luận bác bỏ giả thuyết H0, người nghiên cứu có thể bị sai lầm (sai lầm loại một - với một xác suất nào đó). Khi nhà nghiên cứu không bác bỏ giả thuyết H0, nhà nghiên cứu cũng có thể bị sai lầm (sai lầm loại hai - cũng với một xác suất nào đó). Một điều nên nhớ là  bằng kiểm định thống kê người ta có thể xác định được xác suất sai lầm loại một nhưng không thể tính được xác suất sai lầm loại hai mà chỉ có thể tính được dựa vào đối thuyết Ha và cỡ mẫu của nghiên cứu.

Ðôi khi người ta còn sử dụng khái niệm năng lực (power) của kiểm định thống kê. Năng lực của kiểm định thống kê = 1 - xác suất sai lầm loại 2. Khái niệm năng lực của thống kê hay được dùng trong tính cỡ mẫu.

Bảng 1. Tóm tắt về sai lầm loại 1,  sai lầm loại 2 và giá trị ngưỡng của nó

Chân lí là Ho đúng
(Không có sự khác biệt)
Chân lí là Ha đúng
(Không có sự khác biệt)
Bác bỏ giả thuyết H0
Sai lầm loại 1
(Xác suất =
a)
Kết luận đúng
(Xác suất = 1-
b =
Power của nghiên cứu)
Không bác bỏ giả thuyết H0
Kết luận đúng
(Xác suất = 1-
a)
Sai lầm loại II
(Xác suất =
b)

Chọn lựa kiểm định phù hợp

Như vậy nguyên lí của kiểm định ý nghĩa (hay kiểm định giả thuyết là như nhau). Các kiểm định chỉ khác nhau việc lựa chọn thống kê xuất phát từ giả thuyết H0. Việc lựa chọn này phụ thuộc vào biến số của vấn đề quan tâm và thiết kế của nghiên cứu.

Bảng 10. Chọn lựa kiểm định phù hợp theo thiết kế nghiên cứu

Loại thiết kế nghiên cứu


Thang đo của biến số phụ thuộc
Hai nhóm điều trị gồm các cá nhân khác nhau
Ba (hay nhiêù) nhóm điều trị gồm các cá nhân khác nhau
Trước và sau một điều trị (hoặc 2 điều trị) ở trên cùng các đối tượng
Nhiều điều trị trên cùng các đối tượng
Liên hệ giữa hai biến số
Ðịnh lượng (mẫu rút từ một dân số có phân phối bình thường và phương sai hai nhóm đồng nhất
t-test không bắt cặp
Phân tích phương sai
t-test bắt cặp
Phân tích phương sai đo lường lập lại
Hồi quy tuyến tính và tương quan pearson
Ðịnh tính - Danh định
c2 bảng 2 x n
c2 bảng 3 x n
test McNemar
Cochrance Q
Hệ số của bảng n x m
(phi, OR, RR)
Ðịnh tính -Thứ tự
(hay biến định lượng không bình thường)
Kiểm định tổng sắp hạng  Mann-Whitney
Kruskal-Wallis
Kiểm định sắp hạng có dấu Wilcoxon
Friedman
hệ số tương quan Spearman

Bảng 11. Chọn lựa kiểm định phù hợp để tìm sự liên hệ giữa biến độc lập và biến phụ thuộc
Biến phụ thuộc
Biến độc lập
Nhị giá
Danh định (hoặc thứ tự)
Định lượng, đa biến (hoặc thứ tự)
Định lượng phân phối bình thường
T-test
ANOVA
Hồi quy tuyến tính
Biến định lượng phân phối không bình thường – Biến thứ tự
Mann-Whitney
Kruskal-Wallis
TQ Spearman
Nhị giá
Chi bình phương
Chi bình phương
Hồi quy logistic
Sống còn
Wilcoxon tổng quát
Logrank
Wilcoxon tổng quát
Logrank
Hồi quy Cox

Phép kiểm t bắt cặp

Tiên lượng của bệnh nhân suy hô hấp mãn tính tăng carbonic thường kém (tỉ lệ tử vong trong 3 năm thay đổi từ 30% đến 100%) và hiện tại chưa có phương pháp điều trị hữu hiệu. Tilapur và Mir (Am J  Med 1984; 77:987) cho rằng chế độ ăn giảm carbonhydrate có thể cải thiện tình trạng hô hấp. Các nhà nghiên cứu này tiến hành thực nghiệm trên 8 người suy hô hấp mãn tính (có dấu hiệu của tim lớn, gan lớn, phù và tăng áp phổi) với chế độ điều trị bằng chế độ ăn 600 Kcal và ghi nhận PaO2 (phân áp oxy động mạch) và PaCO2 (phân áp carbon dioxide động mạch) trước và sau điều trị. Kết quả nghiên cứu được trình bày trong Bảng 1. Hãy so sánh trung bình của phân áp oxy động mạch trước và sau khi điều trị.

Bảng 1. Phân áp Oxy động mạch và phân áp CO2 động mạch trên 8 đối tượng  trước và sau chế độ điều trị với chế độ ăn giảm carbonhydrate

Đối tượng
Pa02 trước
Pa02 sau
Hiệu số
PaC02 trước
PaC02 sau
Hiệu số
1
70
82
12
49
45
-4
2
59
66
7
68
54
-14
3
53
65
12
65
60
-5
4
54
62
8
57
60
3
5
44
74
30
76
59
-17
6
58
77
19
62
54
-8
7
64
68
4
49
47
-2
8
43
59
16
53
50
-3

Thực hành:
Bước 1: Xây dựng giả thuyết Ho:
Ho: Phân áp oxy động mạch trước và sau điều trị không thay đổi

Bước 2: Chọn kiểm định phù hợp
Kiểm định phù hơp là kiểm định t bắt cặp với 7 độ tự do

Bước 3: Tính thống kê t
Tính trung bình và độ lệch chuẩn của biến số d (hiệu số của phân áp oxy động mạch trước và sau điều trị) để tính thống kê t

Bước 4: tính xác suất của giá trị thống kê t
Để tính xác suất của giá trị thống kê t ta sử dụng hàm tdist(giá trị t, độ tự do, 2). Cụ thể để tính p tương ứng với giá trị t = 4.63 ở 7 độ tự do chúng ta đánh công thức "=tdist(4.63, 7, 2) vào một ô. Kết quả ta được giá trị p= 0.002397687.

Bước 5: Kết luận
Vì giá trị p= 0.002397687 nhỏ hơn 0.05 nên chúng ta bác bỏ giả thuyết Ho nghĩa là phân áp oxy động mạch có cải thiện sau khi điều trị.

Phép kiểm t (không bắt cặp)

Nhằm tìm hiểu vai trò của catecholamine trong tăng huyết áp vô căn, de Champlain (Circ Res 1976; 38:109) nghiên cứu 22 bênh nhân tăng huyết áp vô căn (gồm 13 người có nồng độ catecholamine cao và 9 bình thường), ghi nhận nhịp tim, huyết áp tâm thu, huyết áp tâm trương. Kết quả của nghiên cứu được trình bày trong bảng 2. Hãy so sánh nhịp tim ở hai nhóm, nhóm có tăng catecholamine và nhóm không tăng catecholamine.

Bảng 1. Trung bình và độ lệch chuẩn của Luợng catecholamine huyết thanh, nhịp tim, huyết áp tâm thu và huyết áp tâm trung ở 13 bệnh nhân tăng huyết áp tăng catecholamine và 9 bệnh nhân tăng huyết áp không tăng catecholamine


Tăng catecholamine
Không tăng
Số bệnh nhân
13
9
catecholamine huyết thanh (ug/mL)
`x=0.484 s=0.133
`x=0.206 s=0.060
Nhịp tim
`x=90.7 s=11.5
`x=77.8 s=13.2
Huyết áp tâm thu
`x=171.3 s=13.7
`x=147.4 s=9.9
Huyết áp tâm trương
`x=103.0 s=8.3
`x=95.6 s=12.9

Thực hành:
Bước 1: Xây dựng giả thuyết Ho:
Ho: Trung bình nhịp tim ở nhóm bệnh nhân có tăng catecholamine = nhịp tim trung bình ở nhóm bệnh nhân không tăng catecholamine

Bước 2: Chọn kiểm định phù hợp
Kiểm định phù hơp là kiểm định t với (n1+n2-2) = 20  độ tự do

Bước 3: Tính thống kê t
Trước tiên chúng ta phải tính độ lệch chuẩn gộp

(Để dễ nhớ công thức tính độ lệch chuẩn gộp chúng ta cần lưu ý phương sai gộp là trung bình của phương sai của mỗi nhóm với trọng số là độ tự do của phương sai đó)
Sau đó chúng ta tính thống kê t

Bước 4: tính xác suất của giá trị thống kê t
Sử dụng máy vi tính chúng ta tính được giá trị p= 0,024123071 (nếu sử dụng bảng số thống kê chúng ta sẽ tìm được p <0,05)

Bước 5: Kết luận
Vì giá trị p= 0,024123071 nhỏ hơn 0,05 nên chúng ta bác bỏ giả thuyết Ho nghĩa là giữa hai nhóm bệnh nhân có sự khá biệt về nhịp tim trung bình.

Phân tích phương sai

Anionwo et al. (1981, BMJ; 282:283) muốn tìm hiểu xem mức hemoglobin trong 3 nhóm bệnh hồng càu liềm có khác nhau hay không bằng cách ghi nhận mức hemoglobin ở 3 nhóm bệnh nhân.

Bảng 7. Phân tích phương sai một chiều: sự khác biệt trong nồng độ hemoglobin giữa các bệnh nhân bị các loại bệnh hồng cầu liềm khác nhau. Số liệu từ Anionwo et al. (1981) British Medical Journal, 282, 283-6
(a) Số liệu
Loại bệnh hồng cầu liềm
Số bệnh nhân
(ni)
Trung bình

(`xi)
 s.d.

(si)
Giá trị của các cá thể
hemoglobin g%
(x)
Hb SS
 16
 8,712
0,844
7,2; 7,7; 8,0; 8,1; 8,3; 8,4; 8,4; 8,5; 8,6; 8,7; 9,1; 9,1; 9,1; 9,8; 10,1; 10,3
Hb S/b-thalassaemia
 10
10,630
1,284
8,1; 9,2; 10,0; 10,4; 10,6; 10,9; 11,1; 11,9; 12,0; 12,1
Hb SC
15
13,300
0,942
10,7; 11,3; 11,5; 11,6; 11,7; 11,8; 12,0; 12,1; 12,3; 12,6; 12,6; 13,3; 13,8; 13,8; 13,9

Hãy sử dụng kiểm định thống kê phù hợp để so sánh nồng độ Hemoglobin trung bình ở 3 nhóm bệnh nhân bị hồng cầu liềm.

Thực hành:
Bước 1: Xây dựng giả thuyết Ho:
Ho: Trung bình Nồng độ hemoglobin ở 3 nhóm bệnh HC liềm bằng nhau

Bước 2: Chọn kiểm định phù hợp
Kiểm định phù hợp là phương pháp phân tích phương sai (ANOVA) với thống kê F với (số nhóm, số quan sát - số nhóm) =  (2,38) độ tự do ; F tới hạn= 3,32

Bước 3: Lập bảng ANOVA và Tính thống kê F
Chúng ta lập thành bảng phân tích phương sai như sau:
Nguồn biến thiên
SS
d.f.
MS=SS/d.f.
            MS giữa các nhóm
     F= ----------------------------
            MS bên trong nhóm
Giữa các nhóm
99,92
2
49,96
50.03 , P<0,001
Trong các nhóm
37,95
38
1,00

Tổng cộng
137,85
40




Các giá trị ở trên có thể tính theo công thức sau:

Giữa các nhóm
SSb= S ni´(xi-`x)2= S nixi2-(Sx)2/N
                         = 16 ´ 8,71252+10 ´ 10,63002+15 ´ 12,3002 - 430,22/41=99,92
            dfb = k-1 = 2
            MSb = SS/d.f.
Trong các nhóm
            SSw = S (ni -1)si2 =15 x 0,84452 + 9 x 1,28412 + 14 x 0,9419 = 37,96
dfw= N - k = 41-3 = 38
            MSw = SS/d.f.
Và giá trị thống kê F
            F = MSb/MSw

Bước 4: tính xác suất của giá trị thống kê F
Dựa vào máy tính chúng ta tính được giá trị p= 2.26 x 10-11. Chúng ta cũng có thể dựa vào bảng thống kê F để tìm được p <0,001

Bước 5: Kết luận
Vì giá trị rất nhỏ nên chúng ta bác bỏ giả thuyết Ho nghĩa là ba nhóm bệnh nhân bệnh hồng cầu liềm có giá trị hemoglobin trung bình khác nhau có ý nghĩa thống kê.

Phép kiểm chi bình phương

Có 240 người được tiêm vaccine phòng bệnh cúm và  220 người được tiêm placebo. Trong nhóm tiêm vaccine có 20 người bị cúm và trong nhóm tiêm placebo có 80 người bị cúm. Hãy so sánh tỉ lệ mắc cúm giữa 2 nhóm: nhóm tiêm vaccine và nhóm tiêm placebo? Hãy cho biết mức độ liên hệ giữa vaccine cúm và bệnh cúm?

Thực hành
Bước 1: Xây dựng giả thuyết Ho:
Ho: Tỉ lệ mắc cúm ở nhóm tiêm vaccine = tỉ lệ mắc cúm ở nhóm không tiêm vaccine

Bước 2: Chọn kiểm định phù hợp
Kiểm định phù hợp là kiểm định chi bình phương với 1 độ tự do

Bước 3: Lập bảng 2 x 2 và Tính thống kê chi bình phương
Lập bảng  2 x 2 như sau
Kết quả
Mắc bệnh cúm
Không mắc
Tổng
Tiêm chủng
20        a
(8,3%)
220      b

240      a+b

Placebo
80        c
(36,4%)
140      d
220      c+d
Tổng
100      a+c
360      b+d
460      N

Để tính thống kê chi bình phương có hai cách:
Phương pháp chính thức:
            - Tính các giá trị kì vọng (E) ở các ô, giá trị kì vọng của một ô bằng tích các ô biên chia cho tổng số chung (thí dụ giá trị kì vọng của ô a Ea = (a+b) ´ (a+c) /N,  giá trị kì vọng của ô c Ec = (a+b) ´ (c+d) /N)
            - Tính giá trị chi bình phương theo công thức

Trong thí dụ này

Công thức tính tắt cho bảng 2 ´ 2

Bước 4: tính xác suất của giá trị thống kê c2
Sử dụng máy vi tính chúng ta được giá trị p= 3,31 x 10-13 nghĩa là giá trị của p rất nhỏ. Sử dụng bảng số chúng ta biết được p < 0,001.

Bước 5: Kết luận
Vì giá trị rất nhỏ nên chúng ta bác bỏ giả thuyết Ho. Chúng ta có thể kết luận tỉ lệ mắc cúm ở nhóm tiêm vaccine thấp hơn có ý nghĩa thống kê so với nhóm tiêm placebo.

Sự tương quan của hai biến số định tính

Mức độ liên hệ giữa tiêm chủng vaccine và mắc bệnh cúm
Mức độ liên hệ giữa hai biến số định tính được ước lượng bằng cách sử dụng RR (hoặc OR nếu trong nghiên cứu bệnh chứng). Giả sử số liệu của bảng 2 x2 nằm ở vùng C2:D3 chúng ta có thể tính RR bằng cách nhập công thức "=MHRR(C2:D3)" ta được RR=0,23 với khoảng tin cậy 95% của RR từ 0,15 đến 0,36

So sánh tỉ lệ của biến số nhị giá : Kiểm định chi-bình phương

Khi hai biến số là biến số nhị giá người ta sử dụng giá trị RR hay OR để đo lường mức độ liên hệ (xem lại phần các số đo dịch tễ).
Kết quả
Mắc bệnh
Không mắc bệnh
Tổng
Biến số phơi nhiễm
Phơi nhiễm
a1
b1
N1
Không phơi nhiễm
ao
b0
N0
Tổng
a1+a0
b1+b0
N=N1+N0

Tỉ số nguy cơ (RR) là tỉ số của nguy cơ của nhóm phơi nhiễm trên nguy cơ của nhóm không phơi nhiễm:
RR = (a1/N1)/(a0/N0)
Khoảng tin cậy 95% của tỉ số nguy cơ:
hay(test-based  CI)

Tỉ số số chênh (OR) là tỉ số của số chênh mắc bệnh của nhóm phơi nhiễm trên số chênh mắc bệnh ở nhóm không phơi nhiễm. Trong trường hợp nghiên cứu bệnh chứng tỉ số số chênh là tỉ số của số chênh phơi nhiễm của nhóm bệnh trên số chênh phơi nhiễm ở nhóm không chứng.
RR = (a1/b1)/(a0/b0)
Khoảng tin cậy 95% của tỉ số số chênh:

Bài tập
Một nghiên cứu bệnh chứng nhằm tìm mối liên hệ giữa sự ăn thịt và viêm ruột hoại tử đã tìm được 61 trường hợp viêm ruột hoại tử và 57 trường hợp chứng. Trong nhóm bị viêm ruột hoại tử có 50 trường hợp có tiền căn ăn  thịt (gần đây) và trong nhóm chứng có 16 trường hợp có tiền căn ăn thịt. Hãy tìm ước lượng số đo liên hệ giữa ăn thịt và viêm ruột hoại tử.
Table 5. Sự liên hệ giữa ăn thịt trong thời gian gần đầu và viêm ruột hoại tử ở Papua New Guinea (OR=11,6)

Ăn thịt trong thời gian gần đây
Không ăn thịt trong thời gian gần đây
Tổng số
Nhóm bệnh
50                    a1
11                    b1
61
Nhóm chứng
16                    a0
41                    b0
57
Tổng số
66
52
118

Nếu tỉ lệ ăn thịt ở nhóm bệnh (50/61) cao hơn tỉ lệ ăn thịt trong nhóm chứng (16/57) có ý nghĩa thống kê thì chúng ta có thể kết luận rằng có sự liên quan giữa ăn thịt và viêm ruột hoại tử. Đây là bài toán so sánh tỉ lệ của một biến số định tính ở hai nhóm và được giải quyết bằng kiểm định chi bình phương.

Tuy nhiên bằng việc kiểm định giả thuyết chúng ta chỉ xác định có mối liên hệ mà không biết độ lớn của sự liên hệ. Bởi vì đây là nghiên cứu bệnh chứng chúng ta không tính được RR mà phải sử dụng OR để đo lường sức mạnh liên hệ. Sử dụng công thức tính OR và khoảng tin cậy của OR ta được:

OR = (a1/b1)/(a0/b0) = (a1 ´ b0)/(a0 ´ b1) = 11.65 và
khoảng tin cậy 95% của OR = 4.87 đến 27.85

Bài tập
Có 240 người được tiêm vaccine phòng bệnh cúm và  220 người được tiêm placebo. Trong nhóm tiêm vaccine có 20 người bị cúm và trong nhóm tiêm placebo có 80 người bị cúm. Hãy so sánh tỉ lệ mắc cúm giữa 2 nhóm: nhóm tiêm vaccine và nhóm tiêm placebo? Hãy cho biết mức độ liên hệ giữa vaccine cúm và bệnh cúm?
Kết quả
Mắc bệnh cúm
Không mắc
Tổng
Tiêm chủng
20        a1
(8,3%)
220      b1

240      N1

Placebo
80        a0
(36,4%)
140      d
220      N0
Tổng
100     
360     
460      N
Ta tính được RR = (a1/N1)/(a0/N0) = (20/240)/(80/220) = 0.23
Khoảng tin cậy 95% của tỉ số nguy cơ:
 =  0.15 đến 0.36

Quan hệ giữa hai biến số định lượng

Tương quan

Tương quan là số đo mức độ hai biến số định lượng cùng thay đổi với nhau. Có nhiều loại hệ số tương quan, nhưng chúng đều có giá trị từ -1 đến 1. Nếu chúng có giá trị bằng zero có nghĩa là hai biến số độc lập và không quan hệ gì với nhau. Nếu chúng có giá trị dương có nghĩa là hai biến số đồng biến với nhau, nếu chúng có giá trị âm nghĩa là hai biến số nghịch biến. Giá trị tuyệt đối của hệ số tương quan càng gần một nghĩa là hai biến số có liên hệ chặt với nhau và vai trò của sai số ngẫu nhiên sẽ ít hơn. Khi trị tuyệt đối của hệ số tương quan bằng một có nghĩa là hoàn toàn không có sai số ngẫu nhiên.
Loại hệ số tương quan được sử dụng phổ biến nhất là hệ số tương quan Pearson r:
           
Lí giải ý nghĩa của hệ số tương quan Pearson
- Hệ số tương quan luôn luôn nằm trong đoạn [-1,1]

- Hệ số tương quan r dương chứng tỏ hai biến số là đồng biến; hệ số tương quan r âm chứng tỏ hai biến số là nghịch biến.

- Trị số tuyệt đối của hệ số tương quan r nói lên mức độ liên quan giữa hai biến số. Nếu trị tuyệt đối của r bằng 1 (r=1 hay r=-1), quan hệ hoàn toàn tuyến tính nghĩa là tất cả các điểm nằm trên đường hồi quy (Hình 9.2 d và 9.2f). Nếu trị tuyệt đối của r nhỏ hơn 1 sẽ có các điểm số liệu phân tán chung quanh đường hồi quy (hình 9.2 c và 9.2e).

- Bình phương của hệ số tương quan (r2) thể hiện tỉ lệ biến thiên của biến số phụ thuộc được giải thích bằng sự biến thiên của biến số độc lập (nếu mối liên hệ này là nhân quả)

- Nếu r=0, không có mối liên hệ tuyến tính giữa hai biến số. Ðiều này có nghĩa là (1) không có mối liên hệ gì giữa hai biến số hoặc (hình 9.2a) (2) mối liên hệ giữa hai biến số không phải là tuyến tính (hình 9.2b)

- Theo quy ước, quan hệ với  r từ 0,1 đến 0,3 là quan hệ yếu, từ 0,3 đến 0,5 quan hệ trung bình và trên 0,5 là quan hệ mạnh.

Hồi quy

Hồi quy là một mô hình toán học mô tả sự biến đổi của một biến số này theo những biến số khác.

Một phương trình hồi quy có thể có dạng như sau:
            cân nặng (kg) = 6,85 + 0,18 ´ tháng tuổi
(phương trình hồi quy tính cân nặng của trẻ từ 9 đến 40 tháng tuổi theo tháng tuổi)
theo phương trình này người ta gọi:
cân nặng: biến số phụ thuộc
tháng tuổi: biến số độc lập
6,85: hệ số của hằng số, hay còn gọi là điểm chặn (intercept)
0,18: hệ số của biến số tháng tuổi.

Một cách tổng quát phương trình hồi quy sẽ có dạng:
            Y = b0 + b1  x1 + b2 x2 + b3 x3
Với      y là biến số phụ thuộc
            x1, x2, x3 là các biến số độc lập
            b0: điểm chặn của phương trình
            b1, b2, b3 : hệ số của các biến số độc lập

Hệ số của biến số độc lập nói lên nếu biến số độc lập tăng một đơn vị thì biến số phụ thuộc y sẽ thay đổi bao nhiêu. Cụ thể hơn nếu biến số x2 thay đổi một đơn vị thì biến số y sẽ tăng giá trị là b2 (biến số y sẽ giảm nếu giá trị b2 âm).

Bài tập
1. Một nhà nghiên cứu ghi nhận lượng muối ăn và huyết áp tâm thu của 5 đối tượng trong bảng 4.
Đối tượng
Lượng muối
Huyết áp
1
5
110
2
10
120
3
12
110
4
18
120
5
20
140
 Hãy tìm mối liên hệ giữa huyết áp tâm thu và lượng muối sử dụng.

Thực hành
Để tìm sự liên hệ giữa hai biến số định lượng chúng ta sử dụng hệ số tương quan. Dựa vào công thức ta tính được r = 0,771829.

Như vậy có mối liên quan thuận giữa lượng muối ăn và huyết áp tâm thu. Mối liên quan này là mạnh và lượng muối ăn giải thích cho đến 60% (0.77 ´ 0.77) sự thay đổi của huyết áp tâm thu.

Chúng ta cũng tìm được phương trình của huyết áp theo lượng muối tiêu thụ sẽ là:
Huyết áp tâm thu = 99,8 mmHg + 1,55 x Lượng muối.

Giá trị 99,8 được gọi là điểm chặn của phương trình hồi quy và 1,55 là hệ số góc của biến số lượng muối tiêu thụ. Điều này có nghĩa là nếu lượng muối ăn tăng thêm 1 gram/ngày thì huyết áp tâm thu sẽ tăng trung bình 1,55 mmHg.

2. Lý giải ý nghĩa của phân tán đồ sau

Figure 8.  Trọng lượng sơ sinh theo tuổi thai (tuần) của 641 trẻ sinh do thụ thai trong ống nghiệm ở Anh quốc

Đăng nhận xét

Tin liên quan

    -->