Bài 17 TƯƠNG QUAN VÀ HỒI QUY TUYẾN TÍNH

Mục tiêu:
Sau khi nghiên cứu chủ đề học viên có khả năng:
- Vẽ phân tán đồ và sử dụng phân tán đồ để lí giải sự tương quan giữa hai biến số
- Trình bày được công thức và tính được hệ số tương quan của hai biến số định lượng
- Xây dựng được phương trình hồi quy tuyến tính của biến số phụ thuộc theo một biến số độc lập.
- Trình bày công thức và lí giải ý nghĩa của sai số chuẩn hồi quy.
- Trình bày công thức của sai số chuẩn của hệ số tương quan, hệ số góc, điểm chặn và giá trị tiên đóan thể và áp dụng trong kiểm định và ước lượng các số thống kê trên.

1. Giới thiệu

Trong bài này chúng ta quan tâm đến liên hệ giữa hai biến số định lượng và tập trung chủ yếu đến phương pháp tương quan và hồi quy tuyến tính để xác định mối liên hệ tuyến tính (linear) giữa hai biến liên tục. Tương quan (correlation) đo lường sự chặt chẽ của mối liên hệ trong khi hồi quy tuyến tính (linear regression) cho biết phương trình đường thẳng mô tả sự liên hệ tốt nhất và cho phép tiên đoán biến số này từ biến số khác.
Bảng 9.1 Thể tích huyết tương và trọng lượng cơ thể của 8 người đàn ông khỏe mạnh


Hình 9.1 Phân tán đồ của thể tích huyết tương và trọng lượng cơ thể cùng với đường hồi quy tuyến tính


Hình 9.2 phân tán đồ minh họa các giá trị khác nhau của hê số tương quan. Trong đây cũng có các đường hồi quy.

2. Tương quan

Bảng 9.1 trình bày trọng lượng cơ thể và thể tích huyết tương của 8 người đàn ông khỏe mạnh. Để đánh giá sự liên quan giữa hai biến số định lượng trọng lượng cơ thể và thể tích huyết tương chúng ta có thể sử dụng phân tán đồ hay hệ số tương quan r:

Phân tán đồ

Phân tán đồ là đồ thị thể hiện các giá trị của các quan sát bằng kí hiệu trên hệ toạ độ gồm hai trục: trục hoành thể hiện cho biến số độc lập và trục tung thể hiện biến số phụ thuộc. Hình 9.1 trình bày phân tán đồ của thể tích huyết tương lớn có liên quan đến trọng lượng cơ thể cao.

Hình dạng của phân tán đồ thể hiện mối liên hệ giữa hai biến số. Nếu phân tán đồ có dạng một đám mây nằm ngang thì không có sự liên hệ giữa hai biến số (hình 9.2 a). Nếu phân tán đồ có hình dạng ellipse đi từ dưới bên trái lên phía trên bên phải thì hai biến số có liên hệ thuận (hình 9.2 c và d). Nếu phân tán đồ có hình dạng ellipse đi từ phía trên bên trái xuống phía dưới bên phải thì hai biến số có liên hệ nghịch (hình 9.2 e và f). Trục ngắn của ellipse càng ngắn thì mối liên hệ càng mạnh và nếu ellipse bị biến thành một đường thẳng thì mối tương quan được xem như là hoàn toàn (hình 9.2 d và f). Nếu hình dạng của phân tán đồ không phải là dạng ellipse hay đường thẳng thì hai biến số cũng có mối liên hệ nhưng sự tương quan này được gọi là không tuyến tính (hình 9.2 b).

Áp dụng lí luận trên chúng ta có thể xác định giữa thể tích huyết tương và trọng lượng cơ thể có tương quan tuyến tính, thuận và không hoàn toàn.

Hệ số tương quan

Nếu hai biến số định lượng có quan hệ tuyến tính thì chúng ta có thể đo lường mức độ tương quan một cách chính xác hơn bằng cách tính hệ số tương quan (correllation coefficient), r. Công thức tính r thể hiện bản chất của hệ số tương quan như sau:
Để tính hệ số tương quan dễ dàng hơn Chúng ta  có thể sử dụng công thức tính hệ số tương quan như sau:

Trong đó x là biến số độc lập (trọng lượng), y là biến số phụ thuộc (thể tích huyết tương), `x và `y là các số trung bình tương ứng. Phân tán đồ minh họa những hệ số tương quan khác nhau đươc trình bày trong hình 9.2.

Sử dụng công thức này để tính toán r, trước tiên chúng ta hãy tính trung bình và độ lệch chuẩn của biến số x và y:

Lí giải ý nghĩa của hệ số tương quan:

- Hệ số tương quan luôn luôn nằm trong đoạn [-1,1]

- Hệ số tương quan r dương chứng tỏ hai biến số là đồng biến; hệ số tương quan r âm chứng tỏ hai biến số là nghịch biến; hệ số tương quan bằng zero nếu hai biến không liên hệ.

- Trị số tuyệt đối của hệ số tương quan r nói lên mức độ liên quan giữa hai biến số. Nếu trị tuyệt đối của r bằng 1 (r=1 hay r=-1), quan hệ hoàn toàn tuyến tính nghĩa là tất cả các điểm nằm trên đường hồi quy (Hình 9.2 d và 9.2f). Nếu trị tuyệt đối của r nhỏ hơn 1 sẽ có các điểm số liệu phân tán chung quanh đường hồi quy (hình 9.2 c và 9.2e).

- Bình phương của hệ số tương quan (r2) thể hiện tỉ lệ biến thiên của biến số phụ thuộc được giải thích bằng sự biến thiên của biến số độc lập (nếu mối liên hệ này là nhân quả)

- Nếu r=0, không có mối liên hệ tuyến tính giữa hai biến số. Ðiều này có nghĩa là (1) không có mối liên hệ gì giữa hai biến số hoặc (hình 9.2a) (2) mối liên hệ giữa hai biến số không phải là tuyến tính (hình 9.2b)

- Theo quy ước, quan hệ với r từ 0,1 đến 0,3 là quan hệ yếu, từ 0,3 đến 0,5 quan hệ trung bình và trên 0,5 là quan hệ mạnh. Ðiều quan trọng là sự tương quan giữa hai biến số cho thấy sự liên hệ nhưng không nhất thiết có nghĩa là cá quan hệ 'nhân quả'.

3. Hồi quy tuyến tính

Hồi quy tuyến tính cho phương trình đường thẳng mô tả nếu biến x tăng thì biến y tăng như thế nào. Không giống như tương quan, việc lựa chọn biến nào để làm biến y là quan trọng bởi vì hai phương pháp không cùng cho một kết quả, y thường được gọi là biến số phụ thuộc (dependent variable) và x là biến số độc lập hay giải thích (independent or explanatory variable). Trong thí dụ này, rõ ràng chúng ta cần quan tâm sự phụ thuộc thể tích huyết tương và trọng lượng cơ thể.

Phương trình hồi quy là: y = a + bx

a: là điểm chặn (intercept) hay hằng số (constant)

b: là độ dốc (slope) của đường thẳng hay hệ số (coefficient) của phương trình (Hình 9.3).

Giá trị đối với a và b được tính sao cho cực tiểu hóa bình phương khoảng cách theo chiều đứng từ các điểm số liệu tới đường thẳng. Nó được gọi là phù hợp bình phương tối thiểu (least squares fit) (Hình 9.4). Ðộ dốc b đôi khi được gọi là hệ số hồi quy (regression coefficient). Nó có cùng dấu với hệ số tương quan. Khi không có sự tương quan, b bằng zero, tương ứng với một đường thẳng hồi quy nằm ngang đi qua điểm y.

Hình 9.3 Giao điểm và độ dốc của phương trình hồi quy y = a + bx. Giao điểm a là điểm mà đường thẳng cắt trục y và cho giá trị y ở x = 0. Ðộ dốc b là mức tăng của y tương ứng với sự gia tăng một đơn vị của x.

Trong thí dụ này
b = 8,96/205,38 = 0,0435
Và: a = 3,0025 - 0,04354 ´ 66,875 = 0,0907

Do đó sự phụ thuộc của thể tích huyết tương vào trọng lượng cơ thể được mô tả bằng:  Thể tích huyết tương = 0,0907 + 0,0435 × trọng lượng

và được vẽ trên Hình 9.1.

Ðường hồi quy được vẽ bằng cách tính tọa độ của hai điểm của đường thẳng. Thí dụ chúng ta có thể tính toạ độ của đường thẳng tại giá trị x = 60 và x = 70

x = 60, y = 0,0907 + 0,0435 ´ 60 = 2,7032  Và

x = 70, y = 0,0907 + 0,0435 ´ 70 = 3,1386

Như vậy đường thẳng hồi quy phải đi qua điểm (60, 2.7) và (70, 3.1). Hiển nhiên đường thẳng phải đi qua điểm (`x,`y) = (66.9 , 3.0)

4. Kiểm định và ước lượng trong tương quan và hồi quy

Khái niệm về phương sai phần dư
Hình 9.4 Ðường thẳng hồi quy tuyến tính, y = a + bx, được làm phù hợp bằng bình phương tối thiểu, a và b được tính để cực tiểu hóa tổng bình phương của các độ lệch thẳng đứng (vẽ bằng các đường thẳng đứng) của các điểm đối với đường thẳng, mỗi độ lệch bằng hiệu số giữa số y quan sát và tiểm tương ứng trên đường thẳng a + bx

Do các giá trị của các quan sát không nằm trên một đường thẳng nên chúng có một khoảng cách áo với phương trình hồi quy. Con số thể hiện mức độ phân tán của số liệu quanh đường thẳng hồi quy được gọi là sai số chuẩn của hồi quy (standard error of regression).

Sai số chuẩn của hồi quy được tính theo công thức sau:

Sai số chuẩn của hồi quy còn được triển khai thêm như sau


s là độ lệch chuẩn của các điểm số liệu so với đường thẳng, có (n-2) độ tự do.

Điều này có nghĩa là nếu ta áp dụng phương trình hồi quy để tiên đoán thể tích huyết tương thì chúng ta không thể tiên đoán một cách chính xác: chúng ta sẽ mắc một sai số trung bình là 0.218.

Bình phương của sai số hồi quy được gọi là phương sai phần dư:

Kiểm định ý nghĩa hệ số tương quan

Khi chúng ta đã có hệ số tương quan, có hai phương pháp kiểm định hệ số tương quan này. Một phương pháp để kiểm định giả thuyết Ho: hệ số tương quan r = 0 và một phương pháp kiểm định giả thuyết Ho: hệ số tương quan r = p (với p khác 0)

- Kiểm định t được dùng để xem r có khác zero một cách có ý nghĩa hay không. Nói cách khác đi, kiểm định này để xem sự tương quan quan sát được có phải là thực sự này chỉ do tình cờ. Việc kiểm định này dựa trên cơ sở của công thức ước lượng sai số chuẩn của r: s.e.(r) = (1-r2)/(n-2)

Thí dụ để kiểm định giả thuyết hệ số tương quan giữa thể tích huyết tương và trọng lượng cơ thể bằng không, chúng ta tiến hành các tính toán sau:

Ðiều này có ý nghĩa ở mức 5% xác nhận ý nghĩa của sự liên hệ giữa thể tích huyết tương và trọng lượng cơ thể.

Mức ý nghĩa phụ thuộc của cả vào độ lớn của mối tương quan và số các quan sát. Lưu ý rằng tương quan yếu có thể có ý nghĩa thống kê nếu nó dựa trên một số lớn quan sát, trong khi sự tương quan mạnh có thể không đạt được mức ý nghĩa nếu chỉ có một ít quan sát.

- Kiểm định z để kiểm định giả thuyết Ho: hệ số tương quan r = p(với p khác 0)

Trước tiên chúng ta tìm hiểu về phép biến đổi z của Fisher. Fisher đã chứng minh z(r) (đọc là hàm số z của hệ số tương quan r):

sẽ có phân phối bình thường với trung bình là z(r) và độ lệch chuẩn là căn 1/(n-3)

Như vậy để kiểm định hệ số tương quan r = p (với p khác  0), chúng ta phải tính:
Thí dụ giả sử tác giả X tìm được hệ số tương quan giữa thể tích huyết tương và trọng lượng cơ thể là 0.4, hãy kiểm định xem hệ số tương quan chúng ta đã tìm ra có thực sự lớn hơn hệ số tương quan được báo cáo do tác giả X hay không:

Chúng ta tính được:

Tra bảng phân phối chuẩn một đuôi chúng ta tính được giá trị p > 0.05 vì vậy chúng ta không có bằng chứng thống kê để cho rằng hệ số tương quan của chúng ta tìm ra thực sự lớn hơn 0.4.

Sai số chuẩn của các ước lượng dùng phương trình hồi quy

Đường thẳng hồi quy cũng tương tự như các giá trị thống kê các đều có khả năng bị sai số và phương trình hồi quy được tính từ một mẫu chỉ là ước lượng cho phương trình hồi quy thực sự của toàn bộ dân số.

Giá trị a và b là các ước lượng mẫu của giá trị giao điểm và độ dốc của đường thẳng hồi quy mô tả mối liên hệ tuyến tính giữa x và y trong toàn bộ dân số. Do đó chúng bị các biến thiên lấy mẫu và độ chính xác của chúng có thể đo lường bằng sai số chuẩn. Từ sai số chuẩn chúng ta có thể dễ dàng tính được khoảng tin cậy của các ước lượng này hay kiểm định chúng có khác với một giá trị cụ thể nào hay không

Sai số chuẩn của a

Sai số chuẩn của a được tính theo công thức sau:
khoảng tin cậy của a :

a ± tc × s.e.(a)

Và để kiểm định a có khác so với a
Áp dụng vào thí dụ ở trên ta có 

Khoảng tin cậy 95% của điểm chặn a bằng:

Khoảng tin cậy 95% :  a ± tc × s.e.(a)  = 0.0857 ± 2.45 × 1.3197 = -3.148 – 3.319

Một nghiên cứu trước đây đã báo cáo phương trình hồi quy của thể tích huyết tương theo cân nặng với giá trị điểm chặn a là 2.1.  Có thể kiểm định giá trị điểm chặn trong nghiên cứu của chúng ta có khác với giá trị 2.1 đã báo cáo hay không bằng phép kiểm t:

tra bảng ta có p >0.05 (p = 0.177) chúng ta không thể bác bỏ giả thuyết Ho và như vậy chúng ta có thể kết luận không có sự khác biệt có ý nghĩa thống kê về giá trị điểm chặn của nghiên cứu của chúng ta và nghiên cứu đã báo cáo.

Sai số chuẩn của b

Sai số chuẩn của b được tính theo công thức sau


Thí dụ:

Áp dụng vào trường hợp phương trình hồi quy của thể tích huyết tương theo cân nặng ta được:


Giả sử chúng ta muốn  kiểm định xem b có khác biệt có ý nghĩa với zero hay không.  Kiểm định này cho kết quả


Lưu ý kết quả này giống như kết quả của kiểm định hệ số tương quan có kác không hay không. Với  giá trị 2,85 chúng ta có thể kết luận thể tích huyết tương tăng có ý nghĩa (P<0,05) đối với trọng lượng cơ thể.

Giả sử có tài liệu cho rằng khi trọng lượng tăng 1 kg thì thể tích huyết tương tăng 0.03 L (nói cách khác phương trình hồi quy của  thể tích huyết tương theo cân nặng là 0.03) và chúng ta muốn kiểm tra hệ số góc trong nghiên cứu của chúng ta có khác tài liệu nêu trên hay không chúng ta cũng có thể sử dụng phép kiểm t:

tra bảng ta có p >0.05 (p = 0.41) chúng ta không thể bác bỏ giả thuyết Ho và như vậy chúng ta có thể kết luận không có sự khác biệt về hệ số góc của phương trình hồi quy của chúng ta với tài liệu nêu trên.

Khoảng tin cậy 95% của hệ số góc b bằng:

Khoảng tin cậy 95% :  b ± tc × s.e.(b) = 0.0436 ± 2.45 × 0.0153 = 0.006 – 0.081

Tiên đoán

Trong một số tình huống, có thể sử dụng phương trình hồi quy để tiên đoán giá trị y cho một giá trị đặc biệt của x được gọi là x'. Giá trị tiên đoán là:

            y' = a + bx'

Và sai số chuẩn của nó là

Sai số chuẩn này tối thiểu khi x' gần với trung bình x. Nói chung phải thận trọng khi sử dụng đường hồi quy để tính các giá trị ngoài phạm vi của x trong số liệu gốc, bởi vì quan hệ tuyến tính không nhất thiết sẽ đúng ở ngoài phạm vi mà nó được làm phù hợp.

Khoảng tin cậy của tiên đoán:

y' ± tc × s.e.(y') với tc tra từ bảng t (student) với n-2 độ tự do

Trong thí dụ này, sự đo lường thể tích huyết tương tốn nhiều thời gian và do đó trong một số trường hợp, có thể tiên đoán từ trọng lượng cơ thể. Thí dụ thể tích plasma huyết tương của một người đàn ông nặng 66 kg là

0,0832 + 0,0436 × 66 = 2,96 lít

Và sai số chuẩn bằng
Khoảng tin cậy 95% của giá trị tiên đoán y' là

y ± tc´s.e.(y')

với tc được tra từ bảng t (hai đuôi) với n-2 độ tự do

Đăng nhận xét

Tin liên quan

    -->