you're reading...
Xác suất thống kê

Vấn đề “Tương quan”

Bài này phân tích một chút ý nghĩa của Covarian và mối liên hệ của nó với hệ số tương quan. Một trong những sai lầm thường gặp khi suy diễn kết quả là sau khi tính hệ số tương quan thấy độ lớn của nó gần bằng một thì kết luận rằng biến này là nguyên nhân của biến kia, hay khi giá trị của hệ số tương quan có độ lớn gần bằng không thì kết luận là chúng không có tương quan.

Sau khi thu thập dữ liệu từ hai biến nào đó, một trong những việc phải làm đầu tiên khi phân tích dữ liệu là người ta thường vẽ chúng lên đồ thị và xem chúng có thể có mối quan hệ gì với nhau. Trong một số trường hợp, đồ thị thể hiện mối liên hệ tuyến tính giữa hai biến này. Đại lượng thống kê mô tả mức độ liên hệ tuyến tính giữa hai biến là hệ số tương quan.

Cần lưu ý rằng tương quan khác với mối quan hệ nhân quả. Tương quan có thể nhưng không nhất thiết cho việc chỉ ra mối quan hệ nhân quả. Các quan sát cho thấy khi tăng biến x, biến y tăng nhưng điều đó chưa có nghĩa là biến x tăng sẽ làm tăng biến y. Cả hai biến x và y thay đổi có thể là do một biến thứ ba nào đó thay đổi. Do đó, khảo sát tương quan đơn giản là xem sự biến thiên của chúng có mối quan hệ với nhau hay không, chứ không phải là xem biến này có phải là nguyên nhân để biến kia thay đổi hay không. Việc nhận định mối liên hệ nhân quả thường dựa vào bản chất vấn đề và nhận thức của con người vào vấn đề đó.

Covarian và tương quan

Đại lượng đo lường mức độ phụ thuộc tuyến tính giữa hai biến cov(x,y) và y gọi là Covarian giữa x và y, được tính như sau:
Cov\left( {x,y} \right) = \frac{{\sum {(x_i - \eta _x )(y_i - \eta _y )} }}{N}

Trong đó, \eta _x, \eta _y là hai trung bình của hai quần thể ứng với hai biến x và y, N là độ lớn của quần thể quan sát. Nếu x và y độc lập với nhau, cov(x,y) sẽ bằng 0. Chú ý rằng điều ngược lại không đúng. Khi tính ra cov(x,y) = 0 không có nghĩa là chúng độc lập. (Vì chúng có thể phụ thuộc nhau theo bậc hai hoặc theo một quy luật nào đó.)

Giá trị của Covarian phụ thuộc vào thang đo (đơn vị) của đại lượng cần tính. Giả sử x và y là khoảng cách được đo theo đơn vị là mét, nếu x đổi sang đơn vị là cm giá trị Covarian phải chia cho 100. Nếu cả hai giá trị x và y đều đổi sang cm, giá trị của Covarian phải được chia cho 104. Điều này có nghĩa là trong thực tế ta sẽ không biết giá trị của Covarian lớn thế nào, nên ta cũng không thể xác định được hai biến có quan hệ tuyến tính ở mức độ nào. Do đó, độ lớn của giá trị Covarian không đo được mức độ quan hệ tuyến tính của hai biến khảo sát.

Để giải quyết vấn đề này, người ta tiến hành chuẩn hóa đại lượng Covarian. Nếu ta chia Covarian cho hai độ lệch chuẩn \sigma _x\sigma _y ứng với hai biến x và y, ta được một đại lượng Covarian không thứ nguyên, gọi là hệ số tương quan \rho \left( {x,y} \right), hay đơn giản là \rho.

\rho \left( {x,y} \right) = \frac{{\sum {(x_i - \eta _x )(y_i - \eta _y )} }}{{\sqrt {\sum {(x_i - \eta _x )^2 \sum {(y_i - \eta _y )^2 } } } }}

Giá trị của \rho \left( {x,y} \right) luôn nằm trong khoảng [-1;+1]. Nếu x và y độc lập với nhau, \rho \left( {x,y} \right) sẽ có giá trị là zero. Nếu \rho \left( {x,y} \right) gần giá trị +1 và –1 ta xem x và y có mối tương quan tuyến tính mạnh với nhau. Mối tương quan dương hay tương quan thuận (giá trị 0 < \rho < 1) có nghĩa rằng các giá trị x lớn sẽ tương quan với các giá trị y lớn. Ngược lại, tương quan âm hay tương quan nghịch (-1 < \rho < 0) nói lên rằng giá trị x lớn sẽ tương quan với các giá trị y nhỏ.

Trong thực tế, ta không biết được các giá trị trung bình của các quần thể \eta _x\eta _y, thay vào đó người ta ước lượng chúng từ \bar x\bar y. Hệ số tương quan từ mẫu x và y là:
r = \frac{{\sum {(x_i - \overline x )(y_i - \overline y )} }}{{\sqrt {\sum {(x_i - \overline x )^2 \sum {(y_i - \overline y )^2 } } } }}

Giá trị của r dao động trong khoảng [-1;1]. r được xem là ước lượng của hệ số tương quan \rho \left( {x,y} \right) được định nghĩa ở trên.

Discussion

3 thoughts on “Vấn đề “Tương quan”

  1. 1 blog hay với nhiều bài viết giá trị.
    Cách tiếp cận vấn đề dễ hiểu khác xa với các sách em đã học khi còn học ĐH.
    Mong thầy tiếp tục có nhiều bài nữa

    Posted by ThanhTu | October 23, 2012, 7:13 pm

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: