you're reading...
Thống kê ứng dụng, Xác suất thống kê

Khái niệm khoảng cách trong thống kê

Các bài liên quan:

Một chút về xác suất và thống kê
Định thức, trị riêng và vector riêng trong thống kê ứng dụng
Độ biến thiên của chất lượng

Nếu không có cái ngẫu nhiên đi cùng với cái tất nhiên, khoa học thống kê sẽ không ra đời. Một trong những nhiệm vụ của cơ bản thống kê là đi ước lượng cái chắc chắn tương đối trong cái không chắc chắn (bất định). Để làm việc với cái không chắc chắn này, thống kê dựa vào chủ yếu khái niệm về khoảng cách. Từ việc tính toán khoảng cách các điểm, tính độ lệch chuẩn, phương sai của biến ngẫu nhiên cho đến các công cụ xa hơn là các công cụ phân tích tương quan, phương sai, phân tích các yếu tố (tạm dịch từ factor analysis), phân tích các thành phần trọng yếu (tạm dịch từ principal component analysis), phân tích cụm (tạm dịch từ cluster analysis)… đều dựa trên khái niệm khoảng cách.

Như ta đã biết, dữ liệu thống kê thường được tổ chức ở dạng ma trận trong đó các cột đại diện cho các biến ngẫu nhiên (giả sử là n) còn các hàng là các mẫu quan sát (giả sử là m). Mỗi mẫu quan sát này được xem là một điểm trong không gian có số chiều bằng số biến ngẫu nhiên. Tập hợp các mẫu quan sát sẽ tạo thành một “đám mây” của các điểm đó phân bố trong không gian n chiều. Rất nhiều các công cụ thống kê dựa trên việc tính toán khoảng cách của các điểm trong các “đám mây” như vậy.

Nói đến tính khoảng cách, ta nghĩ ngay đến cách tính khoảng cách Euclidean. Khoảng cách Euclidean của một điểm P trong không gian n chiều đến gốc tọa độ được tính bằng căn bậc hai của tổng bình phương các tọa độ thành phần: d\left( {O,P} \right) = \sqrt {x_1^2 + x_2^2 + ... + x_n^2 } . Đây cũng chính là độ dài của vector nối từ gốc tọa độ đến điểm P. Với hai điểm PQ, ta có khoảng cách Euclidean giữa chúng như sau: d\left( {P,Q} \right) = \sqrt {\left( {x_1 - y_1 } \right)^2 + \left( {x_2 - y_2 } \right)^2 + ... + \left( {x_n - y_n } \right)^2 } .

Khoảng cách Euclidean đơn giản chỉ tính độ dài hình học giữa các điểm khác nhau trong không gian, coi mọi khoảng cách của các điểm có vai trò như nhau. Điều này phù hợp với cách tiếp cận “chắc chắn” chứ không phù hợp với các mục đích thống kê, là công cụ dùng để tiếp cận với tính ngẫu nhiên (bất định hay không chắc chắn) của vấn đề. Khi tiếp cận vấn đề theo hướng thống kê, số liệu đều được xem như lấy từ các quá trình ngẫu nhiên nên luôn bao hàm các yếu tố biến động với những biên độ khác nhau. Do đó, trong một không gian của n chiều của n biến ngẫu nhiên, sự biến động theo chiều của biến này có thể khác biến kia rất nhiều, dẫn đến việc tính khoảng cách các điểm trong không gian đó theo Euclidean là không ổn, mà phải tính đến sự khác nhau về biến thiên đó. Hay nói cách khác cần có trọng số cho các chiều khác nhau ứng với phương sai theo các chiều khác nhau, một cách tiếp cận để tính khoảng cách khác. Tạm đặt tên cho nó là khoảng cách thống kê.

Đám mây của hai biến ngẫu nhiên x1 và x2 trong đó phân tán theo hướng x1 lớn hơn x2

Hình vẽ trên minh họa một đám mây của các điểm ngẫu nhiên trong không gian hai chiều trong đó ta thấy dữ liệu phân tán theo chiều của x_1 nhỏ hơn chiều của x_2. Nếu ta xét hai điểm có cùng khoảng cách Euclidean nằm dọc theo chiều của trục x_1x_2 thì hai điểm đó không có cùng khả năng xuất hiện như nhau. Do đó, khi làm việc với các đám mây dữ liệu, người ta thường tính khoảng cách có tính đến khả năng xuất hiện của chúng bằng cách lấy phương sai làm trọng số. Về mặt toán học, khoảng cách giữa hai điểm PQ được tính như sau:
d\left( {P,Q} \right) = \sqrt {\frac{{\left( {x_1  - y_1 } \right)^2 }}{{s_{11} }} + \frac{{\left( {x_2  - y_2 } \right)^2 }}{{s_{22} }} + ...\frac{{\left( {x_n  - y_n } \right)^2 }}{{s_{nn} }}}
trong đó s_{11}, s_{22}…là các phương sai theo phương thứ nhất, thứ hai…tương ứng.

Giả sử không gian hai chiều, ta có thể hình dung rằng tất cả các điểm có cùng khoảng cách thống kê với nhau sẽ nằm trên một đường elip có phương trình như sau:
\frac{{x_1^2 }}{{s_{11} }} + \frac{{x_2^2 }}{{s_{22} }} = c^2

Đây là cơ sở tính toán cho rất nhiều các công cụ thống kê sau này.

Discussion

One thought on “Khái niệm khoảng cách trong thống kê

  1. Thầy/anh có thể viết tiếp các distance, sâu hơn và kỹ hơn nữa không? Đang đọc hay thì bị đứt dây đàn!
    Em cám ơn!

    Posted by VietSMT | January 12, 2013, 3:21 am

Leave a comment