you're reading...
Thống kê ứng dụng, Thiết kế thí nghiệm, Xác suất thống kê

Thiết kế thí nghiệm và hồi quy tuyến tính

Mục tiêu của bài viết này: Phân tích bằng ví dụ một cách dễ hiểu để thấy được vai trò của thiết kế thí nghiệm và hồi quy tuyến tính, cũng như các phân tích phương sai. Qua đó, vai trò của các nguồn biến thiên cùng với ý nghĩa của bậc tự do tương ứng cũng được giải thích.

Ví dụ 1:

Hãy bắt đầu bằng một ví dụ đơn giản nhất có thể: giả sử ta muốn ước lượng một mối quan hệ tuyến tính bậc nhất giữa x (gọi tên là yếu tố A) và y (biến chất lượng cần khảo sát): y= m0 + m1x và ta tiến hành thí nghiệm nhân tố (tạm dịch từ factorial experiment) với 1 yếu tố, 2 mức độ (levels), số lần lặp (replication) r là 1 như sau:

Runs

x

y

1

-1

4

2

+1

8

Với số lần quan sát là n = 2 trong thí nghiệm trên, tác động của x (yếu tố A) lên biến chất lượng đầu ra y được sơ đồ hóa như sau:

"Sơ đồ tác động của yếu tố A, 1 lần lặp ở 2 mức thấp (-) và cao (+)"

Trong sơ đồ trên, ký hiệu (1) đại diện cho tác động yếu tố A ở mức thấp (-), còn a được hiểu là tác động của A ở mức cao (+). Xét về lượng, tác động của A được tính theo công thức:

{\bf{A}} = \frac{{a - \left( 1 \right)}}{{p.r}} = \frac{{8 - 4}}{{1 \times 1}} = 4
trong đó p là số điểm tại mỗi mức (cao hay thấp) của A và r là số lần lặp lại của thí nghiệm. Trong trường hợp này p = 1 và r = 1.

Sau khi có thông tin về tác động của yếu tố A lên biến chất lượng đầu ra, phương trình hồi quy được đề xuất như sau:

\hat y = \bar y + \left( {\frac{{\bf{A}}}{2}} \right)x = \frac{{4 + 8}}{2} + \frac{4}{2}x = 6 + 2x
trong đó \bar y là giá trị trung bình của 2 quan sát y_1 = 4y_2 = 8; A là tác động của yếu tố A. Đường hồi quy được minh họa bằng hình vẽ sau:

Phương trình hồi quy cho thiết kế thí nghiệm nhân tố (1 yếu tố, 2 mức, 1 lần lặp)

Ta có thể diễn giải kết quả đơn giản này như sau: Nếu không có yếu tố A tác động vào, biến chất lượng đầu ra y sẽ không có gì thay đổi và nằm ngang như trên biểu đồ với giá trị là \bar y (đây là giá trị ước lượng dựa trên thông tin ta có từ 2 điểm thí nghiệm chứ ta không biết giá trị thật). Khi có A, tác động này sẽ thể hiện khi thay đổi A từ điểm thấp (-1) lên điểm cao (+1) làm cho y thay đổi từ 4 đến 8. Trong phương trình hồi quy, tác động này thể hiện ở hệ số m_1 = {\bf{A}}/2. Sở dĩ là A/2 là vì khi x thay đổi 2 đơn vị từ -1 đến +1, tác động của A = 4. Tác động này sẽ có tác dụng xoay đường \bar y một góc anpha có \tan \left( \alpha \right) = \frac{{\bf{A}}}{2}.

Một trong những công cụ để đánh giá phương trình hồi quy là phân tích phương sai. Trong phân tích phương sai, biến thiên sẽ được đo bằng các tổng bình phương và tổng biến thiên từ dữ liệu được chia làm hai thành phần chính khác nhau: biến thiên do hồi quy và biến thiên do nhiễu ngẫu nhiên. Mỗi loại biến thiên này còn có thể chia nhỏ ra nữa. Bây giờ ta thử phân tích phương sai cho ví dụ này.

Biến thiên của do yếu tố A gây nên: SS_A = \frac{{{\bf{(a - (1))}}^2 }}{{n \times r}} = \frac{{4^2 }}{{2 \times 1}} = 8.
Biến thiên do nhiễu ngẫu nhiên: SS_E  = \sum\limits_{i = 1}^n {\left( {\hat y_i  - y_i } \right)^2 }  = \left( {4 - 4} \right)^2  + \left( {8 - 8} \right)^2 = 0.
Biến thiên tổng: SS_T = SS_A + SS_E = \sum\limits_{i = 1}^n {y_i^2 } - \frac{{\left( {\sum\limits_{i = 1}^n {y_i } } \right)^2 }}{{n \times r}} = 4^2 + 8^2 - \frac{{\left( {4 + 8} \right)^2 }}{{2 \times 1}} = 8.

Có thể hiểu ý nghĩa của 3 loại biến thiên như sau: Biến thiên tổng SS_T phản ánh biến thiên dữ liệu khi so sánh trường hợp có và không có yếu tố A tác động vào y. Về mặt toán học, biến thiên của dữ liệu xung quanh giá trị \bar y thể hiện bằng tổng bình phương độ lệnh giữa các quan sát và y trung bình. Biến thiên tổng không phụ thuộc vào mô hình hồi quy được chọn. Trong khi đó, biến thiên do hồi quy SS_R (trong trường hợp này ta chỉ có một yếu tố A, mô hình tuyến tính bậc nhất nên SS_T = SS_A) sẽ phụ thuộc vào mô hình hồi quy mình chọn, nhiệm vụ của nó là chuyển tải được càng nhiều phần của biến thiên tổng càng tốt. Phần còn lại của biến thiên tổng sau khi trừ đi biến thiên do hồi quy là biến thiên do nhiễu ngẫu nhiên SS_E, phần này thể hiện quá trình tương tác giữa số liệu quan trắc được và mô hình, do đó nó phản ánh độ khớp của mô hình ta chọn với dữ liệu thu thập được. Phân tích phương sai (ANOVA – Analysis of variance) được tóm tắt trong bảng sau:

Nguồn
biến thiên

Sum of squares

Bậc
tự do

A

SSA = 8

1

E

SSE = 0

0

Tổng

SST = 8

1

Từ đó, hệ số hồi quy R-squares được tính như sau: R_{sq} = \frac{{SS_R }}{{SS_T }} = \frac{{SS_T - SS_E }}{{SS_T }} = \frac{8}{8} = 1
Do vậy, với mối quan hệ tuyến tính bậc nhất, nếu thiết kế thí nghiệm chỉ có 2 điểm, thông tin có được chỉ cho phép ta có một đường thằng hồi quy đi qua 2 điểm đó và yếu tố A lấy hết một bậc tự do đồng thời chiếm hết luôn tổng biến thiên nên hệ số tương quan đúng bằng 1. Không có nhiễu ngẫu nhiên hay nói đúng hơn là không ước lượng được nhiễu ngẫu nhiên trong trường hợp này vì ta thiếu thông tin. Tổng số bậc tự do là 1 vì ta chỉ có hai điểm quan sát và không có bậc tự do cho nhiễu ngẫu nhiên, điều này làm cho đường thằng là duy nhất, không có khả năng “xê dịch” trong quá trình ước lượng. Bây giờ ta sẽ mở rộng vấn đề sang ví dụ tiếp theo.

Ví dụ 2:

Cũng giống như ví dụ 1 nhưng ở đây ta giả sử thông tin ta có được nhiều hơn với 2 lần lặp (r = 2).

Runs

x

y1

y2

1

-1

4

3

2

+1

8

7

Với số lần quan sát lúc này cũng là n= 2, tác động của x (yếu tố A) lên biến chất lượng đầu ra y được sơ đồ hóa như sau:

Sơ đồ tác động của yếu tố A, 2 lần lặp ở 2 mức thấp (-) và cao (+)

Tác động của A cũng được tính theo công thức:

{\bf{A}} = \frac{{a - \left( 1 \right)}}{{p.r}} = \frac{{(8+7) - (4+3)}}{{1 \times 2}} = 4
trong trường hợp này p = 1 và r = 2.

Một cách tương tự, phương trình hồi quy được đề xuất như sau:

\hat y = \bar y + \left( {\frac{{\bf{A}}}{2}} \right)x = \frac{{4 + 3 + 8 +7}}{4} + \frac{4}{2}x = \frac{11}{2} + 2x
trong đó \bar y là giá trị trung bình của 4 quan sát trong bảng thí nghiệm trên. Đường hồi quy được minh họa bằng hình vẽ sau:

Phương trình hồi quy cho thiết kế thí nghiệm nhân tố (1 yếu tố, 2 mức, 2 lần lặp)

Phân tích phương sai:

Tổng biến thiên do hồi quy: SS_A = \frac{{{\bf{(a - (1))}}^2 }}{{n \times r}} = \frac{{(15-7)^2 }}{{2 \times 2}} = 16.
Biến thiên do nhiễu ngẫu nhiên: SS_E = \sum\limits_{i = 1}^n {\left( {\hat y_i - y_i } \right)^2 } = \left( {4 - \frac{7}{2}} \right)^2 + \left( {3 - \frac{7}{2}} \right)^2 + \left( {8 - \frac{{15}}{2}} \right)^2 + \left( {7 - \frac{{15}}{2}} \right)^2 = 1.
Biến thiên tổng: SS_T = SS_A + SS_E = \sum\limits_{i = 1}^n {y_i^2 } - \frac{{\left( {\sum\limits_{i = 1}^n {y_i } } \right)^2 }}{{n \times r}} = 4^2 + 3^2 + 8^2 + 7^2 - \frac{{\left( {4 + 3 + 8 + 7} \right)^2 }}{{2 \times 2}} = 17.

Sơ đồ minh họa cho tính toán các nguồn biến thiên cho phân tích phương sai được thể hiện trong hình bên dưới đây:

Sơ đồ tính toán các nguồn biến thiên

Bảng phân tích hồi quy:

Nguồn biến thiên

Sum of squares

Bậc tự do

A

SSA = 16

1

E

SSE = 1

2

Tổng

SST = 17

3

Nhận xét: CŨng với mối quan hệ tuyến tính bậc nhất, bây giờ tổng số điểm thí nghiệm là 4 nên số bậc tự do tổng cộng là 3 trong đó phương trình hồi quy vẫn chiếm 1, còn lại 2 cho nhiễu ngẫu nhiên (Error). Nhìn hình vẽ ta cũng có thể thấy ý nghĩa 2 bậc tự do cho Error nằm ở hai khoảng nhiễu (biên độ xê dịch) tại hai vị trí thí nghiệm mà đường thẳng hồi quy sẽ “xê dịch” trong đó. Việc xác định vị trí của đường hồi quy sẽ phụ thuộc vào hai khoảng nhiễu này và tiêu chuẩn tối ưu hóa để chọn đường hồi quy đó. Vấn đề này sẽ được bàn trong một bài riêng. Giả sử tại một trong hai điểm thí nghiệm trên ta chỉ có 1 giá trị quan sát (số lần lặp chỉ là 1), lúc này tổng bậc tự do sẽ giảm đi 1 (còn lại 2) và bậc tự do của Error sẽ bớt đi 1 (vì của hồi quy sẽ không đổi). Đường thẳng hồi quy sẽ bị cố định tại 1 đầu (không còn tự do) tại vị trí đó, đầu kia (2 lần lặp thí nghiệm) vẫn được xem là “tự do”. Tương tự nếu ta tăng số lượng quan sát, nghĩa là tăng bậc tự do tổng (và do đó bậc tự do của Error sẽ tăng lên), đường thằng hồi quy sẽ được xác định dựa trên nhiều thông tin hơn, nghĩa là “tự do” hơn. Khái niệm bậc tự do ở đây cũng tương tự như trong cơ học, có ý nghĩa là số chiều cho phép các điểm có thể xê dịch, chuyển động trong không gian.

Discussion

No comments yet.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: