you're reading...
Xác suất thống kê

Trung bình và kỳ vọng, tổng và tích phân

Bài viết này nhằm phân tích mối liên hệ giữa khái niệm trung bình và kỳ vọng trong thống kê, qua đó phân tích luôn mối liên hệ giữa một tổng và một tích phân, bản chất của phép tính tích phân qua vai trò dùng để tính kỳ vọng.

Để dễ hình dung, ta nên bắt đầu bằng khái niệm quần thể, hay tổng thể (tạm dịch từ “population”, có nhiều tài liệu còn dịch là “dân số”. Theo mình thì dân số là một khái niệm mang tính xã hội học hơn, còn khái niệm “quần thể” mang tính sinh thái học nên mang tính tổng quát hơn mặc dù trong tiếng Anh hai khái niệm này đều dùng chung một thuật ngữ “population”). Trong thống kê khái niệm này nên được hiểu rộng hơn, là tập hợp tất cả những đối tượng trong một phạm vi nào đó cần khảo sát. Trước hết phải xem xét tính liên tục của quần thể. Một quần thể có thể rời rạc hoặc liên tục tùy vào bản chất của nó. Nếu xem xét quần thể là tất cả dân cư của một thành phố, là tập hợp tất cả nhân viên trong một công ty thì các quần thể này là rời rạc. Nếu khảo sát chất lượng của một hồ nước, hoặc kiểm tra chất lượng của một sản phẩm đầu ra, thì tập hợp tất cả các thông số có thể đo được là những quần thể liên tục. Một trong những mục đích cơ bản đầu tiên của thống kê là tìm cách mô tả các quần thể bằng các thống kê (statistics) để giúp người làm công tác quản lý có một hình ảnh phác họa về khu vực mình cần kiểm soát.

Đối với quần thể rời rạc, trong trường hợp các cá thể ít, có thể đó được tất cả thì số liệu đo được từ toàn bộ các cá thể sẽ dùng để tính các thống kê mô tả, trong trường hợp số lượng các cá thể nhiều ta không thể đo tất cả được vì giới hạn năng lực (chi phí, thời gian, nhân lực…) lúc đó cần phải có kế hoạch lấy mẫu. Số liệu từ mẫu dùng để tính các thống kê mô tả quần thể đó.

Đối với quần thể liên tục, nếu ta biết được mật độ phân phối của các cá thể và có thể biễu diễn bằng hàm số, các thống kê  mô tả có thể được tính toán trực tiếp. Điều này trong thực tế thường ít xảy ra. Thông thường, sau khi khoanh vùng không gian của quần thể, người ta lên kế hoạch lấy mẫu, các giá trị đo được từ mẫu sẽ dùng để mô tả quần thể, tiếp theo sẽ mô hình hóa các thống kê mô tả đó bằng các hàm. Từ các hàm này, các thống kê  mô tả quần thể sẽ được tính toán lại.

Với các giá trị đo được từ mẫu của bất kỳ thông số nào, thống kê đầu tiên người ta nghĩ đến và thường dùng nhất là trung bình. Trung bình là một trong số các thống kê phổ biến để đo xu thế hội tụ của một quần thể.

Trung bình: là một giá trị thống kê chứa đựng ý nghĩa bình quân của một nhóm các giá trị đo từ mẫu thu thập được. Nhiệm vụ của người lên kế hoạch lấy mẫu làm sao cho giá trị này có thể đại diện được cho giá trị bình quân của quần thể được lấy mẫu. Minh họa tính toán giá trị trung bình có thể hình dung dễ dàng qua ví dụ sau:

Ví dụ 1: Khảo sát chiều cao của một nhóm 26 học sinh cho kết quả như sau:

Số
đo

(cm)

155

156

158

159

160

161

162

163

164

165

166

167

168

Số
học sinh

1

1

2

3

2

1

4

5

2

1

2

1

1

Cách tiếp cận 1:

Để tính trung bình, giả sử ta đã sắp xếp và ký hiệu 26 học sinh theo thứ tự từ thấp đến cao theo bảng sau, tiếp theo nhiệm vụ đơn giản là cộng chiều cao tất cả các học sinh lại, lấy kết quả chia cho 26.

Số
đo (cm)

155

156

158

159

160

161

162

163

164

165

166

167

168

Số
học sinh

1

1

2

3

2

1

4

5

2

1

2

1

1


hiệu học sinh

x1

x2

x3 x4

x5 x6
x7

x8 x9

x10

x11 x12
x13

­­x14

x15

x16
x17

­­x18

x19

­­x20

x21

x22

x23 x24

x25

x26

Kết quả giá trị chiều cao trung bình được tính như sau:

Chiều cao trung bình  = Tổng (chiều cao của tất cả học sinh) / Tổng số học sinh

hay:
\bar H = \frac{1}{n}\sum\limits_{i = 1}^n {x_i } = \frac{1}{{26}}\sum\limits_{i = 1}^{26} {x_i } = 161.8

Cách tiếp cận 2:

Mở rộng khái niệm trung bình ra một chút, nếu ta coi số học sinh là trọng số của các số đo chiều cao thì trung bình có thể được tính theo hướng khác. Trước hết ta sắp xếp lại bảng số liệu trên như sau:

Số
đo (cm)

155

156

158

159

160

161

162

163

164

165

166

167

168

Số
học sinh

1

1

2

3

2

1

4

5

2

1

2

1

1


hiệu giá trị đo

x1

x2

x3

x4

x5

x6

x7

x8

x9

x10

x11

x12

x13

Chiều cao trung bình lúc này là:

Chiều cao trung bình  = Tổng (trọng số * giá trị chiều cao ứng với trọng số)/ Tổng số trọng số

hay
\bar H = \frac{{\sum\limits_{i = 1}^n {{\rm{w}}_i x_i } }}{{\sum\limits_{i = 1}^n {{\rm{w}}_i } }} = \frac{{\sum\limits_{i = 1}^{13} {{\rm{w}}_i x_i } }}{{\sum\limits_{i = 1}^{13} {{\rm{w}}_i } }} = 161.8

Ở đây tổng các trọng số cũng bằng tổng số học sinh (26), số giá trị đo là 13, trọng số ứng với từng giá trị đo tương ứng với ố học sinh có cùng giá trị đo đó. Trung bình tính theo cách này có thể được gọi là trung bình có trọng số.

Cách tiếp cận 3:

Nếu nhìn vấn đề khác đi một chút nữa, ra có thể tính trung bình như sau:
\bar H = \sum\limits_{i = 1}^n {f_i x_i } = \sum\limits_{i = 1}^{13} {f_i x_i } = 161.8

Trong đó: f_i = \frac{{{\rm{w}}_i }}{{\sum\limits_{i = 1}^n {{\rm{w}}_i } }} được coi là tần suất, phản ánh số học sinh có cùng số đo trên tổng số học sinh, cho ta hình dung khả năng xuất hiện cá thể (ở đây là các giá trị đo chiều cao) trong một quần thể (tập hợp tất cả các giá trị chiều cao đo được). Trung bình tính theo cách này có thể được gọi là trung bình theo tần suất, hay KỲ VỌNG của mẫu.

Một cách tổng quát, đối với dữ liệu mẫu rời rạc, kỳ vọng cho ta ước lượng giá trị bình quân, thể hiện xu thế hội tụ của quần thể.

Kỳ vọng = Tổng (tần suất xuất hiện của mẫu * giá trị của mẫu tương ứng)

hay
E(x) = \sum\limits_{i = 1}^n {f_i x_i }

Đối với một quần thể liên tục mà phân bố của cá thể được biểu diễn bằng một hàm mật độ f(x), khái niệm kỳ vọng có thể được mở rộng như sau:

Kỳ vọng của x = tích phân (x* hàm mật độ của x)dx

hay
E = \int\limits_{x \in D} {xf\left( x \right)} dx

Lưu ý rằng điều kiện của hàm mật độ phải được chuẩn hóa: \int\limits_{x \in D} {xf\left( x \right)} dx = 1 và đại lượng f(x)dx thể hiện xác suất xuất hiện cá thể x.

Do đó, khi giá trị đo của các cá thể biến thiên liên tục, kỳ vọng sẽ được tính bằng một tích phân, thay vì một tổng như trong trường hợp rời rạc.
Mở rộng thêm một chút nữa, muốn tính kỳ vọng cho một hàm của x chứ không phải x, khái niệm kỳ vọng ở trên có thể diễn đạt như sau:

Kỳ vọng của g(x) = tích phân (g(x)* hàm mật độ của x)dx
hay
E = \int\limits_{x \in D} {g\left( x \right)f\left( x \right)} dx

Tại sao phải dùng tích phân?

Tại vì bản chất của tích phân là một phép cộng liên tục. Có thể minh họa điều này qua hình vẽ sau:

Giả sử có một hàm f(x) biến thiên từ a đến b, giả sử đoạn [a, b] được chia thành nhiều đoạn \Delta x bằng nhau. Hình minh họa cho ta thấy về mặt trực quan hình học, đại lượng f\left( {x_i } \right)\Delta x đại diện cho diện tích của 1 mảnh hình chữ nhật cong tạo bởi \Delta x. Tích phân của hàm f(x) từ a đến b cho ta được diện tích hình chữ nhật cong tạp bởi đường f(x), đường y=a, y=b và trục hoành. Gọi diện tích đó là S. Ta có thể thấy được rằng S là tổng của các mảnh hình chữ nhật nhỏ S_i khi \Delta x tiến đến zero. Hay nói cách khác, S chính là một tổng liên tục của các mảnh hình chữ nhật nhỏ S_i đó khi cạnh \Delta x tiến đến zero. Ta có mối quan hệ:
S = \int\limits_a^b {f\left( x \right)dx = } \mathop {\lim }\limits_{\Delta x \to 0} \sum\limits_{i = 1}^n {S_i } = \mathop {\lim }\limits_{\Delta x \to 0} \sum\limits_{i = 1}^n {f\left( {x_i } \right)} \Delta x
Khi \Delta x tiến đến zero, số mảnh hình chữ nhật cong S_i (hay n) tiến đến vô cùng.
Thử áp dụng khái niệm kỳ vọng ở chỗ này. Giả sử f(x) là một hàm bất kỳ sao cho S = \int\limits_a^b {f\left( x \right)dx} là một số dương (tiện cho mặt trực quan hình học và mô tả xác suất), nếu ta coi f(x) là hàm mô tả phân bố của một quần thể nào đó, thì f(x)/S có thể được xem là một hàm mật độ xác suất mô tả phân bố của quần thể đó vì đã được chuẩn hóa:
S = \int\limits_a^b {\frac{{f\left( x \right)}}{S}dx = } 1
Do đó, xét lại tích phân ban đầu:
S = \int\limits_a^b {f\left( x \right)dx = } \int\limits_a^b {S\frac{{f\left( x \right)}}{S}dx}
có thể được coi là kỳ vọng của S (kết quả chính là S vì nó là hằng số) vì f(x)/S là một hàm mật độ.

Qua phân tích các cách tiếp cận từ 1 đến 3, ta có thể hình dung được theo chiều hướng tổng quát hóa, khi dữ liệu đi từ rời rạc đến liên tục, khái niệm mô tả xu thế hội tụ sẽ đi từ trung bình đến kỳ vọng, qua đó ta cũng thấy được mối liên hệ giữa phép tổng và phép tích phân.

Discussion

No comments yet.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: