Định lý giới hạn trung tâm

Trong toán học và xác suất thống kê, định lý giới hạn trung tâm (Tiếng Anh gọi là Central Limit Theorem) là một kết quả về sự hội tụ yếu của một dãy các biến ngẫu nhiên. Với định lý này, ta có kết quả là tổng (hoặc trung bình mẫu) của các biến ngẫu nhiên độc lập và có phân phối đồng nhất (bất kể phân phối nào) sẽ hội tụ về phân phối chuẩn khi kích cỡ mẫu trở nên rất lớn.

Trong trường hợp đơn giản nhất, được dùng dưới đây trong phần chứng minh của định lý, các biến ngẫu nhiên là độc lập, có cùng kỳ vọng và phương sai. Một cách tổng quát, tổng của các biến ngẫu nhiên sẽ tăng vô định khi số biến ngẫu nhiên tăng. Do đó để có một kết quả hữu hạn, ta hạn chế sự tăng của tổng bằng cách lấy tổng trừ đi giá trị trung bình và rút gọn bằng cách chia cho căn bậc hai của phương sai (chuẩn hoá). Với một số các điều kiện nữa thì phân phối xác suất của biến ngẫu nhiên giản lược sẽ hội tụ về một phân phối chuẩn.

Sự hội tụ được đảm bảo trong trường hợp đơn giản này. Tuy nhiên cũng tồn tại sự hội tụ trong trường hợp các biến ngẫu nhiên không cùng phân phối, nhưng vẫn phải đảm bảo điều kiện không có biến ngẫu nhiên nào có phân phối trội hơn hoặc gây ảnh hưởng đến phân phối của các biến ngẫu nhiên khác. Điều này được đảm bảo bởi điều kiện Lindeberg và điều kiện Lyapunov. Một số phiên bản khác của định lý cũng cho phép sự phụ thuộc yếu giữa các biến ngẫu nhiên.

Ngoài ra còn có một số nghiên cứu khác của Gnedenko và Kolmogorov cho rằng tổng của các biến ngẫu nhiên với phân phối có đuôi giảm theo phân số 1/|x|^α+1, 0 < α < 2 (do đó có phương sai vô hạn), sẽ hội tụ về phân phối Levy đối xứng và ổn định khi số biến nhẫu nhiên tăng.

Phần trình bày ở đây chỉ đề cập đến định lý giới hạn trung tâm cho trường hợp các phân phối có phương sai hữu hạn.

Định lý giới hạn trung tâm

Cho X₁, X₂... là tập hợp các biến ngẫu nhiên được định nghĩa trên cùng một không gian xác suất, có cùng phân phối D và độc lập lẫn nhau. Giả sử giá trị kỳ vọng $\mu$ và độ lệch chuẩn $\sigma$ của phân phối D là tồn tại và hữu hạn ( $\sigma \neq 0$ ).

Xét tổng S_n = X₁ + ... + X_n. Ta có S_n có kỳ vọng là nμ và độ lệch chuẩn σ n^½. Khi đó, phân phối của S_n hội tụ về phân phối chuẩn N(nμ,σ²n) khi n tiến về vô cùng.

Để làm rõ hơn sự hội tụ này, ta đặt:

Z_{n}={\frac {S_{n}-n\mu }{\sigma {\sqrt {n}}}}.

để có được kỳ vọng và độ lệch chuẩn của $Z_{n}$ lần lượt là 0 và 1.

Nếu phân phối của Z_n hội tụ về phân phối chuẩn N(0,1) khi n tiến về vô cùng (tức là hội tụ theo phân phối), thì cũng có nghĩa là: nếu Φ là hàm phân phối tích lũy của N(0,1), thì với mọi số thực z:

\lim _{n\to \infty }{\mbox{P}}(Z_{n}\leq z)=\Phi (z),

Hay một cách tương đương:

\lim _{n\to \infty }{\mbox{P}}\left({\frac {{\overline {X}}_{n}-\mu }{\sigma /{\sqrt {n}}}}\leq z\right)=\Phi (z)

trong đó

{\overline {X}}_{n}=S_{n}/n=(X_{1}+\cdots +X_{n})/n

Chứng minh định lý giới hạn trung tâm

Mặc dù đây là định lý quan trọng trong thống kê và xác suất ứng dụng nhưng phần chứng minh của nó khá đơn giản bằng cách sử dụng các hàm đặc trưng, nó gần giống với phần chứng minh của luật số lớn.

Ta có với mọi i, $Y_{i}={\frac {X_{i}-\mu }{\sigma }}$ có kỳ vọng 0 và độ lệch chuẩn 1, với hàm đặc trưng được khai triển giới hạn dưới dạng:

\varphi _{Y_{i}}(t)=1-{t^{2} \over 2}+o(t^{2}),\quad t\rightarrow 0.

Ta có:

Z_{n}={\frac {{\overline {X}}_{n}-\mu }{\sigma /{\sqrt {n}}}}=\sum _{i=1}^{n}{Y_{i} \over {\sqrt {n}}}.

Từ các tính chất cơ bản của hàm đặc trưng, ta suy ra hàm đặc trưng của Z_n là

\varphi _{Z_{n}}\left(t\right)=\left[\varphi _{Y_{i}}\left({t \over {\sqrt {n}}}\right)\right]^{n}=\left[1-{t^{2} \over 2n}+o\left({t^{2} \over n}\right)\right]^{n}\,\rightarrow \,e^{-t^{2}/2}

khi

n\to +\infty .

Giới hạn này là hàm đặc trưng của phân phối chuẩn N(0,1). Từ đó định lý giới hạn trung tâm được chứng minh nhờ vào định lý về tính liên tục của Levy, trong đó có nói rằng, sự hội tụ của các hàm đặc trưng cho phép suy ra sự hội tụ theo phân phối.

Nếu mômen bậc 3 E[(X - μ)³] tồn tại và hữu hạn, thì ta có hội tụ đều (uniform), và vận tốc hội tụ có bậc ít nhất là 1/n^½ (xem định lý Berry-Esseen).

Trong các ứng dụng thực tế, định lý này cho phép thay thế tổng vô cùng lớn nhưng hữu hạn các biến ngẫu nhiên bằng một biến ngẫu nhiên có phân phối chuẩn, như vầy sẽ dễ dàng thao tác, tính toán hơn.

Các suy rộng từ định lý

Hàm phân phối xác suất

Hàm phân phối xác suất của tổng nhiều biến ngẫu nhiên độc lập được xác định bởi hàm xoắn (convolution) từ các hàm phân phối xác suất của các biến ngẫu nhiên đó. Từ định lý giới hạn trung tâm, ta có thể suy ra, hàm xoắn này hội tụ về một hàm phân phối xác suất chuẩn khi số biến ngẫu nhiên tăng vô hạn.

Tích các biến ngẫu nhiên

Định lý giới hạn trung tâm phát biểu cho tổng các biến ngẫu nhiên độc lập, câu hỏi là chuyện gì xảy ra với tích của các biến ngẫu nhiên độc lập?

Ta biết rằng, lôgarit (log) của tích các số hạng thì bằng tổng lôgarit các số hạng. Định lý giới hạn trung tâm cho biết tổng lôgarit, và do đó lôgarit của tích, hội tụ về biến ngẫu nhiên phân phối chuẩn. Từ đó suy ra tích các biến ngẫu nhiên hội tụ về một biến ngẫu nhiên có phân phối chuẩn-lôgarit (log-normal).

Các định lý giới hạn trung tâm mở rộng

Điều kiện Lyapunov

Xét X_n là một dãy các biến ngẫu nhiên được định nghĩa trên cùng một không gian xác suất, không nhất thiết có cùng phân phối. Giả sử X_i có kỳ vọng hữu hạn μ_i và độ lệch chuẩn hữu hạn σ_i. Ta định nghĩa:

s_{n}^{2}=\sum _{i=1}^{n}\sigma _{i}^{2}.

Giả sử các mômen bậc 3

r_{i}^{3}={\mbox{E}}\left({\left|X_{i}-\mu _{i}\right|}^{3}\right)

là hữu hạn với mọi i và

\lim _{n\to \infty }{\frac {r_{n}}{s_{n}}}=0.

Các điều kiện trên được gọi la điều kiện Lyapunov.

Ta xét tổng mới S_n=X₁+...+X_n. Kỳ vọng của S_n là m_n = ∑_i=1..nμ_i và độ lệch chuẩn là s_n. Nếu ta chuẩn hóa S_n bằng cách đặt

Z_{n}={\frac {S_{n}-m_{n}}{s_{n}}}

thì phân phối xác suất của Z_n hội tụ về phân phối chuẩn N(0,1).

Điều kiện Lindeberg

Với các giả thiết ban đầu như trong điều kiện Lyapunov.

Với mọi ε > 0

\lim _{n\to \infty }\sum _{i=1}^{n}{\mbox{E}}\left({\frac {(X_{i}-\mu _{i})^{2}}{s_{n}^{2}}}:\left|X_{i}-\mu _{i}\right|>\epsilon s_{n}\right)=0

trong đó E(U: V > c) là kỳ vọng có điều kiện: kỳ vọng của U với điều kiện V > c. Khi đó phân phối xác suất của Z_n hội tụ về phân phối chuẩn N(0,1).

Trường hợp các biến ngẫu nhiên không độc lập

Có một số định lý nghiên cứu trường hợp tổng của các biến ngẫu nhiên không độc lập, ví dụ định lý giới han trung tâm m-phụ thuộc (m-dependent central limit theorem), định lý giới hạn trung tâm martingal (martingale central limit theorem) và định lý giới hạn trung tâm cho quá trình hỗn hợp (central limit theorem for mixing processes).^[1]

Links ngoài

Central Limit Theorem Java Lưu trữ 2007-09-17 tại Wayback Machine
Central Limit Theorem chương trình mô phỏng thực nghiệm định lý giới hạn trung tâm.

Tham khảo

^ Van Huu, Nguyen; Hoang, Vuong Quan; Ngoc, Tran Minh (2005). “Central Limit Theorem for Functional of Jump Markov Processes”. Vietnam Journal of Mathematics. 33 (4): 443–461.

[1] Van Huu, Nguyen; Hoang, Vuong Quan; Ngoc, Tran Minh (2005). “Central Limit Theorem for Functional of Jump Markov Processes”. Vietnam Journal of Mathematics. 33 (4): 443–461.

[1]