中心极限定理 (Central limit theorems, CLT) 是概率论和统计学中的一个核心定理。在统计学的实践中,CLT 无处不在。CLT 表明,在一定条件下,若干随机变量的算术平均值的分布可以用正态分布近似。CLT 简洁优美且有普遍适用性。它并不需要明确知道参与求和的随机变量的精确分布,而只要满足一些较弱的条件即可。然而和大数定律 (Law of large numbers) 不同,CLT 并不是那么自然。我们很容易理解硬币正面朝上的频率应该逐渐接近于朝上的概率,而不太容易理解为什么即使每个变量是从偏态分布比如指数分布、卡方分布中抽取的,它们的样本均值都会近似服从正态分布。从 1733 年 De Moivre 首次得出了一个特殊版本的 CLT 到 1935 年 Feller 和 Levy 给出 CLT 的充要条件,无数伟大的数学家统计学家做出了巨大的贡献,共同谱写了一场跨越两百年的传奇。
1. 法国数学家的贡献
Abraham De Moivre (1667—1754) 在 1733 年给出了 CLT 的雏形。这也是正态分布的第一次出现。他利用由他和James Stirling共同发展的现今被称为 Stirling 公式给出了二项分布的正态近似。他的工作是 Jakob Bernoulli 大数定律的进一步发展。尽管大数定律表明频率和概率很接近,但却无法给出均匀硬币在 次 抛掷中次正面朝上的概率的更加精细的刻画。然而 De Moivre 仅仅将这一超越时代的成果看作是二项分布的近似,而并没有意识到 CLT 的普遍存在。
下一个重大的突破是由 Pierre-Simon Laplace (1749-1827) 给出的。1812 年他发表了重要的 《Théorie Analytique des Probabilités》(TAP) 一书。他使用由他在 1785 年引入的特征函数进行了论证。这一证明思路甚至影响到了 100 年之后的Aleksandr Mikhailovich Lyapunov(1857-1918)。尽管在 1785 年 Laplace 已得出了一些初步的结果,但非常奇怪的是直到近40年后他才得到一个较一般化的CLT。Laplace 所得出的 CLT 是第一个一般化的结果。他的结果可应用于有界的随机变量。
Simeon-Denis Poisson(1781-1840) 在 1824 年和 1829 年发表了两篇文章来讨论 CLT。他希望能够对 Laplace 的结果给出更加严格的论证。他的贡献主要是两个方面:1. 他创造了 "choses" 这一概念,可以看作是现代观点下的“随机变量”的开端;2. 他给出了一些反例比如 Cauchy 分布来说明 CLT 有时并不总是成立。
这一时期的研究主要将 CLT 看作是个工具而不是数学对象本身。在早期,概率论并不被看作是严格的数学理论而更多的是一种常识。到了 19 世纪后期,很多数学家希望给出 CLT 更加严格的证明。这其中包括德国数学家 Johann Peter Gustav Lejeune Dirichlet (1805-1859), Friedrich Wilhelm Bessel(1784-1846) 和法国数学家 Augustin Louis Cauchy(1789-1857) 等。
Dirichlet 和 Bessel 在他们的证明中引入了 "discontinuity factor",进一步发展和完善了Poisson的证明。Dirichlet还尝试给出正态近似的误差。尽管这一尝试并不是很成功,但这是第一次对近似误差的较深入的研究。Cauchy 是第一批认真地将概率论看作是纯粹数学的大数学家之一。在与 Irénée-Jules Bienaymé 关于最小二乘的讨论中,Cauchy 建立了正态近似误差的一个上界。
关于 CLT 的早期证明往往不够严谨,定理所需的条件并没有清晰地给出,同时一般限定所讨论的变量有界。从 1870 年到 1910 年,俄国数学家开始在历史舞台上展露他们的才华。以 Pafnuty Lvovich Chebyshev (1821-1894), Andrey Andreyevich Markov (1856-1922) 和 Aleksandr Mikhailovich Lyapunov (1857-1918) 为代表的 “St. Petersburg School” 在 CLT 的发展史上写下了重重的笔墨。
2. 俄国数学家的贡献
Chebyshev 和 Markov 采用矩方法进行论证,而 Liapounov 则采用 Laplace 的路径基于特征函数进行论证。Chebyshev 和 Markov 更多地是将 CLT 用来说明它们所提的矩方法。而 Liapounov 则将 CLT 本身看作是一个数学对象。第一个现代意义下的严格证明是由 Liapounov 在 1901 年给出的。
在 1887 年,Chebyshev 发表了一篇关于 CLT 的文章。尽管这篇文章的证明并不够完善,但他不仅清晰地陈述了定理所需的条件同时首次将 CLT 看作是极限定理,而之前的数学家更多地将 CLT 看作是误差分布的近似。在 1898 年,Markov 指出他的老师 Chebyshev 的结论实际上还需要一个额外的条件,即参与求和的变量的方差不会趋于 0。Chebyshev 和 Markov 论证规范化后的和式的各阶原点矩收敛到标准正态分布对应的原点矩。也就是,他们建立了矩收敛性。
作为 Chebyshev 的另一个学生,Liapounov 并没有延续 Chebyshev 和 Markov 的矩方法,而是回到 1810 年 Laplace 所引入的特征函数方法。尽管 Laplace 给出的证明不够完善,但对于他所考虑的情形,给出完整的证明并不非常困难。因而直到接近 100 年之后才由 Liapounov 给出严格的论证显得非常地奇特。而法国的大数学家 Cauchy,Joseph Bertrand 和 Jules Henri Poincaré 却没能完成这一壮举。在 Liapounov 条件下,Liapounov 论证规范化后的和式的特征函数收敛到标准正态分布的特征函数。和 Laplace 不同的是,他意识到特征函数和分布函数之间的关联。实际上 Levy 连续性定理已暗含在他的证明中。由于 Liapounov 所得 CLT 结果非常重要,现将其陈述如下:
3. 中心极限定理历史的第三个篇章
第三个篇章发生在 1920-1937。第一次世界大战结束后,概率论变得愈发重要,而 CLT 也已变成数学领域的一个重要研究对象。匈牙利数学家 George Pólya (1887-1985) 意识到 CLT 的重要性和普遍存在性,给出了 “central” 这一名字。
在 1922 年,芬兰数学家 Jarl Waldemar Lindeberg (1876-1932) 给出了 CLT 的一个新的证明。由于该结果的重要性,现将其陈述如下:
Lindeberg 给出了 CLT 的充分条件,而 Poisson 已经表明 CLT 有时并不成立。美国数学家 William Feller(1906-1970) 在转入概率论的研究不久就对 CLT 的充要条件进行了回答。他的结果现已被称为Lindeberg-Feller CLT,因为他使用 Lindeberg 条件。结论如下:
在同一年,法国数学家 Paul Pierre Lévy (1886-1971) 也对 CLT 的充要条件独立地进行了研究并得出了类似的结果。Levy 对于他的工作未被给予足够的肯定表示失望 “I shall never have had any luck with the Gaussian distribution”。Feller 的工作受到了 Levy 在 1925 年的专著 Calcul des probabilites 的影响,使用特征函数作为分析工具。而 Levy 反而放弃了他所擅长的特征函数手段而转而采用他所新提出的 concentration 和 dispersion 作为分析手段。尽管 Levy 的工作发表时间晚于Feller,但他的投稿时间要早于 Feller。
Feller 和 Levy 的结果需要假定“若两个独立的随机变量的和服从正态分布则它们分别服从正态分布”。在 1936 年,瑞典数学家 Harald Cramér(1893-1985) 对这一假定进行了证明。而在 1937 年,Feller 和 Levy 利用 Cramér 的结果更新了他们的证明。
4. 总结
我们看到尽管法国数学家尤其是 Laplace 对正态分布做出了巨大贡献,但这一分布却被冠上了德国大数学家 Carolus Fridericus Gauss 的大名。而 Gauss 对 CLT 并没有做过相关的论证。一方面 Gauss 关于最小二乘的工作使得正态分布更加为人所知,另一方面则可能是法国数学界对 CLT 的不够重视。比如法国数学界 Émile Borel 认为关于 CLT所得结果的重要性和为此付出的努力并不相匹配,同时还认为在实际中所需的条件难以验证。
而更多数学家的工作由于通讯的不便使得优先权产生了一定争议。不论如何通过众多伟大数学家的不懈努力,对于独立随机变量序列而言,CLT 的大厦终于基本建立了起来!