📜  统计-中心极限定理(1)

📅  最后修改于: 2023-12-03 15:27:36.857000             🧑  作者: Mango

统计-中心极限定理

简介

中心极限定理(Central Limit Theorem)是概率论中的经典定理,它指出在一定条件下,独立随机变量的和的分布趋向于正态分布。中心极限定理被广泛应用于统计学、自然科学、工程技术等领域。在计算机科学中也有着重要应用,比如在机器学习、数据挖掘、图像处理等方面都会用到。

定理表述

设 $X_1,X_2,...,X_n$ 是独立同分布的随机变量序列,且具有有限的数学期望 $\mu$ 和方差 $\sigma^2$,则当 $n$ 充分大时,随机变量 $\frac{\sum_{i=1}^n X_i - n\mu}{\sigma\sqrt{n}}$ 的分布近似服从标准正态分布 $N(0,1)$。

公式如下:

$$\lim_{n\to\infty} P\left(\frac{\sum_{i=1}^n X_i - n\mu}{\sigma\sqrt{n}} \leq x \right) = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^x e^{-\frac{t^2}{2}} dt$$

其中,$P$ 表示概率分布函数,$N(0,1)$ 表示均值为 $0$,标准差为 $1$ 的标准正态分布。

性质

中心极限定理有以下几个性质:

  1. 在独立性、同分布和随机变量的数量足够大等条件下,独立随机变量的和趋向于正态分布,这是中心极限定理最基本的结论。
  2. 对于任意分布,只要抽样量足够大,抽样分布就近似于正态分布。
  3. 当样本量足够大时,不同的样本数量,不同的样本分布都会收敛到正态分布,这是中心极限定理的重要性质。
  4. 中心极限定理可以用于估计未知总体的均值和方差,可以对样本数据进行变换,使其近似于正态分布,从而进行假设检验和置信区间估计等操作。
应用场景

中心极限定理主要应用于以下三个方面:

  1. 统计推断:中心极限定理可用于构造置信区间和进行假设检验。
  2. 数据挖掘:中心极限定理可用于构造聚类算法,数据预处理,特征提取等方面。
  3. 机器学习:中心极限定理可用于解决异常检测、分类、回归等问题。
代码实现

中心极限定理的实现依靠于随机变量采样。以下是 Python 语言实现中心极限定理的示例代码:

import numpy as np

def central_limit_theorem(n: int, m: int, mu: float, sigma: float) -> np.ndarray:
    """
    :param n: 抽样次数
    :param m: 抽样数量
    :param mu: 总体均值
    :param sigma: 总体标准差
    :return: shape=(n, m) 的 numpy.ndarray,表示 n 次抽样中,每次抽样样本均值的分布
    """
    samples = np.random.normal(mu, sigma, (n, m))
    return np.mean(samples, axis=1)

代码中使用了 numpy.random.normal 函数来产生符合正态分布的随机变量,在通过 np.mean 对样本均值进行计算,并返回均值分布。

参考资料
  1. https://en.wikipedia.org/wiki/Central_limit_theorem
  2. https://zh.wikipedia.org/wiki/%E4%B8%AD%E5%BF%83%E6%9E%81%E9%99%90%E5%AE%9A%E7%90%86
  3. https://mathworld.wolfram.com/CentralLimitTheorem.html
  4. https://www.jianshu.com/p/a44c5c441559