📅  最后修改于: 2023-12-03 15:27:12.449000             🧑  作者: Mango
切比雪夫不等式是概率论中的一组定理,它可以用来衡量一个随机变量与其期望值之间的偏离程度,也可以用来估算一个样本的方差、标准差等统计量。通俗地讲,切比雪夫不等式是告诉我们:一个随机变量距离其期望值越远,它的概率就越小。
设 $X$ 为一个随机变量,其期望值为 $E(X)$,方差为 $\operatorname{Var}(X)$,则对于任意 $k>0$,有:
$$\Pr \left(|X-E(X)| \geq k \operatorname{Var}(X) \right) \leq \frac{1}{k^2}$$
其中,$\Pr$ 表示概率。这个不等式的意思是,对于任意一个随机变量 $X$,$X$ 偏离其期望值的距离不会太远,偏离程度和样本大小成反比。如果用 $k$ 倍的标准差来衡量偏离程度,那么 $X$ 偏离期望值 $k$ 倍标准差的概率不超过 $\frac{1}{k^2}$,也就是说,随着 $k$ 增大,$X$ 偏离期望值的概率会越来越小。
下面我们通过一个例子来理解切比雪夫不等式。假设有一枚硬币,抛掷 $n$ 次,正面朝上的次数为 $X$。我们希望衡量 $X$ 和 $\frac{n}{2}$ 之间的偏离程度,也就是说,测量 $X-\frac{n}{2}$ 的绝对值。我们可以运用切比雪夫不等式来计算 $X$ 偏离其期望值的概率。
我们知道,一枚均匀硬币被投掷 $n$ 次,正面朝上的次数 $X$ 是一个二项分布 $B(n,\frac{1}{2})$ 的随机变量。它的均值是 $\mu=E(X)=\frac{n}{2}$,方差是 $\sigma^2=\operatorname{Var}(X)=\frac{n}{4}$。
假设我们要求 $X$ 偏离其期望值不超过 $k$ 倍标准差的概率,也就是 $|X-\frac{n}{2}| \geq k\frac{\sqrt{n}}{2}$,由切比雪夫不等式可得:
$$ \Pr(|X-\frac{n}{2}| \geq k\frac{\sqrt{n}}{2}) \leq \frac{4}{k^2n} $$
假如我们要求 $X$ 偏离其期望值不超过 $2$ 倍标准差的概率,也就是 $|X-\frac{n}{2}| \geq \sqrt{n}$,那么由切比雪夫不等式可得:
$$ \Pr(|X-\frac{n}{2}| \geq \sqrt{n}) \leq \frac{1}{4} $$
也就是说,当 $n$ 充分大时,硬币正面朝上的次数偏离其期望值 $\frac{n}{2}$ 超过 $\sqrt{n}$ 的概率小于 $\frac{1}{4}$。这个结论可能有些出乎意料,因为我们会认为当 $n$ 增大时,偏离程度会越来越小,但实际上,偏离程度随着样本大小的增加而减小的速度非常缓慢。因此,当样本大小很大时,我们需要使用更加精细的方法来衡量偏离程度,例如判别分析、贝叶斯统计等。
切比雪夫不等式是衡量随机变量与期望值之间偏离程度的一种重要工具。它告诉我们,当随机变量偏离期望值越远时,它的概率就越小。通过理解切比雪夫不等式,我们可以更好地理解随机变量的统计性质,为数据分析和机器学习提供支持。