数学 | Beta 分布模型(1) - 芒果文档

📌 相关文章

📜 数学 | Beta 分布模型(1)

📅 最后修改于: 2023-12-03 15:39:57.479000 🧑 作者: Mango

数学 | Beta 分布模型

Beta 分布是一个常用的概率分布，通常用于描述参数为概率时的不确定性。在计算机科学领域中，Beta 分布常常用于处理二项式分布的参数，在数据挖掘、机器学习、贝叶斯统计等领域都有广泛应用。

Beta 分布的定义

Beta 分布是定义在 [0, 1] 区间上的连续概率分布，其概率密度函数如下：

$$ f(x|\alpha, \beta)=\frac{x^{\alpha-1}(1-x)^{\beta-1}}{B(\alpha, \beta)} $$

其中，$x\in[0, 1]$ 为随机变量，$\alpha$ 和 $\beta$ 为两个正实数参数，$B(\alpha, \beta)$ 为 Beta 函数，其定义为：

$$ B(\alpha, \beta)=\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)} $$

其中，$\Gamma(\cdot)$ 为 Gamma 函数，其定义为：

$$ \Gamma(\alpha)=\int_{0}^{+\infty} x^{\alpha-1}e^{-x}dx $$

在实际应用中，常常使用以下形式的 Beta 分布：

$$ f(x|a, b)=\frac{x^{a-1}(1-x)^{b-1}}{B(a, b)} $$

其中，$a=\alpha+1$，$b=\beta+1$，这样可以避免计算 Beta 函数和 Gamma 函数。

Beta 分布的性质

Beta 分布的期望为：

$$ E[x]=\frac{a}{a+b} $$

Beta 分布的方差为：

$$ Var[x]=\frac{ab}{(a+b)^2(a+b+1)} $$

Beta 分布的应用

1. 二项式分布的参数估计

二项式分布可以用于描述具有固定次数的重复试验中，成功概率为 $p$ 的试验成功次数 $k$ 的概率。假设我们观测到 $n$ 次实验中成功了 $k$ 次，我们可以用 Beta 分布估计参数 $p$：

$$ p \sim \operatorname{Beta}(a=k+1, b=n-k+1) $$

其中，$k+1$ 表示观测到了 $k$ 次成功，$n-k+1$ 表示观测到了 $n-k$ 次失败。

2. 贝叶斯统计

Bayes' theorem 可以用于计算在一些先验知识的基础上，我们观测到一些数据之后的后验概率。Beta 分布通常被用作 Bernoulli 分布的共轭先验分布，即：

$$ p(x|\theta) \sim Bernoulli(\theta) \ \theta \sim Beta(\alpha, \beta) $$

其中，$x$ 表示观测到的数据，$\theta$ 表示 Bernoulli 分布的参数。假设我们已经有了 $\theta$ 的先验知识，可以用 Beta 分布来表达它的分布情况。在观测到 $x$ 之后，我们可以根据 Bayes' theorem 计算此时 $\theta$ 的后验分布：

$$ p(\theta|x) \propto p(x|\theta)p(\theta) $$

根据计算，可以得到此时 $\theta$ 的后验分布仍为 Beta 分布：

$$ \theta|x \sim Beta(a+\sum_{i=1}^N x_i, b+N-\sum_{i=1}^N x_i) $$

其中，$N$ 表示观测到的数据总个数，$x_i$ 表示第 $i$ 个数据的取值（0 或 1）。

Conclusion

Beta 分布是一个非常重要的概率分布，在许多领域中都有着广泛的应用。它可以用于估计二项式分布的参数，还可以作为 Bernoulli 分布的共轭先验分布，用于贝叶斯统计中。在实际应用中，常常使用参数为 $a$ 和 $b$ 的 Beta 分布来避免计算 Beta 函数和 Gamma 函数。