数学 |概率分布集 3（正态分布）

前两篇文章介绍了两种连续分布：均匀分布和指数分布。本文介绍了正态概率分布，也是一种连续分布，它是迄今为止使用最广泛的连续测量模型。

介绍 –

每当一个随机实验被复制，即在重复等于平均(或总)结果的随机变量趋向于具有正态分布作为重复数变大。
它是概率论和统计学的基石之一，因为它在中心极限定理中扮演着重要角色，并且因为许多现实世界的现象都涉及近似正态的随机量(例如，科学测量中的误差)。
它也被称为其他名称，例如高斯分布、钟形分布。

从上图中可以看出，分布是关于其中心对称的，这也是平均值(在这种情况下为0)。这使得与均值偏差相等的事件发生的概率相等。密度高度以均值为中心，这意味着远离均值的值的概率较低。

概率密度函数-

一般正态分布的概率密度函数如下：
$f_X(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{\frac{-1}{2}\big( \frac{x-\mu}{\sigma} \big)^2}\\$
上式中，所有符号都有其通常的含义， $\sigma$ 是标准差和 $\mu$ 是均值。
当试图一目了然地理解所有内容时，很容易被上述公式淹没，但我们可以尝试将其分解为更小的部分，以便对发生的事情有一个直观的了解。
z 分数是衡量数据点与平均值相差多少标准差的指标。在数学上，
$\text{z-score} = \frac{X-\mu}{\sigma}$
的指数上式中是 z-score 乘以的平方 $\frac{-1}{2}$ .这其实和我们上面的观察是一致的。与均值附近的值相比，远离均值的值具有较低的概率。远离平均值的值将具有较高的 z 分数，因此由于指数为负，因此概率较低。对于接近均值的值，情况正好相反。
这让位于68-95-99.7 规则，该规则指出，在宽度为 2、4 和 6 个标准差的正态分布中，位于均值附近的值的百分比包括 68%、95% 和所有值的 99.7%。下图显示了这个规则——

的影响 $\mu$ 和 $\sigma$ 分布如下图。这里 $\mu$ 用于重新定位分布的中心，从而将图形向左或向右移动，以及 $\sigma$ 用于使曲线变平或膨胀-

期待
期望点击这里或期望值 E[x] 可以通过简单地将概率分布函数乘以 x 并整合所有可能的值来找到
让’X’是一个带参数的正态分布随机变量 $\mu$ 回答 $\sigma^2$ .
我们知道正态分布曲线内的面积或区域为1(因为概率为1)
所以 $\int^{+\infty}_{-\infty}f_X(x)\,dx$ = 1

$E[x] = \frac{1}{\sigma \sqrt{2\pi}} $\int^{+\infty}_{-\infty} x*e^{\frac{-1}{2}\big( \frac{x-\mu}{\sigma} \big)^2}\,dx$$

将 x 写为 (x- $\mu$ ) + $\mu$ 产量

$E[x] = \frac{1}{\sigma \sqrt{2\pi}} $\int^{+\infty}_{-\infty} (x-\mu)*e^{\frac{-1}{2}\big( \frac{x-\mu}{\sigma} \big)^2}\,dx$ + \frac{\mu}{\sigma \sqrt{2\pi}} $\int^{+\infty}_{-\infty} e^{\frac{-1}{2}\big( \frac{x-\mu}{\sigma} \big)^2}\,dx$$

让 y = x- $\mu$

$E[x] = \frac{1}{\sigma \sqrt{2\pi}} $\int^{+\infty}_{-\infty} y*e^{\frac{-1}{2}\big( \frac{y}{\sigma} \big)^2}\,dx$ + $\mu * \int^{+\infty}_{-\infty}f_X(x)\,dx$$

第一个关于 y 轴对称，因此该积分的值为 0。

$E[x] = 0 + $\mu * \int^{+\infty}_{-\infty}f_X(x)\,dx$$

$E[x] = 0 + \mu * 1$

所以，
期待 $E[x] = \mu$

方差= $\sigma^2$

标准差= $\sqrt{variance} = \sigma$

标准正态分布 –

在一般正态分布中，如果Mean设为0，Standard Deviation设为1，那么得到的对应分布称为标准正态分布。
概率密度函数现在变成-
$f_X(x) = \int\limits_{-\infty}^{\infty} \frac{1}{\sigma \sqrt{2\pi}} e^{\frac{-x^2}{2}}$
正态分布的累积密度函数没有给出一个封闭的公式。因此，只要需要，就可以使用表格中预先计算的值。但是这些表只包含标准分布的数据。为了找到一般正态分布的累积概率，首先对其进行标准化，然后使用值表进行计算。
这有两个好处——
1. 首先，只需要一张表来计算所有正态分布的概率。
2. 其次，表格大小限制在40到50行和10列。这是由于上面解释的 68-95-99.7 规则，它表示平均值的 3 个标准偏差内的值占 99.7% 的概率。所以超出 X=3 ( $\mu +3\sigma = 0 + 3*1 = 3$ ) 概率大约为 0。

如果 X 是 E(X)= 的正态随机变量 $\mu$ 和 V(X)= $\sigma ^2$ , 随机变量 $Z = \frac{X-\mu}{\sigma}$ 是 E(Z)=0 且 V(Z)=1 的正态随机变量。也就是说，Z 是一个标准的正态随机变量。

示例 –假设假设电线带中的电流测量值服从均值为 10 毫安且方差为 4(毫安)的正态分布 .测量值超过 13 毫安的概率是多少?
解决方案——让 X 表示以毫安为单位的电流。请求的概率可以表示为 P (X > 13)。
设 Z = (X ? 10) 2. 正态分布现在标准化后，现在可以轻松计算概率 P(X > 13) = P(Z > 1.5)。
查看上表，首先我们在 X 列中找到 1.5，然后由于没有更多有意义的数字，我们在 Y 列中查找 0.00。相应的单元格为我们提供了值 $P(Z \leq 1.5) = 0.93319$
所以，
$P(Z \geq 1.5) = 1 - P(Z \leq 1.5) = 1 - 0.93319 = 0.06681$

期望值、方差、标准差
标准正态随机变量 X 的期望值为
期望值
方差
标准差

GATE CS 角问题

练习以下问题将帮助您测试您的知识。所有问题都在前几年的 GATE 或 GATE 模拟测试中提出。强烈建议您练习它们。

1. GATE CS 2008，问题 29

参考-

正态分布 – 维基百科
68-95-99.7 规则