📜  概率分布

📅  最后修改于: 2022-05-13 01:54:14.306000             🧑  作者: Mango

概率分布

随机变量的概率分布显示了随机变量的不同值的概率是如何分布的。当随机变量的所有值在图上对齐时,其概率值会生成一个形状。概率分布有几个可以测量的属性(例如:期望值和方差)。

在概率分布中,随机变量的结果是不确定的。在这里,结果的观察被称为实现。它是将样本空间映射到实数空间(称为状态空间)的函数。它们可以是离散的或连续的。

随机变量

随机变量是概率和统计学中的一个重要概念。我们需要直观地和数学地理解它,以更深入地了解日常生活中我们周围的概率分布。

有时我们不仅对实验中事件的概率感兴趣,而且对与实验相关的一些数字感兴趣。这是我们觉得需要随机变量的时候。

让我们举一个抛硬币的例子。我们将从掷硬币开始找出答案。我们将使用 H 表示“正面”,使用 T 表示“反面”。

所以现在我们抛硬币 5 次,我们想回答一些问题。

那么我们的一般写作方式是:

在不同的场景中,假设我们正在掷两个骰子,并且我们想知道得到两个数字之和为 6 的概率。

因此,在这两种情况下,随机变量都会帮助我们。首先,让我们在数学上定义什么是随机变量。

定义

它是为每个可能的结果分配一个值(数字)。用更数学的术语来说,它是从样本空间 Ω 到实数的函数。我们可以根据需要选择我们的随机变量。

为了更直观,让我们考虑连续抛硬币两次的实验。

实验的样本空间为S = {HH, HT, TH, TT} 。让我们根据需要定义一个随机变量来统计正面或反面的事件,让X表示获得正面的数量。对于每个结果,其值如下所示:

在同一个样本空间中可以定义多个随机变量。例如,让Y表示上述样本空间 S 的每个结果的正面数量减去反面数量。

因此, XY是在同一样本上定义的两个不同的随机变量。

概率分布中随机变量的类型

  • 离散随机变量
  • 连续随机变量

概率分布中的离散随机变量

离散随机变量只能取有限数量的值。为了进一步理解这一点,让我们看一些离散随机变量的例子:

  1. X = {掷两个骰子时的结果之和}。在这里,X 只能取 {2, 3, 4, 5, 6....10, 11, 12} 之类的值。
  2. X = {100 次抛硬币的正面数}。在这里,X 只能取 [0,100] 中的整数值。

概率分布中的连续随机变量

连续随机变量可以在连续域中取无限值。让我们看一个dart游戏的例子。

假设我们有一个dart游戏,我们在其中投掷dart,dart可以落在 x 轴上 [-1,1] 之间的任何位置。因此,如果我们将随机变量定义为dart位置的 x 坐标,则 X 可以取 [-1,1] 中的任何值。 X 可以取无限多个可能的值。 (X = {0.1, 0.001, 0.01, 1,2, 2.112121 .... 等等}。

随机变量的概率分布

现在问题来了,如何描述随机变量行为?

假设我们的随机变量只取有限值,如 x 1 、 x 2 、 x 3 ...。和 x n 。也就是说, X的范围是n个值的集合是{x 1 , x 2 , x 3 ...。和 x n }。

因此, X的行为完全通过给出随机变量X的所有值的概率来描述

EventProbability
x1Pr(X = x1)
x2Pr(X = x2)
x3Pr(X = x3)

离散随机变量 X 的概率函数是函数p(x) 满足

p(x) = Pr(X = x)

让我们看一个例子:

问题:我们从一副洗好的 52 张牌中依次抽出两张牌。找出找到 A 的概率分布。

回答:

012
Pr\frac{144}{169}\frac{24}{169}\frac{1}{169}

随机变量的期望(均值)和方差

假设我们正在执行一个概率实验,并且我们已经根据我们的需要定义了一些随机变量 (RV)(就像我们在前面的一些示例中所做的那样)。现在,每次进行实验时,我们的 RV 都会采用不同的值。但是我们想知道,如果我们继续做一千次或无限次的实验,随机变量的平均值是多少?

期待

随机变量X的均值、期望值或期望值写为 E( X ) 或\mu_{\textbf{X}}   .如果我们观察到X的 N 个随机值,那么对于大的 N,N 个值的平均值将近似等于 E(X)。

为了更直观地看到它,让我们看一下下面的这张图,

现在在上图中,我们可以看到两个随机变量的“均值”几乎相同,但这是否意味着它们相等?不。要完全描述随机变量的属性/行为,我们需要更多的东西,对吧?

我们需要看一下概率分布的分散性,其中一个是集中的,而另一个在单个值附近非常分散。所以我们需要一个度量来衡量图中的离散度。

方差

在统计学中,我们研究过方差是数据中散布或分散的量度。同样,随机变量值的可变性或分布可以通过方差来衡量。

让我们通过一个例子来计算一个随机变量概率分布的均值和方差:

问题:求掷出无偏骰子所获得数字的方差和均值。

回答:

不同类型的概率分布

我们已经看到了概率分布是什么,现在我们将看到不同类型的概率分布。概率分布类型由随机变量的类型决定。有两种类型的概率分布:

  • 离散变量的离散概率分布
  • 连续变量的概率密度函数

我们将详细研究两种类型的离散概率分布,其他的不在第 12 课的范围内。

离散概率分布

离散概率函数采用离散数量的值。例如,抛硬币和事件计数是离散函数。这些是离散分布,因为没有中间值。我们可以在抛硬币中有正面或反面。

对于离散概率分布函数,每个可能的值都有一个非零概率。此外,随机变量的所有值的概率之和必须为 1。例如,在骰子上滚动特定数字的概率是 1/6。所有六个值的总概率等于一。当我们掷骰子时,我们只能得到这些值中的一个。

伯努利试验和二项分布

许多实验只有两种结果之一。例如,投掷的硬币显示“头”或“尾”,制成品可以是“有缺陷的”或“无缺陷的”。在这些情况下,我们可以称其中一个结果为“成功”,另一个为“失败”。假设在抛硬币实验中,如果出现正面被认为是成功的,那么出现尾部是失败的。

每次我们掷硬币或掷骰子或进行任何其他实验时,我们都称其为试验。现在我们知道,在我们的掷硬币试验中,任何试验的结果都独立于任何其他试验的结果。在每次这样的试验中,成功或失败的概率保持不变。这种只有两种结果的独立试验通常称为“成功”或“失败”,称为伯努利试验。

定义:

我们以掷骰子的实验为例,掷骰子50次可以认为是50次伯努利试验的情况,每次试验的结果要么成功(假设得到偶数为成功)要么失败(同样,获得奇数是失败),并且成功的概率(p)对于所有 50 次投掷都是相同的。显然,连续掷骰子是独立的试验。如果骰子是公平的并且有六个数字 1 到 6 写在六个面上,那么 p = 1/2 和 q = 1 – p =1/2 = 失败的概率。

问题:一个瓮中有 8 个红球和 10 个黑球。我们从罐子里依次抽出六个球。当每次抽球后,你必须判断抽球试验是否是伯努利试验,抽出的球是:

  1. 更换
  2. 没有被替换在骨灰盒中。

回答:

二项分布

它是一个随机变量,表示在伯努利实验的“N”次连续独立试验中成功的次数。它用于大量实例,例如包括“N”次硬币翻转中正面的数量等等。

让 P 和 Q 表示伯努利试验的成功和失败。假设我们有兴趣找到在所有六次试验中取得 1 次成功的不同方法。

显然,有以下六种情况可供选择:

PQQQQQ、QPQQQQ、QQPQQQ、QQQPQQ、QQQQPQ、QQQQQP

同样,将显示 2 个成功和 4 个失败\frac{6!}{4! 2!}   组合。这么多组合很难一一列举。此后,计算 0、1、2、...、n 次成功的概率可能会很长且很耗时。为了避免如此冗长的计算以及列出所有可能的情况,对于 n-Bernoulli 试验中成功次数的概率,制定了一个公式:

如果 Y 是二项式随机变量,我们将这个 Y∼ Bin(n, p) 表示,其中 p 是给定试验中成功的概率,q 是失败的概率,设“n”是试验的总数,并且'x' 是成功的次数。二项式随机变量具有以下性质:

P(Y) = n C x q n–x p x

现在概率函数P(Y) 被称为二项分布的概率函数。

问题:当一个公平的硬币被抛 10 次时,概率:

  1. 正好六个头
  2. 至少六个头

答案