分布仅意味着对变量的数据或分数的收集或收集。通常,所有这些分数都是按照从小到大的特定顺序排列的。然后可以以图形方式呈现这些分数。许多数据符合众所周知和高度理解的数学函数的规则。
函数通常可以通过对函数参数进行一些修改和更改来拟合数据。一旦知道并确定了分布函数,就可以将其用作描述和计算相关量的简写。这些量可以是观察的可能性,以及绘制域中观察之间的关系。
分布通常用它们的密度或密度函数来描述。密度函数被简单地描述为解释数据比例或观测比例的可能性如何在广泛分布范围内变化的函数。密度函数有两种类型——
- 概率密度函数(PDF) –
它计算观察给定值的概率。 - 累积密度函数(CDF) –
它计算观察值等于或小于值的概率。
PDF 和 CDF 都是连续函数类型。对于离散分布,PDF 的等价物称为概率质量函数(PMF)。
统计数据分布的类型:
- 高斯分布 –
它以卡尔·弗里德里希·高斯的名字命名。高斯分布是许多统计领域的焦点。它也被称为正态分布。使用高斯分布,可以描述来自不同研究领域的数据。通常,高斯分布使用两个参数来描述:- 意思 :
它用希腊小写字母“mu”表示。它是分布的期望值。 - 差异:
它用希腊小写字母“sigma”表示为二次方(这是因为变量的单位是平方的。)。它通常描述观测值从均值的分布。使用称为标准偏差的标准化方差计算非常常见且易于使用。标准偏差用希腊小写字母“sigma”表示。它通常描述观测值从均值的归一化分布。
例子 –
下面给出的示例创建高斯 PDF,样本空间从 -5 到 5,平均值为 0,标准偏差为 1。具有这些平均值和标准偏差值的这种类型的高斯称为标准高斯。高斯概率密度函数线图的Python代码:
# plot the gaussian pdf from numpy import arrange from matplotlib import pyplot from scipy.stats import norm # define the distribution parameters sample_space= arange (-5, 5, 0.001) mean= 0.0 stdev= 1.0 # calculate the pdf pdf= norm.pdf (sample_space, mean, stdev) # plot pyplot.plot (sample_space, pdf) pyplot.show ()
当我们运行上面的示例时,它会创建线图,显示 x 轴上的样本空间和 Y 轴每个值的可能性。线图通常显示和代表熟悉的高斯分布钟形。
在此图中,钟形顶部显示预期值或均值,其中为零,因为我们在创建分布时已经指定了它。
- 意思 :
- T-分布 –
它以威廉·西利·戈塞特 (Willian Sealy Gosset) 的名字命名。当我们试图找出不同大小样本的正态分布的均值时,通常会出现 T 分布。当必须考虑样本大小时,它在描述与估计或找出从高斯分布中提取的数据的总体统计数据相关的不确定性或错误时非常有用。 T 分布可以使用单个参数来描述。自由度数:
它用希腊小写字母“nu (v)”表示。它只是表示自由度的数量。自由度数一般解释用于描述人口数量的信息条数。例子 –
下面给出的示例使用从 -5 到 5 和 (10, 000-1) 自由度的样本空间创建 t 分布。学生 t 分布概率密度函数线图的Python代码:
# plot the t-distribution pdf from numpy import arange from matplotlib import pyplot from scipy.stats import t # define the distribution parameters sample_space= arange (-5, 5, 0.001) dof= len(sample_space) - 1 # calculate the pdf pdf= t.pdf (sample_space, dof) # plot pyplot.plot (sample_space, pdf) pyplot.show ()
当我们运行上面的示例时,它会创建并绘制 t 分布 PDF。
您可以看到与正常分布非常相似的钟形分布。主要区别是分布的尾部更胖,与高斯分布相比,尾部观察的可能性增加。