📜  统计数据分布简介

📅  最后修改于: 2021-08-24 04:33:12             🧑  作者: Mango

分布只是意味着收集或收集有关变量的数据或分数。通常,所有这些分数均按从小到大的特定顺序排列。然后,可以以图形方式显示这些分数。许多数据符合数学函数的知名度和高度理解的规则。

函数通常可以通过对函数的参数进行一些修改和更改来拟合数据。一旦知道并确定了分布函数,就可以将其用作描述和计算相关数量的简写。这些数量可以是观察值的可能性,也可以是域中观察值之间的关系图。

通常根据其密度或密度函数来描述分布。密度函数被简单地描述为解释数据比例或观测比例可能性在广泛分布范围内如何变化的函数。密度函数有两种类型–

  • 概率密度函数(PDF)–
    它计算观察给定值的概率。
  • 累积密度函数(CDF)–
    它计算观察值等于或小于值的概率。

PDF和CDF都是连续函数的类型。对于离散分布,等效的PDF称为概率质量函数(PMF)。

统计数据分布的类型:

  1. 高斯分布–
    它以卡尔·弗里德里希·高斯(Carl Friedrich Gauss)的名字命名。高斯分布是许多统计领域的重点。也称为正态分布。使用高斯分布,可以描述来自不同研究领域的数据。通常,使用两个参数来描述高斯分布:
    • 吝啬的 :
      用希腊小写字母“ mu”表示。是分配的期望值。
    • 方差:
      用希腊小写字母“ sigma”升至第二幂表示(这是因为变量的单位是平方的)。它通常从均值描述观察范围。

      使用称为标准偏差的标准化方差计算非常普遍且容易使用。标准差用希腊小写字母“ sigma”表示。它通常从均值描述观测值的归一化分布。

    例子 –
    下面给出的示例创建样本空间为-5到5,平均值为0,标准偏差为1的高斯PDF。具有平均值和标准偏差的这些高斯类型称为标准高斯

    高斯概率密度函数线图的Python代码:

    # plot the gaussian pdf
    from numpy import arrange
    from matplotlib import pyplot
    from scipy.stats import norm
    # define the distribution parameters 
    sample_space= arange (-5, 5, 0.001)
    mean= 0.0
    stdev= 1.0
    # calculate the pdf
    pdf= norm.pdf (sample_space, mean, stdev)
    # plot
    pyplot.plot (sample_space, pdf)
    pyplot.show ()
    

    当我们在上面的示例中运行时,它将创建一条线形图,该线形图在x轴上显示样本空间,并在Y轴上显示每个值的可能性。线图通常显示并代表高斯分布的熟悉的钟形。

    在该图中,钟形图顶部显示了期望值或均值,在期望值或均值中为零,因为我们在创建分布时已经指定了期望值或均值。

  2. T-分布–
    它以威利安·西利·戈塞特(Willian Sealy Gosset)的名字命名。当我们尝试找出不同大小样本的正态分布均值时,通常会出现T分布。当必须考虑样本大小时,在描述与估计或找出高斯分布数据相关的总体统计信息的不确定性或误差时,这将非常有帮助。 T分布可以使用单个参数来描述。自由度数:
    用希腊小写字母“ nu(v)”表示。它只是表示自由度的数量。自由度数量通常解释用于描述人口数量的信息数量。

    例子 –
    下面给出的示例创建t分布,样本空间为-5到5,自由度为(10,000-1)。

    学生t分布概率密度函数的线图的Python代码:

    # plot the t-distribution pdf
    from numpy import arange
    from matplotlib import pyplot
    from scipy.stats import t
    # define the distribution parameters 
    sample_space= arange (-5, 5, 0.001)
    dof= len(sample_space) - 1
    # calculate the pdf
    pdf= t.pdf (sample_space, dof)
    # plot
    pyplot.plot (sample_space, pdf)
    pyplot.show () 

    当我们在上面的示例中运行时,它将创建并绘制t分布PDF。

    您会看到类似的钟形分布,就像正常情况一样。主要的区别是尾部分布更胖,这表明与高斯分布相比,尾部观察的可能性更高。