📜  统计数据分布介绍(1)

📅  最后修改于: 2023-12-03 14:56:56.528000             🧑  作者: Mango

统计数据分布介绍

什么是数据分布

在统计学中,数据分布是指数据集中在各个值之间的频率或概率的分布情况。一个数据集的分布可以用它的统计特征来描述,例如中心位置、离散程度和偏斜程度等。

常见的数据分布
正态分布

正态分布是最常见的概率分布之一,其特点是呈钟形曲线,具有对称性和唯一的峰值。它可以通过均值和标准差来描述。

from scipy.stats import norm
import numpy as np

# 生成一个正态分布的随机数
x = np.random.normal(loc=0, scale=1, size=1000)

# 计算均值和标准差
mu, sigma = norm.fit(x)

# 绘制概率密度函数
plt.hist(x, bins=30, density=True, alpha=0.6, color='g')
xmin, xmax = plt.xlim()
x = np.linspace(xmin, xmax, 100)
y = norm.pdf(x, mu, sigma)
plt.plot(x, y, 'r--', linewidth=2)
plt.xlabel('X axis')
plt.ylabel('Y axis')
plt.title('Normal Distribution')
plt.show()

Normal Distribution

卡方分布

卡方分布是一种连续的概率分布,它在统计学中有广泛的应用,例如计算假设检验中的p值。它的形状取决于自由度的数量。

from scipy.stats import chi2
import numpy as np

# 生成一个卡方分布的随机数
x = np.random.chisquare(df=5, size=1000)

# 绘制概率密度函数
plt.hist(x, bins=30, density=True, alpha=0.6, color='g')
xmin, xmax = plt.xlim()
x = np.linspace(xmin, xmax, 100)
y = chi2.pdf(x, df=5)
plt.plot(x, y, 'r--', linewidth=2)
plt.xlabel('X axis')
plt.ylabel('Y axis')
plt.title('Chi-Square Distribution')
plt.show()

Chi-Square Distribution

泊松分布

泊松分布是一种描述稀有事件发生的概率分布,例如年度交通事故的数量。它的参数为平均事件率。

from scipy.stats import poisson
import numpy as np

# 生成一个泊松分布的随机数
x = np.random.poisson(lam=5, size=1000)

# 绘制概率密度函数
plt.hist(x, bins=30, density=True, alpha=0.6, color='g')
xmin, xmax = plt.xlim()
x = np.linspace(xmin, xmax, 100)
y = poisson.pmf(x, mu=5)
plt.plot(x, y, 'r--', linewidth=2)
plt.xlabel('X axis')
plt.ylabel('Y axis')
plt.title('Poisson Distribution')
plt.show()

Poisson Distribution

总结

在数据分析中,深入了解不同的数据分布是非常重要的。掌握各种分布模型的统计特征和生成方法可以帮助我们更好地分析和解释数据。