📅  最后修改于: 2023-12-03 15:22:30.479000             🧑  作者: Mango
在统计学中,偏度和峰度都是描述数据分布形态的指标。偏度是描述数据分布偏斜程度的统计量,而峰度则是描述数据分布峰态的统计量。在实际应用中,了解偏度和峰度有助于我们对数据的分布特征进行更深入的分析。
偏度(skewness)是描述数据分布偏斜程度的统计量,表示数据分布的不对称程度。正偏态(正态分布的右侧)的偏度值为正,负偏态(正态分布的左侧)的偏度值为负,而对称分布的偏度值为0。
公式如下:
$$skewness=\frac{\sum_{i=1}^n (x_i-\bar{x})^3}{(n-1)s^3}$$
其中,$x_i$为数据样本,$\bar{x}$为样本均值,$s$为样本标准差,$n$为样本容量。
在Python中,使用scipy.stats
库的skew()
函数可以计算偏度值。
import numpy as np
from scipy.stats import skew
data = np.random.normal(0, 1, 100) # 生成100个正态分布的数据
print(skew(data)) # 输出数据的偏度值
峰度(kurtosis)是描述数据分布峰态的统计量,表示数据分布的峰度程度。峰度值大于3表明分布比正态分布要尖,而峰度值小于3表明分布比正态分布要平缓。
有些统计学家将峰度值减去3,称之为峰度系数(kurtosis coefficient)。这是为了便于将正态分布的峰度系数定义为0。
公式如下:
$$kurtosis=\frac{\sum_{i=1}^n (x_i-\bar{x})^4}{(n-1)s^4}$$
同样地,在Python中,使用scipy.stats
库的kurtosis()
函数可以计算峰度值。
import numpy as np
from scipy.stats import kurtosis
data = np.random.normal(0, 1, 100) # 生成100个正态分布的数据
print(kurtosis(data)) # 输出数据的峰度值
偏度和峰度都是描述数据分布形态的指标,它们之间的区别如下:
在实际应用中,偏度和峰度的计算对于从数据中提取有价值信息尤为重要。通过了解数据的分布特征,我们可以更加深入地分析数据,发现数据的内在规律和特点,有助于我们在数据分析中进行健全的决策。