📅  最后修改于: 2023-12-03 15:41:18.549000             🧑  作者: Mango
在统计学中,偏度(skewness)是用来描述概率分布偏斜程度的统计量。偏度描述的是分布的对称性。
偏度的计算有多种方法,其中最常用的一种是基于样本的偏度(即样本偏度)。给定样本 $X_{1},X_{2},\cdots,X_{n}$,其样本偏度 $g_{1}$ 定义为:
$$g_{1} = \frac{\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\bar{X})^{3}}{[\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}]^{\frac{3}{2}}}$$
其中,$\bar{X}$ 表示样本的平均值。
当偏度值 $g_{1}$ 为正时,称其为正偏(或右偏),表示分布的尾部在正方向(即大于平均值)延伸更长,分布整体向左偏。
当偏度值 $g_{1}$ 为负时,称其为负偏(或左偏),表示分布的尾部在负方向(即小于平均值)延伸更长,分布整体向右偏。
当偏度值 $g_{1}$ 接近于0时,称其为近似对称,表示分布相对平坦。
使用 Python 可以通过 scipy 库中的 skew 函数计算偏度值。下面是一个计算样本数据偏度的例子:
import numpy as np
from scipy.stats import skew
sample_data = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
g1 = skew(sample_data)
print("样本数据偏度值为:", g1)
运行结果:
样本数据偏度值为: 0.0
可以看出,这是一个几乎近似对称的数据集,其偏度值接近于0。
偏度是描述数据分布偏斜程度的重要指标,可以通过样本偏度计算得到。合理解读偏度值可以对数据的深入分析提供帮助。