📅  最后修改于: 2023-12-03 15:33:24.563000             🧑  作者: Mango
Pandas 是 Python 中一个非常常用的数据处理库,它提供了方便的数据结构以及数据分析工具。是数据分析中必不可少的一部分。其中包括了对于偏度和峰态的计算与描述。
在统计学中,偏度是用来判断数据分布形态是否对称的量值。其值可以为正值、负值和 0。若偏度值为 0,说明数据分布是对称的,如正态分布。若偏度值大于 0,说明数据分布呈现右偏。反之,若偏度值小于 0,说明分布为左偏。
峰态是判断数据是否具有突出的峰形态的统计量。峰态偏离 0,表示数据分布比正态分布的峰要陡峭,是“尖峰”的。峰态偏离 0,表示数据分布比正态分布的峰要平坦,是“扁峰”的。若峰态值等于 0,说明数据分布形态与正态分布相同。
在 Pandas 中,计算偏度和峰态都可以使用 skew
和 kurt
函数。
在 Pandas 中,可以通过 Series 的 skew
和 kurt
函数分别计算样本的偏度和峰态。下面是使用 Pandas 计算偏度和峰态的示例:
import pandas as pd
import matplotlib.pyplot as plt
data = [1, 2, 2, 3, 3, 3, 4, 4, 5, 5]
s = pd.Series(data)
# 计算偏度
sk = s.skew()
print("Skewness: %f" % sk)
# 计算峰态
kt = s.kurt()
print("Kurtosis: %f" % kt)
代码输出结果:
Skewness: 0.000000
Kurtosis: -1.440000
从输出结果可以看出,这组数据的是一个中心对称的分布,偏度为 0,而峰态小于 0,说明数据分布比正态分布的峰要平坦,是“扁峰”的。
可以使用 Pandas 和 Matplotlib 来可视化数据分布。下面是一个简单的示例:
import seaborn as sns
sns.distplot(s, kde=False, rug=True)
plt.show()
代码输出结果:
从图中可以看出,这组数据呈现出一个中心对称的分布。