📅  最后修改于: 2023-12-03 15:27:26.755000             🧑  作者: Mango
箱形图(Box plot)是一种数据可视化的统计图形,它展示了一组数据的分布情况,包括中位数、四分位数、离群值等信息。箱形图由五个主要的统计量构成:最小值、第一四分位数(Q1)、中位数、第三四分位数(Q3)和最大值。箱形图能够有效地帮助分析者从数据分布的角度识别出异常值和离群值,也能够展示出不同数据集之间的差异和相似之处。
箱形图可分为两部分:箱体和须线。
箱体由第一四分位数(Q1)和第三四分位数(Q3)之间的区间构成,中间有一条线代表着中位数。
箱体外的直线称为须线。通常情况下,箱形图有两条须线,分别从箱体的上下边缘伸出,长度相等。须线的末端的点代表可能的离群值。根据统计学的定义,离群值定义为小于 Q1-1.5×IQR 或大于 Q3+1.5×IQR 的值,其中 IQR 为四分位距。
箱形图中的点表示离群值。离群值是一种异常值,不符合正常数据分布的数据点,有可能是由于数据采集或处理的错误导致的。
在 Python 中,我们可以使用 matplotlib 库来生成箱形图。下面是一个简单的例子:
import matplotlib.pyplot as plt
import numpy as np
data = [np.random.normal(0, std, 100) for std in range(1, 4)]
fig, ax = plt.subplots()
ax.boxplot(data)
plt.show()
这段代码生成了三个均值分别为 0、1、2 的正态分布数据集,然后生成了一个箱形图。
箱形图可以帮助我们更好地理解数据的分布,发现其中的异常值和离群值,以及识别不同数据集之间的差异和相似之处。在实际的数据分析中,箱形图应该是你工具箱中的必备工具之一。