📜  什么是箱线图?(1)

📅  最后修改于: 2023-12-03 14:49:13.720000             🧑  作者: Mango

什么是箱线图?

箱线图是一种用于展示数据分布情况的统计图表,也叫盒须图或盒式图。它能够显示出一组数据的最大值、最小值、中位数、上四分位数和下四分位数等重要统计量。通过箱线图,我们不仅可以看到数据的离散情况和偏态程度,还能用来比较不同数据集之间的差异。

箱线图的结构

箱线图一般包含以下几个部分:

  • 最大值和最小值,用一条粗实线连接。
  • 上四分位数(Q3)和下四分位数(Q1),用两条水平的粗实线连接,在这两条线之间的区域称为“箱子”。
  • 中位数,用一条垂直的粗实线表示。
  • 异常值,用小圆点表示,位于最大值和最小值之外的数据点。

下面是一个例子:

boxplot_example

如何使用箱线图
Python

在 Python 中,我们可以使用 matplotlib 库来画箱线图。具体实现代码如下:

import matplotlib.pyplot as plt
import numpy as np

# 生成随机数据
np.random.seed(10)
data = np.random.normal(100, 20, 200)

# 画箱线图
plt.boxplot(data)
plt.show()

运行代码后,可以得到如下图:

python_boxplot_example

R

在 R 中,我们可以使用 ggplot2plotly 库来画箱线图。具体实现代码如下:

# 使用 ggplot2
library(ggplot2)

# 生成随机数据
set.seed(10)
data <- rnorm(200, mean = 100, sd = 20)

# 画箱线图
ggplot(data = data, aes(x = "", y = data)) + 
  geom_boxplot() +
  coord_flip()

# 使用 plotly
library(plotly)

# 画箱线图
plot_ly(y = ~data, type = "box")

运行代码后,可以得到如下图:

r_boxplot_example

箱线图的应用场景

箱线图常用于以下几个场景:

  • 数据探索:可以通过箱线图来识别数据中的异常值和是否需要进行数据清洗。
  • 数据比较:可以通过多个箱线图的比较来发现不同数据集之间的差异。
  • 数据可视化:在报告或展示中,箱线图通常会与其他图表一起使用,以更全面地展示数据分布的情况。
总结

箱线图是一种重要的统计图表,通过它我们不仅可以看到数据的分布情况,还能用来比较不同数据集之间的差异。在实际应用中,我们可以使用 Python 或 R 等编程语言来画箱线图,以满足不同研究和分析需求。