📜  R 编程中的分层箱线图(1)

📅  最后修改于: 2023-12-03 15:04:46.151000             🧑  作者: Mango

R 编程中的分层箱线图

箱线图

箱线图(Box plot),是一种用来表示一组连续数据分布情况的统计图。

箱线图由五个数值点组成,分别是最小值、第一四分位数(Q1)、中位数、第三四分位数(Q3)和最大值。箱体由 Q1 到 Q3 组成,箱体内部的线表示中位数,箱体上下的线分别为最大值和最小值。箱体外侧的点称为离群点(outlier)。

在 R 编程中,我们可以使用 boxplot() 函数来绘制箱线图。

# 示例:绘制种子数据的箱线图
data(iris)
boxplot(iris$Sepal.Length, main = "Sepal Length Boxplot")
分层箱线图

分层箱线图用于展示不同组别的数据之间的比较。在 R 编程中,我们可以使用 boxplot() 函数的 formula 参数来绘制分层箱线图。

# 示例:绘制不同品种 iris 花萼长度的分层箱线图
data(iris)
boxplot(Sepal.Length ~ Species, data = iris, 
        main = "Sepal Length Boxplot by Species", 
        ylab = "Sepal Length", xlab = "Species")

上述代码中,Sepal.Length ~ Species 表示将 iris 数据集按 Species 变量分组,并绘制 Sepal.Length 变量的箱线图。通过 mainylabxlab 参数可以设置标题、纵坐标和横坐标的显示文字。

分层箱线图还可以添加组内和组间的标记和标题等元素,以方便观察和分析。下面是一个示例代码:

# 示例:绘制不同品种 iris 花萼长度的分层箱线图,并添加标记和标题
data(iris)
boxplot(Sepal.Length ~ Species, data = iris, 
        main = "Sepal Length Boxplot by Species", 
        ylab = "Sepal Length", xlab = "Species",
        col = c("#00AFBB", "#E7B800", "#FC4E07"),
        notch = TRUE,
        notchwidth = 0.5,
        whisklty = 2,
        boxwex = 0.5,
        ylim = c(4, 8),
        names = c("Iris setosa", "Iris versicolor", "Iris virginica"),
        sub = "Data Source: iris dataset")

上述代码中,col 参数用于设置不同组的颜色,notch 参数用于在箱体中添加缺口以显示置信区间,whisklty 参数用于设置最大和最小值的线型,boxwex 参数用于设置箱体的宽度,ylim 参数用于设置纵坐标的范围,names 参数用于设置组名,sub 参数用于添加标题下方的文字,以便更好地解释数据来源。

总结

分层箱线图可以用于比较不同组别的数据分布情况,通过添加标记和标题等元素可以更好地展示数据。在 R 编程中,我们可以使用 boxplot() 函数的 formula 参数来绘制分层箱线图,并通过其他参数来控制图形元素的样式和显示方式。