箱线图是一种有助于数据可视化的统计图。它用于使用各种四分位数显示数值数据的分布。它们如下:
- 下极值:它是数据集中位于须线末端的最小值。
- 第一四分位数:它也被称为下四分位数,其中 25% 的分数低于它。
- 中位数:基本上是将盒子分成两等分的中点。它也被称为第二四分位数。
- 第三四分位数:也称为上四分位数,其中 25% 的数据高于它,其余 75% 的数据低于它。
- 四分位距:显示箱线图的中间部分,占分数的 50%。它缩写为IQR 。
- 上极值:数据集中位于须线末端的最大值。
- 晶须:上下两个晶须基本上表示IQR范围之外的值或分数的50%。
- 离群值:箱线图中位于须线之外的点。
获取有关箱线图更多见解的一些重要链接:
- 箱形图
- 使用Python绘制箱线图
- R中的箱线图
- 什么是箱线图和异常值的条件?
- 通过可视化了解不同的箱线图
在本文中,我们将通过一个合适的示例了解如何创建箱线图以及如何在 Excel 中找到与箱线图相关的重要参数。
示例:考虑来自 A-1 部分和 A-2 部分的 10 名学生的 BMI。 BMI代表Body Mass Index,它是根据一个人的身高和体重来判断一个人的身体脂肪和健康状况的重要参数。
创建箱线图的步骤:
- 在单元格中插入数据,如上所示。
- 选择数据并转到 Excel 窗口顶部的“插入”选项卡。
- 现在单击统计图表菜单。将发生下拉。
- 现在选择盒须图。
默认情况下,箱线图将不包括平均值。为了使它包含 mean :
- 选择箱线图。
- 右键单击并选择格式化数据系列。
- 在“格式数据系列”对话框中,选中“四分位数计算”中的“包含平均值” 。
要格式化箱线图,请使用图表右上角的+符号,如下所示:
选中“数据标签”选项以在箱线图中添加数据标签并使图表更具洞察力。
您可以使用以下部分检查数据标签值,我们将在其中讨论如何使用 Excel 公式计算这些参数。
计算与箱线图相关的参数的公式:
为了计算不同的四分位值,请使用以下公式:
= QUARTILE.INC(Cell_Range, integer)
这里,
- 单元格范围:单元格范围。在我们的例子中,A-1 部分是 A2 到 A11,A-2 部分是 B2 到 B11
- 整数:[0,4]
Quartile Values | Formula |
---|---|
Lower Extreme | =QUARTILE.INC(Cell_Range, 0) |
Q1 | =QUARTILE.INC(Cell_Range, 1) |
Median | =QUARTILE.INC(Cell_Range, 2) |
Q3 | =QUARTILE.INC(Cell_Range, 3) |
Upper Extreme | =QUARTILE.INC(Cell_Range, 4) |
在Excel中制作一个辅助表来计算上述公式。辅助表可用于解释我们的箱线图和值。
同样,您可以计算两个部分的所有其他参数。决赛桌将如下所示:
箱线图中的其他一些重要参数是(1) 均值 (2) 范围。公式是:
= AVERAGE(Cell_Range)
= (Upper Extreme - Lower Extreme)
箱线图中的另一个重要参数是离群值,它取决于四分位距 (IQR)的值。 IQR 的公式为:
IQR = Quartile_3 - Quartile_1
在我们的示例中,IQR 的值为 6.6,您可以从辅助表中计算出该值。现在,如果值为:
below (Quartile_1 - IQR*1.5) and
above (Quartile_3 + IQR*1.5)
在 A-1 部分的给定示例中,我们在 50 处有一个异常值,这是 BMI 的最大值。计算后的值将是:
IQR * 1.5=9.9
Q3 + IQR * 1.5 = 34.5
Since, 50 > 34.5 so it is in the outlier of the box plot.
同样,您可以计算第二个箱线图的上述参数,您可以观察到所有五个参数都在范围内,因此没有异常值。
为了删除 Box plot-1 中的异常值,您必须将最大值从 50 修改为小于或等于 34.5 的任何值。