📜  什么是箱线图?

📅  最后修改于: 2022-05-13 01:54:17.062000             🧑  作者: Mango

什么是箱线图?

箱线图基本上是一个区间尺度,用于执行估计,它必须执行数据的抽象。箱线图用于解释和分析数据。它还可以用于可视化数据。箱线图是图形方法的一种变体,用于说明数据分布中数据的变化。也可以使用直方图来显示数据。但是,如果我们比较箱形图和直方图,后者提供了足够的显示。它还提供与显示在同一图表中的多组数据相对应的附加信息。

箱线图必须用于以下情况:

  • 分布形状
  • 中心价值
  • 变化性

在为箱线图绘制图表时,会勾勒出从第一个四分位数到第三个四分位数的框。穿过此绘制框的垂直线对应于数据分布的中值。称为胡须的小线从每个四分位数朝向最小值或最大值。这个概念如下图所示:

箱线图的特点

  • 它展示了来自五个数字的汇总数据,该汇总还包括集中趋势的度量之一。这意味着它有五个信息。
  • 特别用于反映给定的数据集是否为偏态分布。
  • 它还提供了对数据集的洞察,即是否存在潜在的异常观察。这些被称为异常值。
  • 它反映了有关数据如何分布的信息。
  • 这里,布置可以相互匹配。这是因为,在箱线图的情况下,中心、散布和整体范围立即显而易见。
  • 它对于描述性数据解释特别有用。
  • 它也用于涉及或比较大量数据收集的情况。

盒须图的元素

构建盒须图异常值所需的元素如下:

最小值(Q 0或第 0 个百分位数):给定数据集分布中的最小指定值,显示在最左端。

第一个四分位数(Q 1或第 25 个百分位数):左侧的第一个四分位数 (Q 1 ),对应于最小值和中位数之间的区域。

中位数(Q 2或第 50 个百分位数):中位数,由对应于框中心的线表示。

第三四分位数(Q 3或第 75 个百分位数):右侧的第三四分位数 (Q 3 ),对应于中位数和最大值之间的区域。

最大值(Q 4或第 100 个百分位数):给定数据集分布中的最大指定值,显示在最右端。

四分位距:四分位距 (IQR) 是上四分位数和下四分位数之间的差,即 Q 3和 Q 1

构建箱线图?

可以使用以下步骤构建箱须图:

  1. 指定数据集中的最小值称为最小值。
  2. 对应于包含数据的下 25% 以下的值。它被称为第一四分位数。
  3. 第三个值对应于给定数据的中位数。
  4. 对应于包含数据的下 25% 以上的值。它被称为第三四分位数。
  5. 指定数据集中的最大值称为最大值。

应用

箱线图可用于了解以下组件:

  • 异常值及其值
  • 紧密的数据分组
  • 数据对称
  • 数据偏度

示例问题

问题 1. 计算

  • 最大值,
  • 最小值,
  • 中位数,
  • 第一个四分位数,
  • 第三四分位数

从这个给定的数据:

2、7、19、12、23、15、26。

解决方案:

问题 2. 绘制给定数据的箱线图:

2、17、20、5、3、13、15、9、11

解决方案:

问题 3. 提到 Box Plot 的优点

解决方案:

问题 4. 提到 Box Plot 的缺点

解决方案:

问题 5. 计算

  • 最大值,
  • 最小值,
  • 中位数,
  • 第一个四分位数,
  • 第三四分位数

从这个给定的数据:

5、7、2、19、25、18、26、9、11。

解决方案: