📜  箱形图

📅  最后修改于: 2022-05-13 01:58:08.710000             🧑  作者: Mango

箱形图

箱线图:它是一种图表,通过四分位数描述一组数值数据。这是一种可视化数据形状的简单方法。它使比较类别之间的数据特征变得非常容易。

在本文中,我们将讨论以下主题-

  1. 了解箱线图的组成部分
  2. 如何创建箱线图
  3. 箱线图的用途
  4. 如何比较箱线图

让我们一步一步地进行

1) 了解箱线图的组成部分

箱线图给出了一组数据的五位数总结,它是-



  • 最小值- 它是数据集中不包括异常值的最小值
  • 第一四分位数 (Q1) – 25% 的数据低于第一(下)四分位数。
  • 中位数 (Q2) – 它是数据集的中点。一半的值低于它,一半高于它。
  • 第三四分位数 (Q3) – 75% 的数据低于第三(上)四分位数。
  • 最大值- 它是数据集中不包括异常值的最大值。

注意:上图中显示的箱线图是一个没有偏斜的完美图。这些图可能有偏度,中位数可能不在框的中心。

框内的区域(数据的 50%)称为四分位距。 IQR计算为 –

IQR = Q3-Q1

离群值是低于和高于下限和上限的数据点。下限和上限计算如下:

Lower Limit = Q1 - 1.5*IQR
Upper Limit = Q3 + 1.5*IQR

低于和高于这些限制的值被视为异常值,最小值和最大值是根据位于下限和上限以下的点计算的。

2) 如何创建箱线图

让我们拿一个样本数据来了解如何创建箱线图。

以下是板球队在 12 场联赛中的得分 - 100,120,110,150,110,140,130,170,120,220,140,110。



要首先为给定数据绘制箱线图,我们需要按升序排列数据,然后找到最小值、第一个四分位数、中位数、第三个四分位数和最大值。

Ascending Order - 
100,110,110,110,120,120,130,140,140,150,170,220

Median (Q2) = (120+130)/2 = 125   ; Since there were even values

为了找到第一个四分位数,我们取前六个值并找到它们的中位数。

Q1 = (110+110)/2 = 110

对于第三个四分位数,我们取接下来的六个并找到它们的中位数。

Q3 = (140+150)/2 = 145

注意:如果值的总数是奇数,那么我们在计算 Q1 和 Q3 时排除中位数。由于有两个中心值,我们将它们包括在内。

现在,我们需要计算四分位距。

IQR = Q3-Q1 = 145-110 = 35

我们现在可以计算上限和下限以找到最小值和最大值以及异常值(如果有)。

Lower Limit = Q1-1.5*IQR = 110-1.5*35 = 57.5
Upper Limit = Q3+1.5*IQR = 145+1.5*35 = 197.5

因此,对于我们给定的数据,范围 [57.5,197.5] 之间的最小值和最大值是 –

Minimum = 100
Maximum = 170

超出此范围的异常值是——

Outliers = 220

现在我们有了所有的信息,所以我们可以绘制如下的箱线图——



从图中我们可以看出,中位数并不完全位于盒子的中心,一个须比另一个长。我们也有一个异常值。

3) 箱线图的使用

  • 箱线图提供了数据的可视化摘要,我们可以通过它快速识别数据的平均值、数据的分散程度、数据是否偏斜(偏斜)。
  • 中位数为您提供数据的平均值。
  • 箱线图显示数据的偏度-
a) If the Median is at the center of the Box and the whiskers are almost the 
   same on both the ends then the data is Normally Distributed.
b) If the Median lies closer to the First Quartile and if the whisker at the lower
   end is shorter (as in the above example) then it has a Positive Skew (Right Skew).
c) If the Median lies closer to the Third Quartile and if the whisker at the
   upper end is shorter then it has a Negative Skew (Left Skew).

  • 数据的分散或扩散可以通过在须的末端找到的最小值和最大值来可视化。
  • 箱线图让我们了解异常值,即在数值上与其余数据相距较远的点。

4) 如何比较箱线图

正如我们在文章开头所讨论的,箱线图使比较类别之间的数据特征变得非常容易。让我们看看如何比较不同的箱线图并从中得出统计结论。

让我们以下面的两个图为例:-

  • 比较中位数——如果一个箱线图的中线位于与之进行比较的另一个箱线图的箱线之外,那么我们可以说两组之间可能存在差异。这里图 B 的中线位于图 A 的框外。
  • 比较数据的分散或传播——四分位距(框的长度)让我们了解数据的分散程度。这里图 A 的长度比图 B 长,这意味着与图 B 相比,图 A 中数据的分散程度更大。胡须的长度也给出了数据整体分布的概念。极值(最小值和最大值)给出了数据分布的范围。范围越大,数据越分散。这里图 A 的范围比图 B 的范围大。
  • 比较异常值——异常值给出了与其余数据相距遥远的异常数据值的想法。更多的异常值意味着预测将更加不确定。在预测具有较少或没有异常值的图的值时,我们可以更有信心。
  • 比较偏度——偏度为我们提供了缺乏对称性的方向和大小。我们已经在上面讨论了如何识别偏度。这里图 A 为正或右偏,图 B 为负或左偏。

这就是箱线图的全部内容。现在您可能已经了解如何制作箱线图以及如何从中获取信息。如有任何疑问,请在下方留言。