什么是箱线图?
箱线图基本上是一个区间尺度,用于执行估计,它必须执行数据的抽象。箱线图用于解释和分析数据。它还可以用于可视化数据。箱线图是图形方法的一种变体,用于说明数据分布中数据的变化。也可以使用直方图来显示数据。但是,如果我们比较箱形图和直方图,后者提供了足够的显示。它还提供与显示在同一图表中的多组数据相对应的附加信息。
箱线图必须用于以下情况:
- 分布形状
- 中心价值
- 变化性
在为箱线图绘制图表时,会勾勒出从第一个四分位数到第三个四分位数的框。穿过此绘制框的垂直线对应于数据分布的中值。称为胡须的小线从每个四分位数朝向最小值或最大值。这个概念如下图所示:
箱线图的特点
- 它展示了来自五个数字的汇总数据,该汇总还包括集中趋势的度量之一。这意味着它有五个信息。
- 特别用于反映给定的数据集是否为偏态分布。
- 它还提供了对数据集的洞察,即是否存在潜在的异常观察。这些被称为异常值。
- 它反映了有关数据如何分布的信息。
- 这里,布置可以相互匹配。这是因为,在箱线图的情况下,中心、散布和整体范围立即显而易见。
- 它对于描述性数据解释特别有用。
- 它也用于涉及或比较大量数据收集的情况。
盒须图的元素
构建盒须图异常值所需的元素如下:
最小值(Q 0或第 0 个百分位数):给定数据集分布中的最小指定值,显示在最左端。
第一个四分位数(Q 1或第 25 个百分位数):左侧的第一个四分位数 (Q 1 ),对应于最小值和中位数之间的区域。
中位数(Q 2或第 50 个百分位数):中位数,由对应于框中心的线表示。
第三四分位数(Q 3或第 75 个百分位数):右侧的第三四分位数 (Q 3 ),对应于中位数和最大值之间的区域。
最大值(Q 4或第 100 个百分位数):给定数据集分布中的最大指定值,显示在最右端。
四分位距:四分位距 (IQR) 是上四分位数和下四分位数之间的差,即 Q 3和 Q 1 。
构建箱线图?
可以使用以下步骤构建箱须图:
- 指定数据集中的最小值称为最小值。
- 对应于包含数据的下 25% 以下的值。它被称为第一四分位数。
- 第三个值对应于给定数据的中位数。
- 对应于包含数据的下 25% 以上的值。它被称为第三四分位数。
- 指定数据集中的最大值称为最大值。
应用
箱线图可用于了解以下组件:
- 异常值及其值
- 紧密的数据分组
- 数据对称
- 数据偏度
示例问题
问题 1. 计算
- 最大值,
- 最小值,
- 中位数,
- 第一个四分位数,
- 第三四分位数
从这个给定的数据:
2、7、19、12、23、15、26。
解决方案:
First arrange this data in ascending order.
2, 7, 12, 15, 19, 23, 26
Hence here,
- Minimum value = 2
- Maximum value = 26
- Median =
Median = 4th term = 15 - First Quartile = Middle value of 2, 7, 19
That is 7
Thus First Quartile = 7 - Third Quartile = Middle value of 19, 23, 26
That is 23
Thus Third Quartile = 23
问题 2. 绘制给定数据的箱线图:
2、17、20、5、3、13、15、9、11
解决方案:
First arrange this data in ascending order
2, 3, 5, 9, 11, 13, 15, 17, 20
Find the Range of the data
Range = Maximum value in this data – Minimum value in this data
Range = 20 – 2 = 18
Now,
Find the Median
Median =
Median = 5th term
Median = 11
Further,
Find the quartiles.
Finding the First quartile (Q1) = The first quartile (Q1) at the left side, which is in between the minimum value and median.
Q1 = Median of (2, 3, 5, 9)
Q1 =
Q1 = 4
Now,
Finding the Third quartile (Q3) = The third quartile (Q3) at the right side, which is in between the median and the maximum value.
Q3 = Median of (13, 15, 17, 20)
Q3 =
Q3 = 16
Thus,
Finding the interquartile range;
Interquartile = Q3 – Q1 = 16 – 4 = 12
Thus the five-number summary can be shown as:
Minimum value, First quartile Q1, Median, Third quartile Q3, Maximum value
Therefore,
2, 4, 11, 16, 20
Thus this is the five-number summary of the given data.
Hence,
Box plot can be drawn
问题 3. 提到 Box Plot 的优点
解决方案:
The box and whisker plot has the following advantages :
Easy identification of the data location and data spread.
Information about the skewness and symmetry of data.
Information about the data outliers.
问题 4. 提到 Box Plot 的缺点
解决方案:
The box and whisker plot has the following disadvantages :
Mean cannot be easily located.
It generally hides the multimodality and other characteristics of given distributions.
问题 5. 计算
- 最大值,
- 最小值,
- 中位数,
- 第一个四分位数,
- 第三四分位数
从这个给定的数据:
5、7、2、19、25、18、26、9、11。
解决方案:
First arrange this data in ascending order.
2, 5, 7, 9, 11, 18, 19, 25, 26
Hence here,
Minimum value = 2
Maximum value = 26
Median =
Median = 5th term = 11
First Quartile = Middle value of 2, 5, 7, 9
That is
Thus First Quartile = 6
Third Quartile = Middle value of 18, 19, 25, 26
That is
Thus Third Quartile = 22.