什么是箱线图和异常值的条件?
箱线图是一种数据可视化绘图函数。它显示最小值、最大值、中值、第一四分位数和第三四分位数。所有的事情都将被简要解释。箱线图的所有属性都可以通过dataframe.column_name.describe()
函数访问。
箱线图的各个方面
这是一个分布良好的数据集。
data = [0, 1, 2, 3, 4, 5, 6]
df = pd.DataFrame(data, columns = ['Num'])
df
输出:
现在使用箱线图绘制数据框,
plt.figure(figsize = (10, 7))
df.boxplot()
箱线图不同部分的解释
最大值和最小值是数据集的最大值和最小值。 50% 是数据集的中位数。第一个四分位数是最小值到 50% 之间数据的中位数,第三个四分位数是 50% 到最大值之间数据的中位数。离群值将是 25 或 75 百分位(1.5*四分位间距)之外的值。
查找值的方法
- 使用中位数将有序数据集分成两半。
1)如果原始有序数据集中有奇数个数据点,则任何一半都不包括中位数(有序列表中的中心值)。
2)如果原始有序数据集中有偶数个数据点,则将该数据集精确地一分为二。 - 下四分位数是数据下半部分的中位数。上四分位数是数据上半部分的中位数。
- 如果一个极值在第一个四分位数以下至少 1.5 个四分位数范围,或者在第三个四分位数以上至少 1.5 个四分位数范围,则该极值被认为是异常值。
箱线图的不同案例
让我们用不同的例子来看看不同的箱线图案例,让我们试着理解每一个。
Now for the data = [0, 1, 2, 3, 6, 6, 6]
这里数据的中位数是 3,最小值是 0,最大值是 6。第一个四分位数是 1.5,但是在 50% 到最大值之后,所有数据都是 6。所以第三个四分位数和最大值是相同的。
For the data = [0, 1, 2, 3, 4, 5, 9]
这里的中位数是 3。对于第三个四分位数,值是 4、5 和 9。所以第三个四分位数是 5,最大值是 9。For the data = [0, 1, 2, 3, 4, 5, 10]
与前一个不同,最大值是 5,因为第三个四分位数是 4.5,四分位数范围是(4.5-1.5)=>3
。因此,1.5*3
是4.5
和第三四分位数(4.5)+4.5=>9
。所以 10 大于极限 9,因此它成为异常值。
描述
箱线图对于检测异常值似乎很有用,但它也有其他几种用途。箱线图占用的空间更少,因此对于比较几组或几组数据之间的分布特别有用。它是指示数据分布的概率密度函数的直接表示。