📜  什么是箱线图和异常值的条件?

📅  最后修改于: 2022-05-13 01:54:25.144000             🧑  作者: Mango

什么是箱线图和异常值的条件?

箱线图是一种数据可视化绘图函数。它显示最小值、最大值、中值、第一四分位数和第三四分位数。所有的事情都将被简要解释。箱线图的所有属性都可以通过dataframe.column_name.describe()函数访问。

箱线图的各个方面

这是一个分布良好的数据集。

data = [0, 1, 2, 3, 4, 5, 6] 
df = pd.DataFrame(data, columns = ['Num'])  
df

输出:

pytohn 箱线图

现在使用箱线图绘制数据框,

plt.figure(figsize = (10, 7)) 
  
df.boxplot() 

箱线图不同部分的解释

最大值和最小值是数据集的最大值和最小值。 50% 是数据集的中位数。第一个四分位数是最小值到 50% 之间数据的中位数,第三个四分位数是 50% 到最大值之间数据的中位数。离群值将是 25 或 75 百分位(1.5*四分位间距)之外的值。

查找值的方法

  • 使用中位数将有序数据集分成两半。
    1)如果原始有序数据集中有奇数个数据点,则任何一半都不包括中位数(有序列表中的中心值)。
    2)如果原始有序数据集中有偶数个数据点,则将该数据集精确地一分为二。
  • 下四分位数是数据下半部分的中位数。上四分位数是数据上半部分的中位数。
  • 如果一个极值在第一个四分位数以下至少 1.5 个四分位数范围,或者在第三个四分位数以上至少 1.5 个四分位数范围,则该极值被认为是异常值。

箱线图的不同案例

让我们用不同的例子来看看不同的箱线图案例,让我们试着理解每一个。

  • Now for the data = [0, 1, 2, 3, 6, 6, 6]

    这里数据的中位数是 3,最小值是 0,最大值是 6。第一个四分位数是 1.5,但是在 50% 到最大值之后,所有数据都是 6。所以第三个四分位数和最大值是相同的。

  • For the data = [0, 1, 2, 3, 4, 5, 9] 


    这里的中位数是 3。对于第三个四分位数,值是 4、5 和 9。所以第三个四分位数是 5,最大值是 9。

  • For the data = [0, 1, 2, 3, 4, 5, 10]


    与前一个不同,最大值是 5,因为第三个四分位数是 4.5,四分位数范围是(4.5-1.5)=>3 。因此, 1.5*34.5和第三四分位数(4.5)+4.5=>9 。所以 10 大于极限 9,因此它成为异常值。

描述

箱线图对于检测异常值似乎很有用,但它也有其他几种用途。箱线图占用的空间更少,因此对于比较几组或几组数据之间的分布特别有用。它是指示数据分布的概率密度函数的直接表示。