📅  最后修改于: 2021-01-23 06:45:03             🧑  作者: Mango
概率分布函数的离群值是大于下四分位数或下四分位数的数据集长度的1.5倍以上的数字。具体来说,如果数字小于$ {Q_1-1.5 \ times IQR} $或大于$ {Q_3 + 1.5 \ times IQR} $,则它是一个异常值。
离群值由以下概率函数定义和给出:
$ {Outlier \ datas \ are \,\ lt Q_1-1.5 \ times IQR \(or)\ \ gt Q_3 + 1.5 \ times IQR} $
哪里-
$ {Q_1} $ =第一个四分位数
$ {Q_2} $ =第三四分位数
$ {IQR} $ =四分位间距
问题陈述:
考虑一个代表8个不同的学生定期任务计数的数据集。任务计数信息集为11、13、15、3、16、25、12和14。从学生的定期任务计数中发现异常数据。
解:
给定的数据集是:
11 | 13 | 15 | 3 | 16 | 25 | 12 | 14 |
升序排列:
3 | 11 | 12 | 13 | 14 | 15 | 16 | 25 |
前四分位值()$ {Q_1} $
$ {Q_1 = \ frac {(11 + 12)} {2} \\ [7pt] \ = 11.5} $
第三四分位数Value()$ {Q_3} $
$ {Q_3 = \ frac {(15 + 16)} {2} \\ [7pt] \ = 15.5} $
下离群值范围(L)
$ {Q_1-1.5 \ times IQR \\ [7pt] \ = 11.5-(1.5 \ times 4)\\ [7pt] \ = 11.5-6 \\ [7pt] \ = 5.5} $
异常值上限(L)
$ {Q_3 + 1.5 \ times IQR \\ [7pt] \ = 15.5 +(1.5 \ times 4)\\ [7pt] \ = 15.5 + 6 \\ [7pt] \ = 21.5} $
在给定的信息中,5.5和21.5大于给定数据集中的其他值,即3和25除外,因为3大于5.5,而25小于21.5。
这样,我们利用3和25作为离群值。