📜  在数据集中查找异常值

📅  最后修改于: 2020-12-09 07:47:21             🧑  作者: Mango


离群值是不适合其余数字模式的数据点。它们是数据集中的极高或极低值。

查找异常值的一种简单方法是检查数据集中的数字。我们将看到大多数数字聚集在一个范围内,而某些数字与其余数字相比太低或太高。这样的数字称为离群值。

离群值的其他定义

与其余数据明显不同的数据点。离群值的一个定义是在第一个四分位数以下或在第三个四分位数以上超过1.5个四分位数范围(IQR)的任何数据点。四分位间距(IQR)是数据集的第三个四分位数和第一个四分位数之间的差。

查找数据0、2、5、6、9、12、35的异常值。

对于给定的数据集,我们有以下五个数字的摘要。

最小= 0

第一个四分位数= 2

中位数= 6

第三四分位数= 12

最大值= 35

IQR = 12 – 2 = 10,所以1.5·IQR = 15。

要确定是否存在离群值,我们必须考虑1.5 * IQR或四分位数之外的数字15。

第一个四分位数– 1.5·IQR = 2 – 15 = –13

第三四分位数+ 1.5·IQR = 12 + 15 = 27

由于35在–13到27之间,因此35是此数据集中的异常值。

在下面的给定数据集中找到异常值。

28、26、29、30、81、32、37

第1步:

与给定集中的其他数字不同的数据是81

第2步:

因此,此数据集的离群值是81

在下面的给定数据集中找到异常值。

16、14、3、12、15、17、22、15、52

第1步:

与给定集中的其他数字不同的数据是52

第2步:

因此,此数据集的离群值是52