📜  数据挖掘中异常值的类型

📅  最后修改于: 2022-05-13 01:57:02.958000             🧑  作者: Mango

数据挖掘中异常值的类型

离群值是一种数据对象,它与其他数据对象有很大的不同,并且行为方式也不同。异常值是显着偏离其余对象的对象。它们可能是由测量或执行错误引起的。离群数据的分析称为离群分析或离群挖掘。

异常值不能被称为噪声或错误。相反,它们被怀疑不是由与其余数据对象相同的方法生成的。

异常值分为三种类型,即——

  1. 全局(或点)异常值
  2. 集体异常值
  3. 上下文(或条件)异常值

1. 全球异常值

它们也被称为点异常值。这些是异常值的最简单形式。如果在给定的数据集中,一个数据点与所有其他数据点严重偏离,则称为全局异常值。大多数情况下,所有异常值检测方法都旨在寻找全局异常值。

例如,在入侵检测系统中,如果在很短的时间内广播了大量的包,那么这可能被认为是一个全局异常值,我们可以说该特定系统可能被黑客入侵。

红色数据点是全局异常值。

2. 集体异常值

顾名思义,如果在给定的数据集中,一些数据点作为一个整体,与数据集的其余部分显着偏离,它们可能被称为集体异常值。在这里,单个数据对象可能不是异常值,但从整体来看,它们可能表现为异常值。为了检测这些类型的异常值,我们可能需要关于那些显示异常值行为的数据对象之间关系的背景信息。

例如:在入侵检测系统中,从一台计算机到另一台计算机的 DOS(拒绝服务)程序包可能被视为正常行为。但是,如果这种情况同时发生在多台计算机上,那么这可能被认为是异常行为,并且作为一个整体,它们可以被称为集体异常值。

红色数据点作为一个整体是集体异常值。

3. 上下文异常值

它们也被称为条件异常值。在这里,如果在给定的数据集中,数据对象仅基于特定的上下文或条件显着偏离其他数据点。由于某种条件,数据点可能是异常值,并且在另一种条件下可能表现出正常行为。因此,必须将上下文指定为问题陈述的一部分,以识别上下文异常值。上下文异常值分析为用户提供了灵活性,可以在不同上下文中检查异常值,这在许多应用程序中是非常需要的。数据点的属性是根据上下文和行为属性决定的。

例如: 40°C 的温度读数在“冬季”背景下可能表现为异常值,但在“夏季”背景下表现为正常数据点。

6 月的低温值是上下文异常值,因为 12 月的相同值不是异常值。