📜  数据挖掘中异常值检测的挑战

📅  最后修改于: 2022-05-13 01:56:16.883000             🧑  作者: Mango

数据挖掘中异常值检测的挑战

异常值检测是指找出属性和行为与集群或数据集中的其余对象不同的数据对象。异常值检测是从正常对象中找到异常值的过程。在数据预处理期间执行异常值检测是必不可少的。异常值对分类和聚类模型的性能有很大影响。数据挖掘中有许多异常值检测方法。其中一些如下:

  • 基于邻近的方法
  • 基于网格的方法
  • 基于距离的方法
  • 基于聚类的方法

应用这些异常值检测方法时存在一些挑战。

异常值检测

有关更多详细信息,请参阅异常值类型一文。

下面列出了数据挖掘中异常值检测方法的挑战。

  • 有效地建模正常异常值:异常值检测的质量取决于正常(不是异常值)对象的建模。通常,建立一个模型来寻找数据正态性是非常具有挑战性的,而且可能是不可能的,因为很难确定正常对象的所有行为属性。很难预测正常异常值和异常异常值之间的边界。一些异常值检测方法通过将每个输入数据分配给对象标签作为“正常”或“异常值”来区分异常值。而其他一些方法使用分数度量作为确定对象是否为异常值的因素。根据应用程序的一致性及其数据类型,选择异常检测方法。
  • 特定于应用程序的异常值检测:关系模型取决于应用程序的类型,它描述了正常的数据对象特征。不同的应用程序需要不同类型的数据作为输入,并需要各种建模和分析算法。示例:在临床数据分析中,数据值的微小偏差反映了异常值的选择。相比之下,在营销分析中,需要更大的数据值偏差来证明异常值的合理性。选择异常值检测方法取决于应用程序类型。我们需要从各种各样的应用程序数据中找出异常值,因此这些数据集的数据类型可能会有所不同。所有应用程序都没有唯一的异常值检测方法。
  • 处理异常值检测中的噪声:噪声通常存在于所有数据集中。噪声也存在于异常值中。但是有一种错误假设,即噪声和异常值是相同的。噪声使数据集的质量不完美。当从许多资源和应用程序中收集数据时,经常会出现噪音。数据集中的噪声是由于重复的元组、缺失值和数据属性的偏差造成的。数据集中的噪声使数据变得贫乏,这成为异常值检测的巨大挑战。如果数据中存在噪声,则很难检索正常对象并将异常值与数据集分开。缺失值可能会隐藏异常值并降低检测到异常值的机会。
  • 可理解性:在某些情况下,客户需要了解特定对象为何成为异常值的条件,因为它可能对应用程序过程有用。必须有一个特定的条件标准和理由来区分正常对象和异常值。而且这个理由必须得到很好的表述。并且可以理解。示例:很容易理解邻近异常值检测,因为正常对象几乎具有邻近测量值,而异常值在邻近测量值上差异很大。