📜  挖掘集体异常值数据挖掘

📅  最后修改于: 2022-05-13 01:56:15.616000             🧑  作者: Mango

挖掘集体异常值数据挖掘

数据库可能包含不符合数据的一般行为或模型的数据对象。这些数据对象是异常值。对 OUTLIER 数据的调查称为 OUTLIER MINING。可以使用假设数据的分布或概率模型的统计测试来检测异常值,或者使用在空间中具有一小部分“近”邻居的对象被视为异常值的距离测量来检测。基于偏差的技术不是使用事实或距离测量,而是通过检查组中项目的主要属性的差异来区分异常/异常值。

显着偏离整个数据集的一组数据对象称为集体异常值。在集体异常值中,每个单独的对象都有可能不是异常值。集体异常值检测比常规和上下文异常值检测更困难,因为需要检查多个数据对象之间的数据集关系的结构。

集体异常数据挖掘:

集体异常数据挖掘完全取决于数据结构的类型。但是预先确定数据对象的结构是一项艰巨的任务,有时可能是不可能的。我们探索由时间数据结构(如时间序列或子序列的片段)形成的内部结构。我们探索局部区域以检测空间数据中的集体异常值。我们探索图和互连网络数据中的子图。上下文异常值检测类似于集体异常值检测,因为在这两种检测方法中都探索了子结构和局部区域。在上下文异常值检测中,数据对象的上下文被认为是检测异常值的主要属性。

这里,上下文信息是结构属性。集体异常值检测具有挑战性,因为要探索数据结构以检测异常值。它还取决于应用程序和数据对象的类型。由于集体异常值检测的挖掘过程涉及多种复杂的数据挖掘和机器学习技术,因此计算成本很高。但是集体异常值检测实际上适用于许多情况。

集体异常值检测方法有两种不同的类型。在第一类中,集体异常值检测的问题被简化为传统的异常值检测。它识别数据的结构单元,并从每个结构单元(时间序列段、局部区域或子图)中提取重要特征以确定集体异常值。现在集体异常值检测的问题转化为异常值检测。行为偏离从结构中提取的特征的数据对象被认为是异常值。而所有正常对象都表现出相似类型的结构行为。

第二类集体异常值检测是建立属性结构单元的预期行为模型。例如,为了检测空间数据中的集体异常值,我们可以通过提取数据属性的结构单元的特征行为来构建模型。如果数据对象偏离模型,则将数据对象标识为集体异常值。

图数据的集体异常值检测:

可以在社交网络上执行集体异常值检测。社交网络可以假设为一个未标记的图。网络或图的每个可能的子图都可以视为一个结构单元,这是找出图中异常值的重要标准。我们考虑两个特征,即子图 S 中的顶点数和网络中特定子图的频率,以检测图或网络中的异常值。也就是说,频率(S)是网络中相似且具有同构属性的网络子图的数量。如果子图包含多个顶点且与其他子图相比频率较高,则将其识别为集体异常值。一般来说,具有较少数量顶点的子图有望成为频繁子图。假设大子图的频率较低。但是在实验过程中,如果顶点的频率和数量都很高,那么这些顶点就会被声明为社交网络中的异常值。

由于探索数据结构的挑战,集体异常值检测是微妙的。探索通常使用启发式方法,因此可能依赖于应用程序。由于复杂的挖掘过程,计算成本通常很高。虽然在实践中非常有用,但集体异常值检测仍然是一个具有挑战性的方向,需要进一步的研究和开发。