📜  数据挖掘中异常值的类型(1)

📅  最后修改于: 2023-12-03 14:54:54.970000             🧑  作者: Mango

异常值在数据挖掘中的类型

异常值(Outlier)在数据挖掘中是指与其他样本明显不同或偏离正常规律的观测值。它们可能是由于测量误差、录入错误、采样偏差、数据传输问题、自然灾害、欺诈行为等原因造成的。在数据挖掘中,处理和识别异常值是非常重要的一步,因为异常值可能对数据分析和预测模型产生严重的影响。

异常值的类型

根据异常值对数据结果的影响程度,我们可以将异常值分为三种类型:全局异常值、上下文异常值和属性异常值。

1. 全局异常值

全局异常值是指整个数据集中与其他样本明显不同或偏离正常规律的观测值。这些异常值可能是由于输入错误、记录误差或者异常情况等原因引起的。在数据挖掘中,全局异常值通常被认为是无效或噪音的观测。

识别方法:

  • Z-Score方法:计算每个数据点的Z-Score(与均值的偏差标准差),超出某个阈值范围的数据点即为异常值。
  • 箱线图(Box Plot)方法:根据数据的四分位数范围和离群值的阈值,将位于阈值之外的数据点视为异常值。
  • 离群值检测算法:例如Isolation Forest、Local Outlier Factor(LOF)、One-Class SVM等。
2. 上下文异常值

上下文异常值是指在特定背景下,某些观测值与其他样本明显不同。上下文异常值可能是正常的观测结果,但在特定情况下是异常的。例如,在某个特定日期或时间点上,销售量异常高或异常低的数据点就是上下文异常值。

识别方法:

  • 季节性模型:建立一个季节变化模型,通过观察数据点与模型的偏离程度来判断是否为异常值。
  • 上下文关联性分析:根据样本的相关属性和关联规则,识别具有显著性差异的数据点。
3. 属性异常值

属性异常值是指在某个特定属性上,某些观测值与其他样本明显不同。例如,对于身高属性,如果某个人的身高为负数或超过人类身高范围,那么就可以认为这是一个属性异常值。

识别方法:

  • 规则检测:根据属性的定义和业务规则,检查数据点是否违反了先验规则。
  • 数据模型:使用数据挖掘技术构建预测模型,在模型中预测某一属性的值与实际观测值之间的差异是否超过阈值。
总结

在数据挖掘中,异常值识别是非常重要的一步。了解不同类型的异常值有助于我们选择合适的方法和算法来识别异常值,并进行必要的处理。有效地处理异常值可以提高数据挖掘的准确性和模型的可靠性。