离群值是与其他对象明显不同的对象。它们可能是由测量或执行错误引起的。离群数据的分析称为离群分析或离群挖掘。
为什么要进行离群分析?
大多数数据挖掘方法会丢弃异常值噪声或异常,但是,在某些应用程序中(例如欺诈检测),稀有事件可能比定期发生的事件更为有趣,因此,异常值分析在这种情况下变得非常重要。
检测异常值:
使用到最近群集的距离进行基于群集的离群值检测:
在K均值聚类技术中,每个聚类都有一个平均值。对象属于其平均值最接近的群集。为了识别离群值,首先,我们需要初始化阈值,以使任何数据点与其最近的簇之间的距离大于该距离都可以将其识别为离群值。然后,我们需要找到测试数据与每个聚类平均值的距离。现在,如果测试数据与最接近的簇之间的距离大于阈值,那么我们将把测试数据分类为离群值。
算法:
- 计算每个聚类的平均值
- 初始化阈值
- 计算每个聚类平均值与测试数据的距离
- 查找离测试数据最近的聚类
- 如果(距离>阈值),则离群值