📅  最后修改于: 2023-12-03 14:54:54.970000             🧑  作者: Mango
异常值(Outlier)在数据挖掘中是指与其他样本明显不同或偏离正常规律的观测值。它们可能是由于测量误差、录入错误、采样偏差、数据传输问题、自然灾害、欺诈行为等原因造成的。在数据挖掘中,处理和识别异常值是非常重要的一步,因为异常值可能对数据分析和预测模型产生严重的影响。
根据异常值对数据结果的影响程度,我们可以将异常值分为三种类型:全局异常值、上下文异常值和属性异常值。
全局异常值是指整个数据集中与其他样本明显不同或偏离正常规律的观测值。这些异常值可能是由于输入错误、记录误差或者异常情况等原因引起的。在数据挖掘中,全局异常值通常被认为是无效或噪音的观测。
上下文异常值是指在特定背景下,某些观测值与其他样本明显不同。上下文异常值可能是正常的观测结果,但在特定情况下是异常的。例如,在某个特定日期或时间点上,销售量异常高或异常低的数据点就是上下文异常值。
属性异常值是指在某个特定属性上,某些观测值与其他样本明显不同。例如,对于身高属性,如果某个人的身高为负数或超过人类身高范围,那么就可以认为这是一个属性异常值。
在数据挖掘中,异常值识别是非常重要的一步。了解不同类型的异常值有助于我们选择合适的方法和算法来识别异常值,并进行必要的处理。有效地处理异常值可以提高数据挖掘的准确性和模型的可靠性。