概念漂移简介
如果我们将自己置于与我们通常看到的略有不同的框架中。例如:当我们进行批量学习时,即对生成给定模型的固定数据集进行学习时,算法很快就会变得无效甚至适得其反。由于数据的修改或新数据的不断出现,可能会出现此问题。这个问题被称为概念漂移。
正式定义:
概念漂移是数据类变量的统计属性——换句话说,我们想要预测的目标——随时间变化的事件。当一个模型被训练时,它知道一个将自变量或预测变量映射到目标变量的函数。换句话说,在其他自变量的帮助下预测目标变量。在这些预测变量和目标都没有变化或演变的静态和完美环境中,模型应该像第一天一样执行,因为没有变化。但是,如果预测变量随时间变化,模型可能会改变性能,因为它是用旧数据训练的,并且由于预测变量的演变,从新数据进行预测可能对模型来说很困难。
这种情况的一个例子是动态数据(例如:流数据),其中不仅目标变量的统计属性发生变化,而且其含义也发生变化。当这种变化发生时,函数找到的映射不再适合新环境。
在机器学习和预测分析中,概念漂移是指模型试图预测的数据目标变量的统计属性,随着时间的推移以非常不可预测的方式发生变化。这会导致问题,因为随着时间的推移,预测变得不那么准确。因此几乎没有用。
让我们举例说明一个放置在火山上的传感器,以便随时间收集火山的温度。假设我们收集了几天只下雨的数据。了解这些数据将使我们能够获得以下模型(下图):超过某个阈值,我们认为火山是活跃的,如果不是,它就处于静止状态。
然而,几天后,一股热浪袭来,发现温度分布发生了如下变化(图 2)。我们可以很容易地看到,之前建立的模型不再有效,你必须适应它。
我们还可以在印度排灯节期间看到概念漂移购物的概念。在平常的日子里,购物非常正常,但在排灯节期间,购物突然增加。以下是从这里获取的一些统计数据。