📌 相关文章

📜 概念漂移简介

📅 最后修改于: 2022-05-13 01:54:50.916000 🧑 作者: Mango

概念漂移简介

如果我们将自己置于与我们通常看到的略有不同的框架中。例如：当我们进行批量学习时，即对生成给定模型的固定数据集进行学习时，算法很快就会变得无效甚至适得其反。由于数据的修改或新数据的不断出现，可能会出现此问题。这个问题被称为概念漂移。

正式定义：
概念漂移是数据类变量的统计属性——换句话说，我们想要预测的目标——随时间变化的事件。当一个模型被训练时，它知道一个将自变量或预测变量映射到目标变量的函数。换句话说，在其他自变量的帮助下预测目标变量。在这些预测变量和目标都没有变化或演变的静态和完美环境中，模型应该像第一天一样执行，因为没有变化。但是，如果预测变量随时间变化，模型可能会改变性能，因为它是用旧数据训练的，并且由于预测变量的演变，从新数据进行预测可能对模型来说很困难。
这种情况的一个例子是动态数据（例如：流数据），其中不仅目标变量的统计属性发生变化，而且其含义也发生变化。当这种变化发生时，函数找到的映射不再适合新环境。

在机器学习和预测分析中，概念漂移是指模型试图预测的数据目标变量的统计属性，随着时间的推移以非常不可预测的方式发生变化。这会导致问题，因为随着时间的推移，预测变得不那么准确。因此几乎没有用。

让我们举例说明一个放置在火山上的传感器，以便随时间收集火山的温度。假设我们收集了几天只下雨的数据。了解这些数据将使我们能够获得以下模型（下图）：超过某个阈值，我们认为火山是活跃的，如果不是，它就处于静止状态。

图 1：雨中的数据

然而，几天后，一股热浪袭来，发现温度分布发生了如下变化（图 2）。我们可以很容易地看到，之前建立的模型不再有效，你必须适应它。

图 2：雨后的数据

我们还可以在印度排灯节期间看到概念漂移购物的概念。在平常的日子里，购物非常正常，但在排灯节期间，购物突然增加。以下是从这里获取的一些统计数据。

图 2：雨后的数据