📜  毫升 |回归模型中的虚拟变量陷阱

📅  最后修改于: 2022-05-13 01:58:07.307000             🧑  作者: Mango

毫升 |回归模型中的虚拟变量陷阱

在了解哑变量陷阱之前,让我们先了解什么是真正的哑变量。

回归模型中的虚拟变量:
在统计学中,特别是在回归模型中,我们处理各种类型的数据。数据可以是定量的(数字的)或定性的(分类的)。数值数据可以在回归模型中轻松处理,但我们不能直接使用分类数据,它需要以某种方式进行转换。

为了将分类属性转换为数值属性,我们可以使用标签编码程序(标签编码为每个类别的数据分配一个唯一的整数)。但是这个过程并不是那么合适,因此,在标签编码之后的回归模型中使用了一种热编码。这使我们能够根据分类属性中存在的类的数量创建新属性,即如果分类属性中有n个类别,则将创建 n 个新属性。创建的这些属性称为虚拟变量。因此,虚拟变量是回归模型中分类数据的“代理”变量。
这些虚拟变量将使用一个热编码创建,每个属性的值将是 0 或 1,表示该属性的存在或不存在。

虚拟变量陷阱:
虚拟变量陷阱是一种存在高度相关(多重共线性)的属性并且一个变量预测其他变量的值的场景。当我们使用一种热编码来处理分类数据时,可以借助其他虚拟变量来预测一个虚拟变量(属性)。因此,一个虚拟变量与其他虚拟变量高度相关。将所有虚拟变量用于回归模型会导致虚拟变量陷阱。因此,回归模型的设计应该排除一个虚拟变量。

例如 -
让我们考虑具有两个值男性(0 或 1)和女性(1 或 0)的性别的情况。包括这两个虚拟变量会导致冗余,因为如果一个人不是男性,那么这个人是女性,因此,我们不需要在回归模型中同时使用这两个变量。这将保护我们免受虚拟变量陷阱的影响。