引导序数编码技术
分类特征有两种具体的引导编码技术,即目标引导序数编码和均值引导序数编码。
所需工具和技术:
- pandas库的理解
- 熊猫数据框如何工作的基本知识。
- Jupyter Notebook 或 Google Collab 或任何类似平台。
什么是编码?
编码是我们用来将数据集中的分类条目转换为数值数据的技术。假设我们有一个员工数据集,其中有一列包含有关员工所在城市位置的信息。现在我们想使用这些数据形成一个模型,该模型可以根据员工的其他详细信息预测其工资。显然,这个模型对城市名称一无所知。那么你将如何让模型知道它呢?例如,居住在大城市的员工比小城市的员工挣得更多。不知何故,我们需要让模型知道这一点。是的,您在脑海中思考的方式就是我们将通过代码执行的操作。很明显,我们正在考虑根据一些规范对城市进行排名。这些将分类数据转换为数值数据的方法是我们的目标。
什么是目标引导编码技术?
在这项技术中,我们将借助目标变量对分类数据进行编码。让我们通过一个例子来理解,
Employee Id | City | Highest Qualification | Salary |
A100 | delhi | Phd | 50000 |
A101 | delhi | bsc | 30000 |
A102 | mumbai | msc | 45000 |
B101 | pune | bsc | 25000 |
B102 | kolkata | phd | 48000 |
C100 | pune | msc | 30000 |
D103 | kolkata | msc | 44000 |
让我们尝试使用目标引导编码对城市列进行编码。这里我们的目标变量是薪水。
第一步:根据对应的工资对城市进行排序。现在要做到这一点,我们将取那个特定城市的所有薪水。
第 2 步:根据工资的平均值,城市的降序为:
加尔各答>孟买>德里>浦那
step3 :根据这个顺序,我们将对城市进行排名。
City | Rank |
kolkata | 4 |
mumbai | 3 |
delhi | 2 |
pune | 1 |
(注意:您也可以按相反的顺序对它们进行排名)
第 4 步:我们将使用此信息对数据集的 City 列进行编码。
Employee Id | City | Highest Qualification | Salary |
A100 | 2 | phd | 50000 |
A101 | 2 | bsc | 30000 |
A102 | 3 | msc | 45000 |
B101 | 1 | bsc | 25000 |
B102 | 4 | phd | 48000 |
C100 | 1 | msc | 30000 |
D103 | 4 | msc | 44000 |
这就是目标引导编码的全部内容!简单吧?现在让我们探讨平均引导编码。
什么是平均引导编码技术?
我们将使用平均引导编码技术对最高资格列进行编码。
第 1 步:对于每个最高资格,我们将找到所有相应薪水的平均值。
第2步:我们不是根据平均值对它们进行排名,而是将这个平均值编码为对应于各自的最高资格。
Highest Qualification | Mean Salary |
Phd | 49000 |
Msc | 39666.67 |
Bsc | 27500 |
第 3 步:我们将使用它来编码最高资格列
Employee Id | City | Highest Qualification | Salary |
A100 | 2 | 49000 | 50000 |
A101 | 2 | 27500 | 30000 |
A102 | 3 | 39666.67 | 45000 |
B101 | 1 | 27500 | 25000 |
B102 | 4 | 49000 | 48000 |
C100 | 1 | 39666.67 | 30000 |
D103 | 4 | 39666.67 | 44000 |
因此,我们已经准备好使用我们的数据集来准备我们的模型。