📜  引导序数编码技术

📅  最后修改于: 2022-05-13 01:57:09.861000             🧑  作者: Mango

引导序数编码技术

分类特征有两种具体的引导编码技术,即目标引导序数编码和均值引导序数编码。

所需工具和技术:

  1. pandas库的理解
  2. 熊猫数据框如何工作的基本知识。
  3. Jupyter Notebook 或 Google Collab 或任何类似平台。

什么是编码?

编码是我们用来将数据集中的分类条目转换为数值数据的技术。假设我们有一个员工数据集,其中有一列包含有关员工所在城市位置的信息。现在我们想使用这些数据形成一个模型,该模型可以根据员工的其他详细信息预测其工资。显然,这个模型对城市名称一无所知。那么你将如何让模型知道它呢?例如,居住在大城市的员工比小城市的员工挣得更多。不知何故,我们需要让模型知道这一点。是的,您在脑海中思考的方式就是我们将通过代码执行的操作。很明显,我们正在考虑根据一些规范对城市进行排名。这些将分类数据转换为数值数据的方法是我们的目标。

什么是目标引导编码技术?

在这项技术中,我们将借助目标变量对分类数据进行编码。让我们通过一个例子来理解,

Employee IdCity Highest QualificationSalary
A100delhiPhd50000
A101delhibsc30000
A102mumbaimsc45000
B101punebsc25000
B102kolkataphd48000
C100punemsc30000
D103kolkatamsc44000

让我们尝试使用目标引导编码对城市列进行编码。这里我们的目标变量是薪水。

第一步:根据对应的工资对城市进行排序。现在要做到这一点,我们将取那个特定城市的所有薪水。

第 2 步:根据工资的平均值,城市的降序为:

加尔各答>孟买>德里>浦那

step3 :根据这个顺序,我们将对城市进行排名。

CityRank
kolkata4
mumbai3
delhi2
pune1

(注意:您也可以按相反的顺序对它们进行排名)

第 4 步:我们将使用此信息对数据集的 City 列进行编码。

Employee Id CityHighest QualificationSalary
A1002phd50000
A1012bsc30000
A1023msc45000
B1011bsc25000
B1024phd48000
C1001msc30000
D1034msc44000

这就是目标引导编码的全部内容!简单吧?现在让我们探讨平均引导编码。

什么是平均引导编码技术?

我们将使用平均引导编码技术对最高资格列进行编码。

第 1 步:对于每个最高资格,我们将找到所有相应薪水的平均值。

第2步:我们不是根据平均值对它们进行排名,而是将这个平均值编码为对应于各自的最高资格。

Highest QualificationMean Salary
Phd49000
Msc39666.67
Bsc27500

第 3 步:我们将使用它来编码最高资格列

Employee IdCityHighest QualificationSalary
A10024900050000
A10122750030000
A102339666.6745000
B10112750025000
B10244900048000
C100139666.6730000
D103439666.6744000

因此,我们已经准备好使用我们的数据集来准备我们的模型。