Python |如何以及在哪里应用特征缩放？ - 芒果文档

📌 相关文章

📜 Python |如何以及在哪里应用特征缩放？

📅 最后修改于: 2021-04-16 09:11:07 🧑 作者: Mango

特征缩放或标准化：这是数据预处理的步骤，适用于数据的独立变量或特征。从根本上说，它有助于标准化特定范围内的数据。有时，它也有助于加快算法的计算速度。

使用的包：

sklearn.preprocessing

进口：

from sklearn.preprocessing import StandardScaler

后端中使用的公式
标准化将值替换为其Z分数。

通常，“拟合”方法用于特征缩放

fit(X, y = None)
Computes the mean and std to be used for later scaling.

import pandas as pd
from sklearn.preprocessing import StandardScaler
  
# Read Data from CSV
data = read_csv('Geeksforgeeks.csv')
data.head()
  
# Initialise the Scaler
scaler = StandardScaler()
  
# To scale data
scaler.fit(data)

为什么以及在哪里应用特征缩放?
现实世界的数据集包含的特征在大小，单位和范围上都有很大差异。当要素的比例尺不相关或具有误导性时，应执行规范化，而当比例尺有意义时，则不应进行规范化。

使用欧几里得距离测度的算法对幅度敏感。在这里，特征缩放有助于平均权衡所有特征。

形式上，如果数据集中的某个要素比其他要素具有更大的比例，则在测量欧几里德距离的算法中，这个大规模的要素将成为主导并且需要进行归一化。

特征缩放很重要的算法示例
1. K-Means在这里使用欧几里德距离度量来衡量要素缩放。
2. K-Nearest-Neighbours也需要要素缩放。
3.主成分分析(PCA) ：尝试获得具有最大方差的特征，这里也需要特征缩放。
4.梯度下降：随着特征缩放后Theta计算变得更快，计算速度也随之提高。

注意：朴素贝叶斯，线性判别分析和基于树的模型不受特征缩放的影响。
简而言之，任何不是基于距离的算法都不会受到要素缩放的影响。