标准化用于缩放属性的数据,以使其落在较小的范围内,例如-1.0到1.0或0.0到1.0。通常对于分类算法很有用。
需要规范化–
当我们处理不同规模的属性时,通常需要规范化,否则,由于其他属性具有较大的值,因此它可能导致重要的同等重要属性(较低规模)的有效性降低。
简而言之,当存在多个属性但属性具有不同比例的值时,这可能会导致在执行数据挖掘操作时出现不良的数据模型。因此,将它们归一化以使所有属性处于相同的比例。
数据标准化方法–
- 十进制缩放
- 最小-最大归一化
- z分数归一化(零均值归一化)
归一化的十进制缩放方法–
通过移动数据值的小数点进行归一化。为了通过这种技术对数据进行归一化,我们将数据的每个值除以数据的最大绝对值。使用以下公式将数据的数据值v i归一化为v i’–
其中j是最小整数,使得max(| v i ‘|)<1。
例子 –
Let the input data is: -10, 201, 301, -401, 501, 601, 701
To normalize the above data,
Step 1: Maximum absolute value in given data(m): 701
Step 2: Divide the given data by 1000 (i.e j=3)
Result: The normalized data is: -0.01, 0.201, 0.301, -0.401, 0.501, 0.601, 0.701
最小-最大归一化
在这种数据归一化技术中,对原始数据执行线性变换。从数据中提取最小值和最大值,并根据以下公式替换每个值。
其中A是属性数据,
Min(A),Max(A)分别是A的最小值和最大值。
v’是数据中每个条目的新值。
v是数据中每个条目的旧值。
new_max(A),new_min(A)分别是范围的最大值和最小值(即所需范围的边界值)。
Z分数归一化–
在此技术中,根据数据A的平均值和标准偏差对值进行归一化。使用的公式为:
v’,v分别是数据中每个条目的新旧内容。 σA,A是A的标准偏差和平均值分别。