如何规范化 Excel 中的数据?
归一化一词本身就是一个流行语,在来自机器学习、数据科学、统计学等不同领域的人们中很流行。归一化是一个通用术语,意思是在一定范围内缩小值。归一化这个词之所以成为流行语,是因为它经常被人们误解,并且可以与另一个统计术语标准化互换使用。在本文中,我们将揭开这两个术语的神秘面纱,稍后我们将了解如何在 Excel 中的示例数据集上实现这些技术。
excel中的标准化(或最小-最大缩放)数据
它是以所有数据点都位于 0 到 1 范围内的方式缩放数据的过程。因此,这种技术可以使所有数据点达到一个共同的比例。归一化的数学公式如下:
,其中 X 是数据点,X max和 X min分别是记录组中的最大值和最小值。当数据的分布不遵循高斯分布时,一般会使用归一化的过程。
让我们看一个例子,看看我们如何对样本数据集执行规范化。假设我们有一个班级内 10 名学生的身高记录,如下所示:Height (in cm) 152 155 168 175 153 162 173 166 158 156
第 1 步:计算分布中的最小值。它可以使用 MIN()函数来计算。最小值为 152,存储在 B14 单元格中。
第 2 步:计算分布中的最大值。它可以使用 MAX()函数来计算。最大值为 175,存储在 B15 单元格中。
第 3 步:找出最大值和最小值之间的差异。它们的差值是 175 – 152 = 23,存储在 B16 单元格中。
第 4 步:对于存储在 A2 单元格中的第一个数据,我们将计算归一化值,如下面的视频所示。
第 5 步:我们可以手动为每个数据记录一个一个地计算所有值,也可以使用 Excel 的自动填充功能直接获取所有其他单元格的值。为此,请转到 B2 单元格的右上角,直到出现 (+) 符号,然后将光标拖到底部以自动填充所有单元格内的值。
注意:在计算 B2 单元格中的第一个归一化值时,应确保使用 Fn + F4 按钮锁定 B14 和 B16 单元格的引用地址,否则将引发错误。
如果我们仔细查看结果,我们会注意到所有值都在 0 到 1 的范围内。
标准化(或 Z 分数标准化)
标准化是一个过程,我们希望以这样一种方式缩放我们的数据,即我们的数据分布的平均值为 0,标准差为 1。标准化的数学公式如下:
,其中 X 是数据点,X均值是分布的均值,σ x是分布的标准差。
当我们知道数据的分布服从高斯分布时,通常使用标准化的过程。
方法 1:手动计算 z-score 归一化
第 1 步:计算分布的均值/平均值。可以使用 AVERAGE()函数来完成。平均值为 161.8 并存储在 B14 单元格中。
第 2 步:计算可以使用 STDEV()函数完成的分布的标准差。标准偏差为 8.323994767,存储在 B15 单元格中。
第 3 步:对于存储在 A2 单元格中的第一个数据,我们将计算标准化值,如下图所示。
第 4 步:手动计算第一个值后,我们可以简单地使用 Excel 的自动填充功能来填充所有其他记录的标准化值。
注意:在计算B2单元格中的第一个标准化值时,请务必使用Fn+F4键锁定B14和B15单元格的引用地址,否则会报错。
方法 2:使用 STANDARDIZE()函数计算 Z 分数归一化
我们甚至可以使用内置的 STANDARDIZE()函数来查找元素的标准化值。 STANDARDIZE()函数的语法如下:
=STANDARDIZE(x,mean,std_dev)
其中 x 是单元格的特定元素/范围,mean 是记录中所有元素的平均值/算术平均值,std_dev 是记录中所有元素的标准差
第 1 步:计算分布的均值/平均值。可以使用 AVERAGE()函数来完成。平均值为 161.8 并存储在 B14 单元格中。
第 2 步:计算可以使用 STDEV()函数完成的分布的标准差。标准偏差为 8.323994767,存储在 B15 单元格中。
第 3 步:对于存储在 A2 单元格中的第一个数据,我们将计算标准化值,如下图所示。
第 4 步:手动计算第一个值后,我们可以简单地使用 Excel 的自动填充功能来填充所有其他记录的标准化值。