📜  如何规范化 Excel 中的数据?

📅  最后修改于: 2022-05-13 01:56:14.566000             🧑  作者: Mango

如何规范化 Excel 中的数据?

归一化一词本身就是一个流行语,在来自机器学习、数据科学、统计学等不同领域的人们中很流行。归一化是一个通用术语,意思是在一定范围内缩小值。归一化这个词之所以成为流行语,是因为它经常被人们误解,并且可以与另一个统计术语标准化互换使用。在本文中,我们将揭开这两个术语的神秘面纱,稍后我们将了解如何在 Excel 中的示例数据集上实现这些技术。

excel中的标准化(或最小-最大缩放)数据

它是以所有数据点都位于 0 到 1 范围内的方式缩放数据的过程。因此,这种技术可以使所有数据点达到一个共同的比例。归一化的数学公式如下:

X^{'} = \frac{X - X_{min}}{X_{max}-X_{min}} ,其中 X 是数据点,X max和 X min分别是记录组中的最大值和最小值。当数据的分布不遵循高斯分布时,一般会使用归一化的过程。

让我们看一个例子,看看我们如何对样本数据集执行规范化。假设我们有一个班级内 10 名学生的身高记录,如下所示:

Height (in cm)
152
155
168
175
153
162
173
166
158
156

第 1 步:计算分布中的最小值。它可以使用 MIN()函数来计算。最小值为 152,存储在 B14 单元格中。

计算最小值

使用 MIN()函数计算最小值

第 2 步:计算分布中的最大值。它可以使用 MAX()函数来计算。最大值为 175,存储在 B15 单元格中。

计算最大值

使用 MAX()函数计算最大值

第 3 步:找出最大值和最小值之间的差异。它们的差值是 175 – 152 = 23,存储在 B16 单元格中。

计算差

计算差异(Max-Min)

第 4 步:对于存储在 A2 单元格中的第一个数据,我们将计算归一化值,如下面的视频所示。

计算归一化值

计算第一个元素的标准化值

第 5 步:我们可以手动为每个数据记录一个一个地计算所有值,也可以使用 Excel 的自动填充功能直接获取所有其他单元格的值。为此,请转到 B2 单元格的右上角,直到出现 (+) 符号,然后将光标拖到底部以自动填充所有单元格内的值。

获得所有归一化值

计算整个范围的归一化值

注意:在计算 B2 单元格中的第一个归一化值时,应确保使用 Fn + F4 按钮锁定 B14 和 B16 单元格的引用地址,否则将引发错误。

如果我们仔细查看结果,我们会注意到所有值都在 0 到 1 的范围内。

标准化(或 Z 分数标准化)

标准化是一个过程,我们希望以这样一种方式缩放我们的数据,即我们的数据分布的平均值为 0,标准差为 1。标准化的数学公式如下:

X^{'} = \frac{X - X_{mean}}{\sigma_{_{x}}} ,其中 X 是数据点,X均值是分布的均值,σ x是分布的标准差。

当我们知道数据的分布服从高斯分布时,通常使用标准化的过程。

方法 1:手动计算 z-score 归一化

第 1 步:计算分布的均值/平均值。可以使用 AVERAGE()函数来完成。平均值为 161.8 并存储在 B14 单元格中。

计算平均值

使用 AVERAGE()函数计算平均值

第 2 步:计算可以使用 STDEV()函数完成的分布的标准差。标准偏差为 8.323994767,存储在 B15 单元格中。

计算标准差

使用 STDEV()函数计算标准偏差

第 3 步:对于存储在 A2 单元格中的第一个数据,我们将计算标准化值,如下图所示。

计算标准化值

计算第一个元素的标准化值

第 4 步:手动计算第一个值后,我们可以简单地使用 Excel 的自动填充功能来填充所有其他记录的标准化值。

获得所有标准化值

使用自动填充计算整个范围的标准化值

注意:在计算B2单元格中的第一个标准化值时,请务必使用Fn+F4键锁定B14和B15单元格的引用地址,否则会报错。

方法 2:使用 STANDARDIZE()函数计算 Z 分数归一化

我们甚至可以使用内置的 STANDARDIZE()函数来查找元素的标准化值。 STANDARDIZE()函数的语法如下:

其中 x 是单元格的特定元素/范围,mean 是记录中所有元素的平均值/算术平均值,std_dev 是记录中所有元素的标准差

第 1 步:计算分布的均值/平均值。可以使用 AVERAGE()函数来完成。平均值为 161.8 并存储在 B14 单元格中。

计算平均值

使用 AVERAGE()函数计算平均值

第 2 步:计算可以使用 STDEV()函数完成的分布的标准差。标准偏差为 8.323994767,存储在 B15 单元格中。

计算标准差

使用 STDEV()函数计算标准偏差

第 3 步:对于存储在 A2 单元格中的第一个数据,我们将计算标准化值,如下图所示。

计算标准化值

使用 STANDARDIZE()函数计算第一个元素的标准化值

第 4 步:手动计算第一个值后,我们可以简单地使用 Excel 的自动填充功能来填充所有其他记录的标准化值。

获得所有标准化值

使用自动填充计算整个范围的标准化值