什么是数据规范化?
规范化是任何类型问题陈述的预处理阶段。特别是,规范化在软计算、云计算等领域中发挥着重要作用,用于在数据用于进一步阶段之前对数据进行操作、缩小或扩大数据范围。那里有很多归一化技术,即 Min-Max 归一化、Z-score 归一化和 Decimal scaling 归一化。
Normalization is scaling the data to be analyzed to a specific range such as [0.0, 1.0] to provide better results.
什么是数据规范化?
数据转换操作,例如规范化和聚合,是有助于数据提取过程成功的附加数据预处理过程。
数据规范化包括将数字列重新建模为标准比例。数据规范化通常被认为是清洁数据的发展。然而,深入研究,数据规范化的意义或目标是双重的:
- 数据规范化是在所有记录和字段中显示相似的数据组织。
- 它增加了条目类型的凝聚力,导致清理、潜在客户生成、细分和更高质量的数据。
数据规范化的重要性
数据规范化处理了各种异常情况,这些异常情况会使信息检查变得更加复杂。这些违规行为的一部分可以通过擦除信息、嵌入更多数据或刷新现有数据来体现。一旦从框架中解决并消除了这些错误,就可以通过数据和数据检查中的不同工作获得进一步的优势。
大多数情况下,通过数据规范化,可以设计数据集中的数据,以便对其进行可视化和检查。
数据规范化的优势
- 我们可以有更多的聚集索引。
- 索引搜索通常更快。
- 数据修改命令更快。
- 更少的空值和更少的冗余数据,使您的数据更紧凑。
- 减少了数据修改异常。
- 随着您的需求变化,规范化在概念上更清晰,更易于维护和更改。
- 搜索、排序和创建索引更快,因为表更窄,数据页上可以容纳更多行。
标准化的需要
当我们处理不同尺度的属性时,通常需要标准化,否则,由于其他属性具有更大尺度的值,它可能会导致一个重要的同等重要属性(在较低尺度上)的有效性被稀释。简而言之,当存在多个属性但属性值在不同尺度上时,这可能会导致在执行数据挖掘操作时数据模型不佳。因此它们被归一化以使所有属性处于相同的范围内。
数据规范化方法
归一化是一种缩放技术或映射技术或预处理阶段。我们可以从现有的产品中找到新的产品系列。它对预测或预测目的很有帮助。众所周知,预测或预测的方法有很多种,但它们之间的差异很大。因此,为了保持大量的预测和预测预测,需要归一化技术来使它们更接近。有一些现有的标准化技术,如下所述:
最小-最大归一化:在这种数据归一化技术中,对原始数据执行线性变换。从数据中获取最小值和最大值,并根据以下公式替换每个值。
其中A是属性数据,
Min(A), Max(A) 分别是 A 的最小和最大绝对值。
v' 是数据中每个条目的新值。
v 是数据中每个条目的旧值。
new_max(A), new_min(A) 分别是范围的最大值和最小值(即所需范围的边界值)。
十进制标准化:通过移动数据值的小数点进行标准化。为了通过这种技术对数据进行归一化,我们将数据的每个值除以数据的最大绝对值。使用以下公式将 data的数据值v i归一化为v i ' :
其中j是使得 max(|v i '|)<1 的最小整数。
Z-score 归一化或零均值归一化:在这种技术中,值根据数据 A 的均值和标准差进行归一化。使用的公式是:
v', v 分别是数据中每个条目的新旧。 σ A , A 分别是 A 的标准差和均值。