📜  什么是数据规范化?

📅  最后修改于: 2022-05-13 01:57:03.483000             🧑  作者: Mango

什么是数据规范化?

规范化是任何类型问题陈述的预处理阶段。特别是,规范化在软计算、云计算等领域中发挥着重要作用,用于在数据用于进一步阶段之前对数据进行操作、缩小或扩大数据范围。那里有很多归一化技术,即 Min-Max 归一化、Z-score 归一化和 Decimal scaling 归一化。

什么是数据规范化?

数据转换操作,例如规范化和聚合,是有助于数据提取过程成功的附加数据预处理过程。

数据规范化包括将数字列重新建模为标准比例。数据规范化通常被认为是清洁数据的发展。然而,深入研究,数据规范化的意义或目标是双重的:

  • 数据规范化是在所有记录和字段中显示相似的数据组织。
  • 它增加了条目类型的凝聚力,导致清理、潜在客户生成、细分和更高质量的数据。

数据规范化的重要性

数据规范化处理了各种异常情况,这些异常情况会使信息检查变得更加复杂。这些违规行为的一部分可以通过擦除信息、嵌入更多数据或刷新现有数据来体现。一旦从框架中解决并消除了这些错误,就可以通过数据和数据检查中的不同工作获得进一步的优势。

大多数情况下,通过数据规范化,可以设计数据集中的数据,以便对其进行可视化和检查。

数据规范化的优势

  • 我们可以有更多的聚集索引。
  • 索引搜索通常更快。
  • 数据修改命令更快。
  • 更少的空值和更少的冗余数据,使您的数据更紧凑。
  • 减少了数据修改异常。
  • 随着您的需求变化,规范化在概念上更清晰,更易于维护和更改。
  • 搜索、排序和创建索引更快,因为表更窄,数据页上可以容纳更多行。

标准化的需要

当我们处理不同尺度的属性时,通常需要标准化,否则,由于其他属性具有更大尺度的值,它可能会导致一个重要的同等重要属性(在较低尺度上)的有效性被稀释。简而言之,当存在多个属性但属性值在不同尺度上时,这可能会导致在执行数据挖掘操作时数据模型不佳。因此它们被归一化以使所有属性处于相同的范围内。

数据规范化方法

归一化是一种缩放技术或映射技术或预处理阶段。我们可以从现有的产品中找到新的产品系列。它对预测或预测目的很有帮助。众所周知,预测或预测的方法有很多种,但它们之间的差异很大。因此,为了保持大量的预测和预测预测,需要归一化技术来使它们更接近。有一些现有的标准化技术,如下所述:

最小-最大归一化在这种数据归一化技术中,对原始数据执行线性变换。从数据中获取最小值和最大值,并根据以下公式替换每个值。

其中A是属性数据,
Min(A), Max(A) 分别是 A 的最小和最大绝对值。
v' 是数据中每个条目的新值。
v 是数据中每个条目的旧值。
new_max(A), new_min(A) 分别是范围的最大值和最小值(即所需范围的边界值)。

十进制标准化通过移动数据值的小数点进行标准化。为了通过这种技术对数据进行归一化,我们将数据的每个值除以数据的最大绝对值使用以下公式将 data数据值v i归一化为v i '

其中j是使得 max(|v i '|)<1 的最小整数。

Z-score 归一化或零均值归一化在这种技术中,值根据数据 A 的均值和标准差进行归一化。使用的公式是:

v', v 分别是数据中每个条目的新旧。 σ A , A 分别是 A 的标准差和均值。