先决条件:数据预处理
为什么要减少数据量?
数据缩减过程减少了数据的大小,使其适合进行分析。在缩减过程中,必须保留数据的完整性,并减少数据量。有许多技术可用于减少数据量。减少雾度是其中之一。
减少雾度:
Numerosity Reduction是一种数据缩减技术,可以用较小形式的数据表示形式替换原始数据。有两种方法可以numerosity还原型Parametric
和Non-Parametric
方法。
参数化方法–
对于参数方法,使用某种模型表示数据。该模型用于估计数据,因此仅需要存储数据参数,而不是实际数据。 Regression
和对Log-Linear
方法用于创建此类模型。
回归:
回归可以是简单线性回归或多重线性回归。当只有一个独立属性时,这种回归模型称为简单线性回归,而如果有多个独立属性,则这种回归模型称为多重线性回归。
在线性回归中,将数据建模为拟合直线。例如,可以使用等式y = ax+b
将随机变量y建模为另一个随机变量x的线性函数。
其中a
和b
(回归系数)分别指定直线的斜率和y轴截距。
在多元线性回归中, y
将被建模为两个或多个预测变量(独立变量)的线性函数。对数线性模型:
对数线性模型可用于基于维组合的较小子集来估计一组离散属性在多维空间中每个数据点的概率。这允许从较低维的属性构造较高维的数据空间。
回归和对数线性模型都可以用于稀疏数据,尽管它们的应用可能受到限制。
非参数方法–
这些方法用于存储数据的简化表示形式,包括直方图,聚类,采样和数据立方体聚合。
直方图:
直方图是用频率表示的数据表示。它使用合并来近似数据分布,并且是数据缩减的一种流行形式。
聚类:
群集将数据划分为组/集群。该技术将整个数据划分为不同的群集。在数据精简中,数据的集群表示用于替换实际数据。它还有助于检测数据中的异常值。
采样:
采样可用于减少数据量,因为它允许用较小的随机数据样本(或子集)表示较大的数据集。
数据多维数据集聚合:
数据多维数据集聚合涉及将数据从详细级别移动到更少的维度。所得数据集的容量较小,而不会丢失分析任务所需的信息。