数据挖掘中的预处理:
数据预处理是一种数据挖掘技术,用于将原始数据转换为有用且有效的格式。
数据预处理涉及的步骤:
1. 数据清洗:
数据可能有许多不相关和缺失的部分。为了处理这部分,完成了数据清洗。它涉及处理缺失数据、噪声数据等。
- (一种)。缺失数据:
当数据中缺少某些数据时,就会出现这种情况。它可以以各种方式处理。
他们之中有一些是:- 忽略元组:
这种方法仅适用于我们拥有的数据集非常大且元组中缺少多个值的情况。 - 填充缺失值:
有多种方法可以完成此任务。您可以选择通过属性均值或最可能的值手动填充缺失值。
- 忽略元组:
- (b)。噪声数据:
噪声数据是机器无法解释的无意义数据。它可以由错误的数据收集、数据输入错误等产生。它可以通过以下方式处理:- 分档方法:
此方法适用于已排序的数据以对其进行平滑处理。将整个数据分成大小相等的段,然后执行各种方法来完成任务。每个分段单独处理。可以用平均值替换段中的所有数据,或者可以使用边界值来完成任务。 - 回归:
在这里,可以通过将数据拟合到回归函数来使数据变得平滑。使用的回归可以是线性的(具有一个自变量)或多个(具有多个自变量)。 - 聚类:
这种方法将相似的数据分组在一个集群中。异常值可能未被检测到,或者它会落在集群之外。
- 分档方法:
2. 数据转换:
采取此步骤是为了将数据转换为适合挖掘过程的适当形式。这包括以下方式:
- 正常化:
这样做是为了在指定范围(-1.0 到 1.0 或 0.0 到 1.0)内缩放数据值 - 属性选择:
在此策略中,从给定的属性集构建新属性以帮助挖掘过程。 - 离散化:
这样做是为了用区间级别或概念级别替换数字属性的原始值。 - 概念层次生成:
在这里,属性在层次结构中从较低级别转换为较高级别。例如 – 属性“城市”可以转换为“国家”。
3. 数据缩减:
由于数据挖掘是一种用于处理大量数据的技术。在处理大量数据时,在这种情况下分析变得更加困难。为了摆脱这种情况,我们使用了数据缩减技术。它旨在提高存储效率并降低数据存储和分析成本。
数据缩减的各个步骤是:
- 数据立方体聚合:
对数据应用聚合操作以构建数据立方体。 - 属性子集选择:
应该使用高度相关的属性,其余的都可以丢弃。为了执行属性选择,可以使用属性的显着性水平和p值。p值大于显着性水平的属性可以被丢弃。 - 数量减少:
这使得能够存储数据模型而不是整个数据,例如:回归模型。 - 降维:
这通过编码机制减少了数据的大小。它可以是有损的或无损的。如果从压缩数据重建后,可以恢复原始数据,这种减少称为无损减少,否则称为有损减少。两种有效的降维方法是:小波变换和PCA(主成分分析)。