📜  数据挖掘中的数据缩减

📅  最后修改于: 2021-09-08 16:28:42             🧑  作者: Mango

先决条件 – 数据挖掘
数据约简的方法可以实现对原始数据的简明描述,在数量上少得多,但保持原始数据的质量。

数据缩减的方法:
这些解释如下。

1. 数据立方体聚合:
此技术用于以更简单的形式聚合数据。例如,假设您为 2012 年至 2014 年的分析收集的信息,该数据包括您公司每三个月的收入。它们涉及年销售额,而不是季度平均值,因此我们可以汇总数据,使结果数据汇总每年而不是每季度的总销售额。它总结了数据。

2.降维:
每当我们遇到任何不太重要的数据时,我们就会使用分析所需的属性。它减少了数据大小,因为它消除了过时或冗余的功能。

  1. 逐步向前选择 –
    选择从一组空的属性开始,稍后我们根据它们与其他属性的相关性来决定集合中最好的原始属性。我们知道它是统计学中的 p 值。

    假设数据集中有以下属性,其中很少有属性是冗余的。

    Initial attribute Set: {X1, X2, X3, X4, X5, X6}
    Initial reduced attribute set:  { }
    
    Step-1: {X1}
    Step-2: {X1, X2}
    Step-3: {X1, X2, X5}
    
    Final reduced attribute set: {X1, X2, X5} 
  2. 逐步向后选择 –
    这个选择从原始数据中的一组完整属性开始,在每个点,它消除了集合中最差的剩余属性。

    假设数据集中有以下属性,其中很少有属性是冗余的。

    Initial attribute Set: {X1, X2, X3, X4, X5, X6}
    Initial reduced attribute set:  {X1, X2, X3, X4, X5, X6 }
    
    Step-1: {X1, X2, X3, X4, X5}
    Step-2: {X1, X2, X3, X5}
    Step-3: {X1, X2, X5}
    
    Final reduced attribute set: {X1, X2, X5} 
  3. 前向和后向选择的组合——
    它使我们能够去除最坏的属性并选择最好的属性,从而节省时间并使过程更快。

3. 数据压缩:
数据压缩技术使用不同的编码机制(霍夫曼编码和游程编码)减少文件的大小。我们可以根据它们的压缩技术将其分为两种类型。

  • 无损压缩 –
    编码技术(运行长度编码)允许简单和最小的数据大小减少。无损数据压缩使用算法从压缩数据中恢复精确的原始数据。
  • 有损压缩 –
    诸如离散小波变换技术、PCA(主成分分析)之类的方法是这种压缩的示例。例如,JPEG 图像格式是有损压缩,但我们可以找到与原始图像等效的含义。在有损数据压缩中,解压后的数据可能与原始数据不同,但足以从中检索信息。

4. 数量减少:
在这种缩减技术中,实际数据被替换为数学模型或数据的较小表示而不是实际数据,重要的是仅存储模型参数。或者非参数方法,如聚类、直方图、采样。有关减少数量的更多信息,请访问以下链接:

5.离散化和概念层次操作:
数据离散化技术用于将连续性质的属性划分为具有间隔的数据。我们用小区间的标签替换属性的许多常数值。这意味着挖掘结果以简洁易懂的方式显示。

  • 自上而下的离散化——
    如果首先考虑一个或几个点(所谓的断点或分裂点)来划分整个属性集并重复此方法直到最后,则该过程称为自顶向下离散化,也称为分裂.
  • 自下而上的离散化——
    如果您首先将所有常量值视为分割点,其中一些通过区间中邻域值的组合被丢弃,该过程称为自底向上离散化。

概念层次:
它通过收集低级概念(例如年龄为 43)然后将其替换为高级概念(分类变量,例如中年或高级)来减少数据量。

对于数字数据,可以遵循以下技术:

  • 分档 –
    分箱是将数值变量更改为分类变量的过程。分类对应物的数量取决于用户指定的 bin 数量。
  • 直方图分析——
    与分箱过程一样,直方图用于将属性 X 的值划分为称为括号的不相交范围。有几个分区规则:
    1. 等频分区:根据值在数据集中出现的次数对值进行分区。
    2. 等宽分割:根据 bin 数量将值分割为固定间隙,即一组 0-20 范围内的值。
    3. 聚类:将相似的数据组合在一起。