数据泛化是通过用更高级别的概念替换相对低级别的值来汇总数据的过程。它是描述性数据挖掘的一种形式。
数据泛化有两种基本方法:
1. 数据立方体方法:
- 它也称为 OLAP 方法。
- 这是一种有效的方法,因为它有助于制作过去的销售图表。
- 在这种方法中,计算和结果存储在数据立方体中。
- 它对数据立方体使用上卷和下钻操作。
- 这些操作通常涉及聚合函数,例如 count()、sum()、average() 和 max()。
- 然后,这些物化视图可用于决策支持、知识发现和许多其他应用程序。
2. 面向属性的归纳:
- 它是一种在线数据分析、面向查询和基于泛化的方法。
- 在这种方法中,我们根据相关数据集中每个属性的不同值进行泛化。在合并相同的元组并累积它们各自的计数以执行聚合之后。
- 它在提交 OLAP 或数据挖掘查询以供处理之前执行离线聚合。
- 另一方面,面向属性的归纳方法,至少在其最初的提议中,是一种关系数据库查询——面向的、基于广义的(在线数据分析技术)。
- 它不限于特定的度量或分类数据。
- 面向属性的归纳方法使用两种方法:
(一世)。属性移除。
(二)。属性泛化。