📜  数据挖掘中的数据集成

📅  最后修改于: 2021-04-16 08:46:41             🧑  作者: Mango

数据集成是一种数据预处理技术,涉及将来自多个异构数据源的数据组合到一个一致的数据存储中,并提供数据的统一视图。这些源可能包括多个数据多维数据集,数据库或平面文件。

数据集成方法正式定义为三元组,其中,
G代表整体架构,
S代表模式的异构源,
M代表源查询和全局架构查询之间的映射。

数据集成主要有2种主要方法-一种是“紧密耦合方法”,另一种是“松散耦合方法”。

紧耦合:

  • 在这里,数据仓库被视为信息检索组件。
  • 在这种耦合中,通过ETL(提取,转换和加载)过程将数据从不同源组合到单个物理位置。

松耦合:

  • 这里,提供了一个接口,该接口从用户那里获取查询,以源数据库可以理解的方式对其进行转换,然后将查询直接发送到源数据库以获取结果。
  • 并且数据仅保留在实际的源数据库中。

数据集成中的问题:
数据集成期间没有要考虑的问题:模式集成,冗余,数据值冲突的检测和解决。简要解释如下。

1.模式集成:

  • 集成来自不同来源的元数据。
  • 来自多个源的现实世界实体被匹配称为实体标识问题。

    例如,数据分析师和计算机如何确保一个数据库中的客户ID和另一引用中的客户编号引用同一属性。

2.冗余:

  • 如果某个属性可以从另一个属性或一组属性中派生或获取,则它可能是多余的。
  • 属性不一致还会导致结果数据集中出现冗余。
  • 相关分析可以检测出一些冗余。

3.检测和解决数据值冲突:

  • 这是数据集成中的第三个重要问题。
  • 对于同一真实世界实体,来自其他不同来源的属性值可能会有所不同。
  • 一个系统中的属性可以记录在比另一个系统中的“相同”属性更低的抽象级别上。