📜  数据挖掘-评估

📅  最后修改于: 2021-01-11 06:27:06             🧑  作者: Mango


数据仓库

数据仓库具有以下特征,以支持管理层的决策过程-

  • 面向主题-数据仓库是面向主题的,因为它为我们提供了围绕主题的信息,而不是组织的持续运营。这些主题可以是产品,客户,供应商,销售,收入等。数据仓库不关注正在进行的操作,而是关注数据的建模和分析以进行决策。

  • 集成-数据仓库是通过集成来自异构源(例如关系数据库,平面文件等)的数据而构建的。这种集成可增强对数据的有效分析。

  • 时变-在特定时间段内识别在数据仓库中收集的数据。数据仓库中的数据从历史角度提供信息。

  • 非易失性-非易失性意味着在向其添加新数据时不会删除先前的数据。数据仓库与操作数据库保持隔离,因此操作数据库中的频繁更改不会反映在数据仓库中。

数据仓库

数据仓库是构建和使用数据仓库的过程。通过集成来自多个异构源的数据来构建数据仓库。它支持分析报告,结构化和/或临时查询以及决策。

数据仓库涉及数据清理,数据集成和数据合并。为了集成异构数据库,我们有以下两种方法-

  • 查询驱动方法
  • 更新驱动方法

查询驱动方法

这是集成异构数据库的传统方法。该方法用于在多个异构数据库之上构建包装器和集成器。这些集成器也称为中介器。

查询驱动方法的过程

  • 当向客户端发出查询时,元数据字典会将查询转换为适合所涉及的各个异构站点的查询。

  • 现在,这些查询已映射并发送到本地查询处理器。

  • 来自异构站点的结果将集成到全局答案集中。

缺点

这种方法有以下缺点-

  • 查询驱动方法需要复杂的集成和过滤过程。

  • 对于频繁的查询而言,这是非常低效且非常昂贵的。

  • 对于需要聚合的查询,此方法非常昂贵。

更新驱动方法

今天的数据仓库系统遵循更新驱动的方法,而不是前面讨论的传统方法。在更新驱动的方法中,来自多个异构源的信息被预先集成并存储在仓库中。此信息可用于直接查询和分析。

好处

这种方法具有以下优点-

  • 这种方法提供了高性能。

  • 可以预先在语义数据存储中复制,处理,集成,注释,汇总和重构数据。

查询处理不需要与本地源的处理接口。

从数据仓库(OLAP)到数据挖掘(OLAM)

在线分析挖掘与在线分析处理相集成,具有数据挖掘和多维数据库中的挖掘知识。这是显示OLAP和OLAM集成的图-

OLAP到OLAM

OLAM的重要性

OLAM很重要,原因如下:

  • 数据仓库中的高质量数据-需要数据挖掘工具才能处理集成,一致和干净的数据。这些步骤在数据预处理中非常昂贵。通过这种预处理构建的数据仓库是OLAP和数据挖掘的高质量数据的宝贵来源。

  • 数据仓库周围可用的信息处理基础架构-信息处理基础架构是指对多个异构数据库,Web访问和服务设施,报告和OLAP分析工具的访问,集成,合并和转换。

  • 基于OLAP的探索性数据分析-有效的数据挖掘需要探索性数据分析。 OLAM为在各种数据子集和不同抽象级别上的数据挖掘提供了便利。

  • 在线选择数据挖掘功能-将OLAP与多种数据挖掘功能和在线分析挖掘集成在一起,使用户可以灵活地选择所需的数据挖掘功能并动态交换数据挖掘任务。