📅  最后修改于: 2021-01-07 05:53:12             🧑  作者: Mango
数据仓库是构建和使用数据仓库的过程。通过集成来自多个异构源的数据来构建数据仓库,这些数据支持分析报告,结构化和/或临时查询以及决策。数据仓库涉及数据清理,数据集成和数据合并。
有决策支持技术可帮助利用数据仓库中的可用数据。这些技术可帮助主管人员快速有效地使用仓库。他们可以收集数据,对其进行分析并根据仓库中存在的信息做出决策。仓库中收集的信息可以在以下任何域中使用-
调整生产策略-通过重新定位产品并通过比较季度或年度销售额来管理产品组合,可以很好地调整产品策略。
客户分析-客户分析是通过分析客户的购买偏好,购买时间,预算周期等完成的。
运营分析-数据仓库还有助于客户关系管理和环境纠正。这些信息还使我们能够分析业务运营。
为了集成异构数据库,我们有两种方法-
这是集成异构数据库的传统方法。该方法用于在多个异构数据库之上构建包装器和集成器。这些集成器也称为中介器。
当向客户端发出查询时,元数据字典会将查询转换为适用于所涉及的各个异构站点的适当形式。
现在,这些查询已映射并发送到本地查询处理器。
来自异构站点的结果将集成到全局答案集中。
查询驱动的方法需要复杂的集成和过滤过程。
这种方法效率很低。
对于频繁查询而言,这是非常昂贵的。
对于需要聚合的查询,此方法也非常昂贵。
这是传统方法的替代方法。今天的数据仓库系统遵循更新驱动的方法,而不是前面讨论的传统方法。在更新驱动的方法中,来自多个异构源的信息被预先集成并存储在仓库中。此信息可用于直接查询和分析。
这种方法具有以下优点-
这种方法提供了高性能。
预先在语义数据存储中复制,处理,集成,批注,汇总和重组数据。
查询处理不需要接口来处理本地源中的数据。
以下是数据仓库工具和实用程序的功能-
数据提取-涉及从多个异构源收集数据。
数据清理-涉及查找和纠正数据中的错误。
数据转换-涉及将数据从传统格式转换为仓库格式。
数据加载-涉及排序,汇总,合并,检查完整性以及构建索引和分区。
刷新-涉及从数据源到仓库的更新。
注–数据清理和数据转换是提高数据质量和数据挖掘结果的重要步骤。