📜  数据仓库-系统过程

📅  最后修改于: 2021-01-07 05:55:01             🧑  作者: Mango


我们在操作数据库上有固定数量的操作要应用,并且我们有定义明确的技术,例如使用规范化数据保持表较小等。这些技术适合于提供解决方案。但是在决策支持系统的情况下,我们不知道将来需要执行哪些查询和操作。因此,应用于操作数据库的技术不适用于数据仓库。

在本章中,我们将讨论如何在Unix和关系数据库等顶级开放系统技术上构建数据仓库解决方案。

数据仓库中的流程

构成数据仓库的主要过程有四个-

  • 提取并加载数据。
  • 清理和转换数据。
  • 备份和存档数据。
  • 管理查询并将其定向到适当的数据源。

工艺流程

提取和加载过程

数据提取从源系统获取数据。数据加载将提取的数据加载到数据仓库中。

–在将数据加载到数据仓库之前,必须重建从外部来源提取的信息。

控制过程

控制过程涉及确定何时开始数据提取和数据一致性检查。控制过程可确保按正确的顺序和正确的时间执行工具,逻辑模块和程序。

何时启动提取

提取数据时,数据必须处于一致状态,即数据仓库应向用户表示信息的单个一致版本。

例如,在电信部门的客户分析数据仓库中,将周三晚上8点来自客户数据库的客户列表与周二晚上8点之前的客户订阅事件进行合并是不合逻辑的。这意味着我们正在寻找没有相关订阅的客户。

加载数据

提取数据后,将其加载到临时数据存储中,在其中进行清理并使其保持一致。

–仅当所有数据源均已加载到临时数据存储中时,才执行一致性检查。

清洁和改造过程

一旦提取数据并将其加载到临时数据存储中,就该执行清理和转换了。这是清理和转换中涉及的步骤列表-

  • 清理并将加载的数据转换为结构
  • 对数据进行分区
  • 聚合

清除加载的数据并将其转换为结构

清理和转换加载的数据有助于加快查询速度。这可以通过使数据一致-

  • 本身。
  • 与同一数据源中的其他数据。
  • 与其他源系统中的数据。
  • 仓库中存在的现有数据。

转换涉及将源数据转换为结构。结构化数据可提高查询性能并降低运营成本。必须转换数据仓库中包含的数据以支持性能要求并控制持续的运营成本。

对数据进行分区

它将优化硬件性能并简化数据仓库的管理。在这里,我们将每个事实表划分为多个单独的分区。

聚合

需要进行汇总以加快常见查询的速度。聚合依赖于以下事实:大多数常见查询将分析详细数据的子集或聚合。

备份和存档数据

为了在数据丢失,软件故障或硬件故障的情况下恢复数据,有必要进行定期备份。归档涉及以某种格式将旧数据从系统中删除,以便可以在需要时快速恢复它们。

例如,在零售销售分析数据仓库中,可能需要将数据保留3年,而最近6个月的数据则保持在线。在这种情况下,经常需要能够对今年和去年进行逐月比较。在这种情况下,我们需要从存档中还原一些数据。

查询管理流程

此过程执行以下功能-

  • 管理查询。

  • 帮助加快查询的执行时间。

  • 将查询定向到其最有效的数据源。

  • 确保以最有效的方式使用所有系统源。

  • 监视实际的查询配置文件。

仓库管理过程使用此过程中生成的信息来确定要生成的汇总。在将信息定期加载到数据仓库期间,通常不会执行此过程。