📜  在 DBMS 中构建数据仓库

📅  最后修改于: 2021-10-19 05:19:13             🧑  作者: Mango

数据仓库是在统一模式下组织的不同数据源的异构集合。构建者在构建数据仓库时应该广泛地考虑仓库的预期用途。在设计阶段,无法预测所有可能的查询或分析。数据仓库的一些特点是:

  • 面向学科
  • 融合的
  • 时变
  • 非挥发性

建立数据仓库——
构建任何数据仓库所需的一些步骤如下:

  1. 从不同的数据源中提取数据(跨国):
    为了构建数据仓库,从各种数据源中提取数据并将该数据存储在中央存储区中。为了提取数据,微软提出了一个很好的工具。当您购买 Microsoft SQL Server 时,此工具将免费提供。
  2. 转换跨国数据:
    有各种 DBMS,许多公司在其中存储其数据。其中一些是:MS Access、MS SQL Server、Oracle、Sybase 等。此外,这些公司将数据保存在电子表格、平面文件、邮件系统等中。在构建数据仓库时将所有这些来源的数据关联起来。
  3. 将数据(转换)加载到维度数据库中:
    建立维度模型后,将数据加载到维度数据库中。此过程将多个列组合在一起,或者可能将一个字段拆分为多个列。有两个阶段可以执行数据转换,它们是:将数据加载到维度模型中或从其来源提取数据。
  4. 要购买前端报告工具:
    市场上有一流的分析工具。这些工具由几个主要供应商提供。 Microsoft 自行发布了一种具有成本效益的工具和数据分析器。

对于仓库,需要获取数据。必须使用多个异构源进行数据提取,例如数据库。数据形成必须在仓库内完成,因此需要一致性。必须从不相关的来源对数据的名称、含义和域进行协调。还需要在仓库的数据模型中安装来自各种来源的数据。

可以将数据从面向对象、关系或遗留数据库转换为多维模型。数据仓库建设中最大的劳动力需求之一是数据清理,这是复杂的过程之一。在数据加载到仓库之前,应该对数据进行清洗。所有的装载工作必须在仓库中完成,以获得更好的性能。唯一可行且更好的方法是增量更新。数据仓库中的数据存储:

  • 刷新数据
  • 提供时变数据
  • 按照仓库的数据模型存储数据
  • 清除数据
  • 支持仓库数据的更新

数据仓库的一些重要设计是:

  • 模块化组件设计
  • 考虑并行架构
  • 分布式架构的考虑
  • 使用保护
  • 可用来源的特征
  • 元数据组件的设计
  • 数据模型的拟合

仓库设计的主要决定性特征是组织分布式计算环境的架构。分布式仓库和联邦仓库是两种基本的分布式架构。 分布式仓库有一些好处,其中一些是:

  • 改进的负载平衡
  • 性能的可扩展性
  • 更高的可用性

    联邦仓库是自治数据仓库的去中心化联盟。他们每个人都有自己的元数据存储库。现在,大型组织开始选择联合数据集市,而不是构建庞大的数据仓库。