📜  数据仓库架构

📅  最后修改于: 2021-09-10 01:31:13             🧑  作者: Mango

数据仓库是在统一模式下组织的不同数据源的异构集合。构建数据仓库有两种方法:自顶向下方法和自底向上方法解释如下。

1. 自上而下的方法:

下面讨论了基本组件:

  1. 外部来源——
    外部来源是收集数据的来源,与数据类型无关。数据也可以是结构化的、半结构化的和非结构化的。
  2. 舞台区——
    由于从外部来源提取的数据不遵循特定格式,因此需要验证这些数据以加载到数据仓库中。为此,建议使用ETL工具。
    • E(Extracted):从外部数据源中提取数据。
    • T(Transform):数据转换成标准格式。
    • L(Load):数据转换成标准格式后加载到datawarehouse。
  3. 数据仓库 –
    数据清洗后,作为中央存储库存储在数据仓库中。它实际上存储元数据,实际数据存储在数据集市中。请注意,数据仓库在这种自上而下的方法中以最纯粹的形式存储数据。
  4. 数据集市——
    数据集市也是存储组件的一部分。它存储由单一权限处理的组织特定函数的信息。一个组织中可以有多个数据集市,具体取决于功能。我们也可以说数据集市包含存储在数据仓库中的数据的子集。
  5. 数据挖掘 –
    分析数据仓库中存在的大数据的实践是数据挖掘。它用于借助数据挖掘算法找到数据库或数据仓库中存在的隐藏模式。

    这种方法被Inmon定义为——数据仓库作为整个组织的中央存储库,并且在创建完整的数据仓库之后从中创建数据集市。

自上而下方法的优点 –

  1. 由于数据集市是从数据仓库创建的,因此提供了数据集市的一致维度视图。
  2. 此外,该模型被认为是业务变化的最强模型。这就是为什么大型组织更愿意遵循这种方法。
  3. 从数据仓库创建数据集市很容易。

自上而下方法的缺点 –

  1. 设计和维护的成本、时间都非常高。

2. 自下而上的方法:

  1. 首先,数据是从外部来源提取的(与自上而下的方法相同)。
  2. 然后,数据通过暂存区(如上所述)并加载到数据集市而不是数据仓库。首先创建数据集市并提供报告功能。它针对单个业务领域。
  3. 然后将这些数据集市集成到数据仓库中。

这种方法是由Kinball给出的——首先创建数据集市,并在创建完整的数据集市后为分析和数据仓库提供精简视图。

自下而上方法的优点 –

  1. 由于首先创建数据集市,因此可以快速生成报告。
  2. 我们可以在这里容纳更多数量的数据集市,这样可以扩展数据仓库。
  3. 此外,设计该模型所花费的成本和时间相对较低。

自下而上方法的缺点 –

  1. 该模型不如自顶向下方法强,因为数据集市的维度视图与上述方法不一致。