数据仓库架构 - 芒果文档

📌 相关文章

📜 数据仓库架构

📅 最后修改于: 2021-09-10 01:31:13 🧑 作者: Mango

数据仓库是在统一模式下组织的不同数据源的异构集合。构建数据仓库有两种方法：自顶向下方法和自底向上方法解释如下。

1. 自上而下的方法：

下面讨论了基本组件：

外部来源——
外部来源是收集数据的来源，与数据类型无关。数据也可以是结构化的、半结构化的和非结构化的。
舞台区——
由于从外部来源提取的数据不遵循特定格式，因此需要验证这些数据以加载到数据仓库中。为此，建议使用ETL工具。
- E(Extracted)：从外部数据源中提取数据。
- T(Transform)：数据转换成标准格式。
- L(Load)：数据转换成标准格式后加载到datawarehouse。
数据仓库 –
数据清洗后，作为中央存储库存储在数据仓库中。它实际上存储元数据，实际数据存储在数据集市中。请注意，数据仓库在这种自上而下的方法中以最纯粹的形式存储数据。
数据集市——
数据集市也是存储组件的一部分。它存储由单一权限处理的组织特定函数的信息。一个组织中可以有多个数据集市，具体取决于功能。我们也可以说数据集市包含存储在数据仓库中的数据的子集。
数据挖掘 –
分析数据仓库中存在的大数据的实践是数据挖掘。它用于借助数据挖掘算法找到数据库或数据仓库中存在的隐藏模式。
这种方法被Inmon定义为——数据仓库作为整个组织的中央存储库，并且在创建完整的数据仓库之后从中创建数据集市。

自上而下方法的优点 –

由于数据集市是从数据仓库创建的，因此提供了数据集市的一致维度视图。
此外，该模型被认为是业务变化的最强模型。这就是为什么大型组织更愿意遵循这种方法。
从数据仓库创建数据集市很容易。

自上而下方法的缺点 –

设计和维护的成本、时间都非常高。

2. 自下而上的方法：

首先，数据是从外部来源提取的(与自上而下的方法相同)。
然后，数据通过暂存区(如上所述)并加载到数据集市而不是数据仓库。首先创建数据集市并提供报告功能。它针对单个业务领域。
然后将这些数据集市集成到数据仓库中。

这种方法是由Kinball给出的——首先创建数据集市，并在创建完整的数据集市后为分析和数据仓库提供精简视图。

自下而上方法的优点 –

由于首先创建数据集市，因此可以快速生成报告。
我们可以在这里容纳更多数量的数据集市，这样可以扩展数据仓库。
此外，设计该模型所花费的成本和时间相对较低。

自下而上方法的缺点 –

该模型不如自顶向下方法强，因为数据集市的维度视图与上述方法不一致。