数据仓库是在统一模式下组织的不同数据源的异构集合。构建数据仓库有两种方法:自顶向下方法和自底向上方法解释如下。
1. 自上而下的方法:
下面讨论了基本组件:
- 外部来源——
外部来源是收集数据的来源,与数据类型无关。数据也可以是结构化的、半结构化的和非结构化的。 - 舞台区——
由于从外部来源提取的数据不遵循特定格式,因此需要验证这些数据以加载到数据仓库中。为此,建议使用ETL工具。- E(Extracted):从外部数据源中提取数据。
- T(Transform):数据转换成标准格式。
- L(Load):数据转换成标准格式后加载到datawarehouse。
- 数据仓库 –
数据清洗后,作为中央存储库存储在数据仓库中。它实际上存储元数据,实际数据存储在数据集市中。请注意,数据仓库在这种自上而下的方法中以最纯粹的形式存储数据。 - 数据集市——
数据集市也是存储组件的一部分。它存储由单一权限处理的组织特定函数的信息。一个组织中可以有多个数据集市,具体取决于功能。我们也可以说数据集市包含存储在数据仓库中的数据的子集。 - 数据挖掘 –
分析数据仓库中存在的大数据的实践是数据挖掘。它用于借助数据挖掘算法找到数据库或数据仓库中存在的隐藏模式。这种方法被Inmon定义为——数据仓库作为整个组织的中央存储库,并且在创建完整的数据仓库之后从中创建数据集市。
自上而下方法的优点 –
- 由于数据集市是从数据仓库创建的,因此提供了数据集市的一致维度视图。
- 此外,该模型被认为是业务变化的最强模型。这就是为什么大型组织更愿意遵循这种方法。
- 从数据仓库创建数据集市很容易。
自上而下方法的缺点 –
- 设计和维护的成本、时间都非常高。
2. 自下而上的方法:
- 首先,数据是从外部来源提取的(与自上而下的方法相同)。
- 然后,数据通过暂存区(如上所述)并加载到数据集市而不是数据仓库。首先创建数据集市并提供报告功能。它针对单个业务领域。
- 然后将这些数据集市集成到数据仓库中。
这种方法是由Kinball给出的——首先创建数据集市,并在创建完整的数据集市后为分析和数据仓库提供精简视图。
自下而上方法的优点 –
- 由于首先创建数据集市,因此可以快速生成报告。
- 我们可以在这里容纳更多数量的数据集市,这样可以扩展数据仓库。
- 此外,设计该模型所花费的成本和时间相对较低。
自下而上方法的缺点 –
- 该模型不如自顶向下方法强,因为数据集市的维度视图与上述方法不一致。