先决条件——数据仓库架构
数据仓库用于存储有助于为业务制定战略决策的历史数据。它用于帮助分析数据的在线分析处理 (OLAP)。数据仓库有助于业务主管系统地组织、接受和使用他们的数据来制定战略决策。
什么是数据仓库?
数据仓库有多种定义,很难制定一个严格的定义。逐渐地,数据仓库是一个与组织的操作数据库分开的数据存储库。数据仓库系统允许集成多种应用系统。它们通过提供用于分析的聚合历史数据的可靠计划来支持信息处理。
数据仓库中的数据来自组织的运营系统以及其他外部来源。这些统称为源系统。从源系统中提取的数据存储在称为数据暂存区的区域中,在该区域中数据经过清理、转换、组装和复制以准备数据仓库中的数据。
数据暂存区通常是一组机器,在其中进行排序和顺序处理等简单活动。数据暂存区不提供。只要系统提供查询或表示服务,它就被归类为表示服务器。演示服务器是从数据暂存区加载数据并直接存储以供最终用户、报表作者和其他应用程序查询的目标机器。
数据仓库需要三种不同类型的系统——
- 源系统
- 数据暂存区
- 演示服务器
数据从数据源区通过暂存区移动到表示服务器。整个过程更好地称为 ETL(提取、转换和加载)或 ETT(提取、转换和传输)。
数据仓库架构的组成部分及其任务:
1. 运营来源——
- 操作源是由操作数据和外部数据组成的数据源。
- 数据可以来自关系型 DBMS,如 Informix、Oracle。
2. 负载管理器 –
- 负载管理器执行与提取数据仓库中的加载数据相关的所有操作。
- 这些任务包括简单的数据转换,以准备进入仓库的数据。
3. 仓库管理 –
- 仓库经理负责仓库管理流程。
- 仓库管理员执行的操作是数据的分析、聚合、备份和收集,数据的去规范化。
4. 查询管理器 –
- 查询管理器执行与用户查询管理相关的所有任务。
- 查询管理器的复杂性由最终用户访问操作工具和数据库提供的功能决定。
5. 详细数据——
- 它用于存储数据库模式中的所有详细数据。
- 详细数据被加载到数据仓库中以补充收集的数据。
6. 汇总数据 –
- 汇总数据是存储预定义聚合的数据仓库的一部分
- 这些聚合由仓库经理生成。
7. 存档和备份数据 –
- 存储详细数据和汇总数据是为了存档和备份。
- 数据被重新定位到存储档案,如磁带或光盘。
8. 元数据——
- 元数据基本上是存储在数据之上的数据。
- 用于提取和装载过程、仓库、管理过程和查询管理过程。
9. 最终用户访问工具 –
- 最终用户访问工具包括分析、报告和挖掘。
- 通过使用最终用户访问工具,用户可以与仓库链接。