📜  三层数据仓库架构

📅  最后修改于: 2020-12-30 00:32:59             🧑  作者: Mango

三层数据仓库架构

数据仓库通常具有三级(层)架构,其中包括:

  • 底层(数据仓库服务器)
  • 中间层(OLAP服务器)
  • 顶层(前端工具)。

由Data Warehouse服务器组成的底层,该服务器几乎总是RDBMS。它可能包括几个专门的数据集市和一个元数据存储库。

使用称为网关的应用程序接口提取来自运营数据库和外部源的数据(例如外部顾问提供的用户配置文件数据)。底层DBMS提供了一个网关,该网关允许客户程序生成要在服务器上执行的SQL代码。

网关的示例包括Microsoft提供的ODBC (开放数据库连接)和OLE-DB (数据库的开放链接和嵌入)以及JDBC (Java数据库连接)。

由OLAP服务器组成的中间层,用于快速查询数据仓库。

OLAP服务器使用以下任一方法实现

(1)关系OLAP(ROLAP)模型,即扩展的关系DBMS,它将多维数据上的功能映射到标准关系操作。

(2)多维OLAP(MOLAP)模型,即直接实现多维信息和操作的特殊目的服务器。

顶层,包含用于显示OLAP提供的结果的前端工具,以及用于OLAP生成的数据的数据挖掘的其他工具。

整体数据仓库架构如图所示:

元数据存储库存储定义DW对象的信息。它包含有关中层和顶层应用程序的以下参数和信息:

  • DW结构的描述,包括仓库架构,维度,层次结构,数据集市位置和内容等。
  • 操作元数据,通常描述存储数据的币种级别,即活动,已归档或清除,以及仓库监视信息,即使用情况统计信息,错误报告,审计等。
  • 系统性能数据,包括索引,用于改善数据访问和检索性能。
  • 有关来自操作数据库的映射的信息,该数据库提供了源RDBMS及其内容,清理和转换规则等。
  • 汇总算法,预定义查询和报告业务数据,其中包括业务术语和定义,所有权信息等。

数据仓库原理

负载表现

数据仓库要求在狭窄的时间范围内定期增加新数据的加载;加载过程的性能应该以每小时数亿行和千兆字节来衡量,并且不能人为地限制数据业务量。

负荷处理

必须采取许多阶段将新数据或更新数据加载到数据仓库中,包括数据转换,过滤,重新格式化,建立索引和元数据更新。

数据质量管理

基于事实的管理要求最高的数据质量。尽管有“肮脏”的来源和庞大的数据库规模,仓库仍可确保本地一致性,全局一致性和参照完整性。

查询效果

数据仓库RDBMS的性能绝不能减慢基于事实的管理;大型,复杂的查询必须在几秒钟内完成,而不是几天。

TB级可伸缩性

数据仓库的规模正在以惊人的速度增长。如今,这些数据仓库的大小从几千兆字节到几千兆字节不等。