📅  最后修改于: 2020-12-30 00:32:59             🧑  作者: Mango
数据仓库通常具有三级(层)架构,其中包括:
由Data Warehouse服务器组成的底层,该服务器几乎总是RDBMS。它可能包括几个专门的数据集市和一个元数据存储库。
使用称为网关的应用程序接口提取来自运营数据库和外部源的数据(例如外部顾问提供的用户配置文件数据)。底层DBMS提供了一个网关,该网关允许客户程序生成要在服务器上执行的SQL代码。
网关的示例包括Microsoft提供的ODBC (开放数据库连接)和OLE-DB (数据库的开放链接和嵌入)以及JDBC (Java数据库连接)。
由OLAP服务器组成的中间层,用于快速查询数据仓库。
OLAP服务器使用以下任一方法实现
(1)关系OLAP(ROLAP)模型,即扩展的关系DBMS,它将多维数据上的功能映射到标准关系操作。
(2)多维OLAP(MOLAP)模型,即直接实现多维信息和操作的特殊目的服务器。
顶层,包含用于显示OLAP提供的结果的前端工具,以及用于OLAP生成的数据的数据挖掘的其他工具。
整体数据仓库架构如图所示:
元数据存储库存储定义DW对象的信息。它包含有关中层和顶层应用程序的以下参数和信息:
负载表现
数据仓库要求在狭窄的时间范围内定期增加新数据的加载;加载过程的性能应该以每小时数亿行和千兆字节来衡量,并且不能人为地限制数据业务量。
负荷处理
必须采取许多阶段将新数据或更新数据加载到数据仓库中,包括数据转换,过滤,重新格式化,建立索引和元数据更新。
数据质量管理
基于事实的管理要求最高的数据质量。尽管有“肮脏”的来源和庞大的数据库规模,仓库仍可确保本地一致性,全局一致性和参照完整性。
查询效果
数据仓库RDBMS的性能绝不能减慢基于事实的管理;大型,复杂的查询必须在几秒钟内完成,而不是几天。
TB级可伸缩性
数据仓库的规模正在以惊人的速度增长。如今,这些数据仓库的大小从几千兆字节到几千兆字节不等。