数据仓库可以通过来自多个异构源的数据集成来表示。它是由Bill Inmon在1990年定义的。数据仓库是一个集成的,面向主题,时变且非易失性的数据收集。数据仓库由来自多个异构源的数据集成构成。它是用于数据分析和报告的系统。数据仓库是商业智能的核心要素。 BI技术不提供数据挖掘就可以提供业务运营的历史,当前和预测性视图,许多企业可能无法执行有效的市场分析,竞争对手的优势和劣势,获利的决策等。
数据仓库是指与组织的运营数据分开维护的数据存储库。多层数据仓库体系结构包含以下组件:
- 底层
- 中间层
- 最高层
底层(数据源和数据存储):
- 最底层的层通常由数据源和数据存储组成。
- 它是仓库数据库服务器。例如RDBMS。
- 在底层,使用应用程序接口(称为网关),从运营和外部资源中提取数据。
- 支持诸如ODBC(开放数据库连接),OLE-DB(数据库的开放链接和嵌入),JDBC(Java数据库连接)之类的应用程序接口。
中间层:
中间层是OLAP服务器,通常使用以下任一方法实现:
关系OLAP(ROLAP)模型(即,将关系操作映射到标准数据到标准数据的扩展关系DBMS);或多维OLAP(MOLAP)模型(即直接实现多维数据和操作的专用服务器)。
最高层:
顶层是前端客户端层,其包括查询和报告工具,分析工具和/或数据挖掘工具(例如,趋势分析,预测等)。
数据仓库模型:
从架构的角度来看,共有三种仓库模型-
企业仓库:
- 企业仓库收集分布在整个组织中的所有信息主题。
- 它提供了企业范围的数据集成,通常是一个或多个操作系统或外部信息提供者提供的数据,并且在功能上是跨功能的。
- 它通常包含详细数据以及摘要数据,大小范围从几GB到数百GB,TB或更大。可以是企业数据仓库。
- 传统的大型机,计算机超级服务器或并行体系结构已在平台上实现。这需要大量的商业建模,并且可能需要数年的设计和制造时间。
数据库:-
- 数据集市包含公司范围数据的子集,这对特定的用户组很重要。
- 范围仅限于特定的选定主题。
- 例如,营销数据集市可以将其主题限制为客户,商品和销售。
- 汇总了数据疣中包含的数据。数据疣通常应用于基于Unix / Linux或Windows的低成本部门服务器。
- 数据集市的实施周期更可能用几周而不是数月或数年来衡量。但是,从长远来看,复杂的集成会涉及到其设计和计划,而这种集成并非在整个企业范围内进行。
虚拟仓库:
- 虚拟仓库是操作数据库上的一组视图。
- 为了进行有效的查询处理,只有几个可能的摘要视图可以是物理的。
- 创建虚拟仓库很容易,但是需要在操作数据库服务器上增加容量。