数据仓库可通过来自多个异构源的数据集成来表示。它由Bill Inmon在 1990 年定义。数据仓库是一个集成的、面向主题的、时变的、非易失性的数据集合。数据仓库由来自多个异构源的数据集成构成。它是一个用于数据分析和报告的系统。数据仓库是商业智能的核心因素。 BI 技术提供业务运营的历史、当前和预测视图,无需数据挖掘,许多企业可能无法执行有效的市场分析、竞争对手的优势和劣势、盈利决策等。
数据仓库是指与组织的运营数据分开维护的数据存储库。多层数据仓库架构由以下组件组成:
- 底层
- 中间层
- 顶级
底层(数据源和数据存储):
- 底层通常由数据源和数据存储组成。
- 它是一个仓库数据库服务器。例如 RDBMS。
- 在底层,使用应用程序接口(称为网关),从操作和外部源中提取数据。
- 应用程序接口如 ODBC(开放数据库连接)、OLE-DB(开放链接和嵌入数据库)、JDBC(Java数据库连接)都被支持。
中间层:
中间层是一个 OLAP 服务器,通常使用以下任一方式实现:
关系OLAP(ROLAP)模型(即扩展的关系DBMS,将操作从标准数据映射到标准数据);或多维OLAP(MOLAP)模型(即直接实现多维数据和操作的专用服务器)。
顶级:
顶层是前端客户端层,包括查询和报告工具、分析工具和/或数据挖掘工具(例如趋势分析、预测等)。
数据仓库模型:
从架构的角度来看,有三种仓库模型——
企业仓库:-
- 企业仓库收集分布在整个组织中的所有信息主题。
- 它提供企业范围的数据集成,通常来自一个或多个操作系统或外部信息提供者,并且在范围内是跨职能的。
- 它通常包含详细数据和汇总数据,大小范围从几 GB 到数百 GB、TB 或更多。可以是企业数据仓库。
- 传统的大型机、计算机超级服务器或并行架构已在平台上实现。这需要大量的商业建模,并且可能需要数年时间来设计和制造。
数据库:-
- 数据集市包含对特定用户组很重要的公司范围数据的子集。
- 范围仅限于特定的选定主题。
- 例如,营销数据集市可能会将其主题限制为客户、商品和销售。
- 汇总了数据疣中包含的数据。数据疣通常应用于基于 Unix/Linux 或 Windows 的低成本部门服务器。
- 数据集市的实施周期更有可能以数周而不是数月或数年来衡量。但是,可以从长远来看,复杂的集成涉及其设计和规划并不是企业范围的。
虚拟仓库:-
- 虚拟仓库是操作数据库上的一组视图。
- 为了高效的查询处理,只有少数可能的摘要视图可以是物理的。
- 创建虚拟仓库很容易,但需要操作数据库服务器上的额外容量。