📜  数据仓库建模

📅  最后修改于: 2020-12-30 00:37:42             🧑  作者: Mango

数据仓库建模

数据仓库建模是设计数据仓库的详细信息和摘要信息的模式的过程。数据仓库建模的目标是开发一个描述数据仓库需要支持的现实或事实的至少一部分的模式。

数据仓库建模是构建数据仓库的重要阶段,主要有两个原因。首先,通过该架构,数据仓库客户端可以可视化仓库数据之间的关系,从而更加轻松地使用它们。其次,精心设计的架构允许出现有效的数据仓库结构,以帮助降低实现仓库的成本并提高使用效率。

数据仓库中的数据建模不同于运营数据库系统中的数据建模。数据仓库的主要函数是支持DSS流程。因此,数据仓库建模的目的是使数据仓库有效地支持对长期信息的复杂查询。

相反,运营数据库系统中的数据建模的目标是有效地支持数据库中的简单事务,例如检索,插入,删除和更改数据。此外,数据仓库是为客户设计的,具有有关企业的一般信息知识,而运营数据库系统则更倾向于由软件专家用于创建独特的应用程序。

给定图中说明了数据仓库模型。

特定仓库本身内的数据具有特定的体系结构,重点是各个摘要级别,如图所示:

当前的详细记录非常重要,因为它:

  • 反映最新的事件,通常是最刺激的事件。
  • 它以最低粒度方法保存,因此数量众多。
  • 它始终(几乎)保存在磁盘存储中,该磁盘存储可快速访问但昂贵且难以管理。

较旧的详细数据以某种形式的大容量存储形式存储,并且不经常访问并将其保持在与当前详细数据一致的级别详细信息中。

简要概括的数据是从当前详细级别的低详细级别提取的数据,通常存储在磁盘存储中。在构建数据仓库时,必须记住汇总的时间单位以及汇总数据将包含的组件或属性。

高度汇总的数据非常紧凑,可以直接使用,甚至可以在仓库外部找到。

元数据是数据仓库的最后一个元素,实际上是各个维度的元数据,它与从运营数据中提取的文件不同,但是它被用作:

  • 一个目录,以帮助DSS研究人员查找数据仓库中的项目。
  • 当数据从操作数据更改为数据仓库环境时,记录映射的指南。
  • 当前,准确数据以及轻度摘要信息和高度摘要数据之间的摘要方法指南。

数据建模生命周期

在本节中,我们定义了数据建模生命周期。这是转换业务需求以实现在IT系统中存储,维护和访问数据的目标的直接过程。结果是企业数据仓库的逻辑和物理数据模型。

数据建模生命周期的目标主要是为业务信息创建存储区域。该区域来自逻辑和物理数据建模阶段,如图所示:

概念数据模型

概念数据模型可识别不同实体之间的最高级关系。

概念数据模型的特征

  • 它包含基本实体及其之间的关系。
  • 没有指定属性。
  • 没有指定主键。

我们可以看到,通过概念数据模型显示的唯一数据是定义数据的实体以及这些实体之间的关系。如概念数据模型所示,没有其他数据。

逻辑数据模型

逻辑数据模型以尽可能多的结构定义信息,而无需观察如何在数据库中以物理方式实现这些信息。逻辑数据建模的主要目标是通过一个视图-逻辑数据模型来记录业务数据结构,流程,规则和关系。

逻辑数据模型的功能

  • 它涉及所有实体及其之间的关系。
  • 指定了每个实体的所有属性。
  • 说明了每个实体的主键。
  • 指定了参照完整性(FK关系)。

设计逻辑数据模型的阶段如下:

  • 指定所有实体的主键。
  • 列出不同实体之间的关系。
  • 列出每个实体的所有属性。
  • 正常化。
  • 没有列出数据类型

物理数据模型

物理数据模型描述了如何将模型显示在数据库中。物理数据库模型演示了所有表结构,列名,数据类型,约束,主键,外键以及表之间的关系。物理数据建模的目的是将逻辑数据模型映射到托管数据仓库的RDBMS系统的物理结构。这包含定义物理RDBMS结构,例如在存储信息时要使用的表和数据类型。它还可能包括定义新数据结构以增强查询性能。

物理数据模型的特征

  • 指定所有表和列。
  • 外键用于识别表之间的关系。

物理数据模型设计的步骤如下:

  • 将实体转换为表格。
  • 将关系转换为外键。
  • 将属性转换为列。

数据仓库模型的类型

企业仓库

企业仓库收集有关整个组织的主题的所有记录。它支持通常来自一个或多个操作系统或外部数据提供者的企业范围的数据集成,并且在范围上具有跨功能。它通常包含详细信息以及摘要信息,估计范围从几GB到数百GB,TB或更大。

企业数据仓库可以在传统大型机,UNIX超级服务器或并行体系结构平台上完成。它需要广泛的业务建模,并且可能需要数年的时间才能开发和构建。

数据库

数据集市包含公司范围数据的子集,这对特定的用户集合有价值。范围仅限于特定的选定主题。例如,营销数据集市可以将其主题限制为客户,项目和销售。数据集市中包含的数据倾向于被汇总。

数据集市分为两个部分:

独立数据集市:独立数据集市的来源是从一个或多个操作系统或外部数据提供者捕获的数据,或者通常是在不同部门或地理区域内本地的数据。

从属数据集市:从属数据集市完全来自企业数据仓库。

虚拟仓库

虚拟数据仓库是对运营数据库的一套感知。为了进行有效的查询处理,可能只实现了一些可能的摘要。虚拟仓库易于构建,但在操作数据库服务器上需要额外的容量。