📜  数据仓库设计

📅  最后修改于: 2020-12-30 00:38:36             🧑  作者: Mango

数据仓库设计

数据仓库是单个数据存储库,其中集成了来自多个数据源的记录以进行在线业务分析处理(OLAP)。这意味着数据仓库需要满足整个组织内所有业务阶段的需求。因此,数据仓库设计是一个非常复杂,冗长且容易出错的过程。此外,业务分析功能会随着时间而变化,从而导致系统要求发生变化。因此,数据仓库和OLAP系统是动态的,并且设计过程是连续的。

数据仓库设计采用的方法不同于行业中的视图实现。它将数据仓库视为具有特定需求(例如回答与管理相关的查询)的数据库系统。设计的目标变成了如何提取,转换和加载来自多个数据源的记录(ETL),以将其作为数据仓库存储在数据库中。

有两种方法

  • “自上而下的方法
  • “自下而上”的方法

自上而下的设计方法

在“自上而下”的设计方法中,数据仓库被描述为面向主题,时变,非易失性和集成的数据存储库,用于验证,重新格式化来自不同来源的整个企业数据并将其保存在规范化的(最多3NF)的数据库作为数据仓库。数据仓库存储“原子”信息,即最低粒度的数据,可以通过选择特定业务主题或特定部门所需的数据来构建维度数据集市。一种方法是一种数据驱动的方法,首先收集和集成信息,然后制定主题以建立数据集市的业务需求。此方法的优点是它支持单个集成数据源。因此,由它们构建的数据集市在重叠时将具有一致性。

自上而下设计的优势

数据市场从数据仓库中加载。

从数据仓库开发新的数据集市非常容易。

自上而下设计的缺点

这种技术对于不断变化的部门需求不灵活。

实施该项目的成本很高。

自下而上的设计方法

在“自下而上”方法中,数据仓库被描述为“用于查询和分析的交易数据特定体系结构的副本”,即星型模式。在这种方法中,首先创建数据集市,以提供针对特定业务流程(或主题)的必要报告和分析功能。因此,与Inmon的数据驱动方法相比,它需要成为一种业务驱动方法。

数据集市包含最少的谷物数据,如果需要,还包括汇总数据。代替数据仓库的规范化数据库,非规范化维度数据库适用于满足数据仓库的数据交付要求。使用此方法,要使用一组数据集市作为企业数据仓库,应在构建数据集市时牢记一致的尺寸,定义普通对象在不同数据集市中的表示方式相同。一致的维度将数据集市连接到一个数据仓库,通常称为虚拟数据仓库。

“自下而上”设计方法的优点是它具有快速的投资回报率,因为开发数据集市(一个主题的数据仓库)比开发企业范围的数据仓库所需的时间和精力要少得多。同样,失败的风险更低。此方法本质上是增量的。这种方法使项目团队可以学习和成长。

自底向上设计的优势

文档可以快速生成。

可以扩展数据仓库以容纳新的业务部门。

它只是在开发新的数据集市,然后与其他数据集市集成。

自底向上设计的缺点

在自下而上的方法设计中,数据仓库和数据集市的位置是相反的。

自上而下的设计方法与自下而上的设计方法之间的区别

Top-Down Design Approach Bottom-Up Design Approach
Breaks the vast problem into smaller subproblems. Solves the essential low-level problem and integrates them into a higher one.
Inherently architected- not a union of several data marts. Inherently incremental; can schedule essential data marts first.
Single, central storage of information about the content. Departmental information stored.
Centralized rules and control. Departmental rules and control.
It includes redundant information. Redundancy can be removed.
It may see quick results if implemented with repetitions. Less risk of failure, favorable return on investment, and proof of techniques.