📜  数据仓库开发生命周期模型

📅  最后修改于: 2022-05-13 01:57:01.452000             🧑  作者: Mango

数据仓库开发生命周期模型

数据仓库是一种数据管理系统,主要用于支持商业智能活动,尤其是分析。数据仓库专门设计用于执行由查询驱动的操作和分析,并且通常包含大量历史数据。

什么是数据仓库?

数据仓库是企业或组织在数字仓库中开发、管理和保护数据电子存储的过程。数据仓库的主要目标是创建可随时用于分析的历史数据宝库,并发现有用的见解,从而为组织做出更好的决策。

它也被称为企业数据仓库。数据仓库是一种组织、管理数据和信息的电子方法。例如,数据仓库使数据挖掘成为可能,这可以帮助企业寻找可以带来更大销售和利润的数据趋势和模式。

  • 在数据仓库中,组织可以长期存储信息,这意味着历史数据。仓库成为一个历史信息库,可以检索和分析这些信息,以便更好地制定业务决策。
  • 组织会定期更新各个重要部门(例如营销和销售)的新数据。
  • 构建成功的数据仓库的主要因素包括对组织最重要的数据的定义和识别信息的来源。
  • 创建一个数据库来存储实时数据,即当前数据。数据仓库旨在替代传统上用于存储历史信息的寄存器。

通常,数据仓库由四个组件组成:

  • 数据源
  • 数据暂存和处理 ETL(提取、转换和加载)
  • 数据仓库
  • 数据集市

数据仓库架构

所有这些组件都放在一起以提高速度和效率。我们可以分析数据并快速得出结果。要获得有关它的更多知识,请参阅这篇文章数据仓库架构。

数据仓库开发生命周期

数据仓库是一个流程,用于收集和处理来自多个来源的结构化和非结构化数据到一个集中的存储库中,以执行可操作的业务决策。将所有数据集中在一个地方,在完全不同的组合级别上执行分析、报告和发现有意义的见解变得更加容易。数据仓库设置包括提取、转换和加载 (ELT) 解析、在线分析处理 (OLAP) 引擎、消费者分析工具以及管理收集数据并将其交付给企业的方法的不同应用程序。术语数据仓库生命周期用于表示数据仓库系统在构建之间所经历的步骤。以下是数据仓库的生命周期:

数据仓库生命周期

  • 需求规范:这是数据仓库开发的第一步,由业务分析师完成。在此步骤中,业务分析师准备业务需求规范文档。 50%以上的需求是从客户端收集的,收集所有的需求需要3-4个月。收集需求后,数据建模师开始根据需求识别维度、事实和组合。可以说这是数据仓库的总体蓝图。但是,这个阶段更多的是关于确定业务需求并将其放入数据仓库中。
  • 数据建模:这是数据仓库开发的第二步。数据建模是通过满足将数据转换为可以存储在数据仓库中的格式的要求来可视化数据分布和设计数据库的过程。例如,每当我们开始建造房屋时,我们都会将所有东西放在蓝图中指定的正确位置。这就是数据仓库的数据建模。数据建模有助于组织数据,创建数据集之间的连接,并且对于建立与数据仓库目标一致的数据合规性及其安全性非常有用。这是数据仓库开发中最复杂的阶段。而且,企业用于仓库设计的数据建模技术有很多。数据建模通常发生在数据集市级别,并在数据仓库中扩展。这是关于其他数据如何存储数据的逻辑。数据仓库有三种数据模型:
    • 星型图
    • 雪花模式
    • 银河架构。
  • ELT 设计与开发:这是数据仓库开发的第三步。 ETL 或提取、传输、加载工具可以从各种源系统中提取数据并将其存储在数据湖中。 ETL 流程可以从湖中提取数据,然后对其进行转换并将其加载到数据仓库中进行报告。为了获得最佳速度、良好的可视化以及在所有现有架构和新数据仓库之间构建简单、可复制和一致的数据管道的能力,我们需要 ELT 工具。这就是 SAS 数据管理、IBM 信息服务器、 Hive等 ETL 工具发挥作用的地方。一个好的 ETL 过程有助于构建一个简单而实用的数据仓库,该数据仓库在组织的每一层都很有价值。
  • OLAP Cubes:这是数据仓库开发的第四步。 OLAP 多维数据集,也称为多维多维数据集或超多维数据集,是一种允许根据定义业务问题的多个维度快速分析数据的数据结构。数据仓库将从多个数据源和格式(如文本文件、Excel 表格、多媒体文件等)中提取信息。提取的数据经过清理和转换,然后加载到 OLAP 服务器(或 OLAP 多维数据集)中,在该服务器中对信息进行预处理提前做进一步分析。通常,使用简单的电子表格执行数据操作和分析,其中数据值以行和列格式排列。这是二维数据的理想选择。但是,OLAP 包含多维数据,这些数据通常来自不同且不相关的来源。使用电子表格并不是最佳选择。多维数据集将以逻辑有序的方式存储和分析多维数据。现在,数据仓库现在作为一个完全构建的产品提供,它是可配置的并且能够暂存多种类型的数据。 OLAP 多维数据集已经过时,因为 OLAP 多维数据集无法提供实时分析和报告,因为企业现在期望具有高性能的东西。
  • UI 开发:这是数据仓库开发的第五步。到目前为止,讨论的过程都发生在后端。对于用户和计算机系统如何交互,尤其是输入设备和软件的使用,需要一个用户界面,以立即访问数据仓库以进行分析和生成报告。 UI 的主要目的是使用户能够有效地管理他们正在与之交互的设备或机器。市场上有很多工具可以帮助进行 UI 开发。对于那些使用 BigQuery 的人来说,像 Tableau 或 PowerBI 这样的 BI 工具是不错的选择。
  • 维护:这是数据仓库开发的第六步。在这个阶段,我们可以更新或更改模式和数据仓库的应用程序域或需求。数据仓库维护系统必须提供跟踪模式修改的方法,例如修改。在模式级别,我们可以执行插入操作,并更改维度和类别。例如,更改是添加或删除用户定义的属性。
  • 测试和部署:这通常是数据仓库开发周期中的最终步骤。企业和组织测试数据仓库以确保所需的业务问题是否成功实施。仓库测试涉及对大量数据的审查。需要比较的数据来自关系数据库、平面文件、操作数据等异构数据源。整个数据仓库项目测试阶段包括:数据完整性、数据转换、通过ETL工具加载数据、数据完整性、等。在测试了数据仓库之后,我们部署了它,以便用户可以立即访问数据并进行分析。基本上,在这个阶段,数据仓库被打开并让用户从中受益。在数据仓库部署的时候,它的大部分功能都已经实现了。数据仓库可以部署在自己的数据中心或云端。

数据仓库是如何工作的?

数据仓库包含来自异构来源的数据。它是一个中央存储库,用于处理、转换数据并将其加载到数据库中,以便用户可以轻松地访问数据仓库中的数据,以便使用商业智能和分析工具进行分析,从而做出更好的决策。

所有这些数据可能采用以下格式之一:

  • 结构化的
  • 非结构化
  • 半结构化

数据仓库

数据仓库的工作原理是收集、管理和组织来自不同来源的数据到一个完整的广泛数据库中。一旦收集到数据,根据数据类型和格式将其处理并存储到各种表中。机密的业务详细信息也可以存储在数据仓库中,例如员工详细信息、工资信息等。

从数据仓库中获得的信息有助于公司研究他们的客户并预测竞争市场中即将到来的趋势。通过获得有关客户想要什么以及他们对企业的期望的准确信息,可以更轻松地为他们提供正确的服务并获得更高的客户满意度。