📜  数据仓库-概述

📅  最后修改于: 2021-01-07 05:52:47             🧑  作者: Mango


“数据仓库”一词最早是由Bill Inmon在1990年提出的。根据Inmon的说法,数据仓库是面向主题的,集成的,随时间变化的,非易失性的数据收集。此数据可帮助分析师在组织中做出明智的决策。

由于发生的交易,可操作的数据库每天都会频繁更改。假设业务主管想要分析关于任何数据(例如产品,供应商或任何消费者数据)的先前反馈,那么该主管将没有可用于分析的数据,因为先前的数据由于交易而已被更新。

数据仓库以多维视图为我们提供了通用和合并的数据。除了通用和合并的数据视图外,数据仓库还为我们提供了在线分析处理(OLAP)工具。这些工具可帮助我们在多维空间中进行交互式,有效的数据分析。该分析导致数据概括和数据挖掘。

可以将数据挖掘功能(例如关联,聚类,分类,预测)与OLAP操作集成在一起,以增强多层抽象知识的交互式挖掘。这就是为什么数据仓库现在已成为数据分析和在线分析处理的重要平台。

了解数据仓库

  • 数据仓库是一个数据库,与组织的运营数据库分开存放。

  • 数据仓库中没有经常进行的更新。

  • 它拥有合并的历史数据,可帮助组织分析其业务。

  • 数据仓库可帮助主管人员组织,理解和使用其数据来制定战略决策。

  • 数据仓库系统有助于集成各种应用程序系统。

  • 数据仓库系统有助于整合历史数据分析。

为什么将数据仓库与运营数据库分开

由于以下原因,数据仓库与运营数据库保持隔离-

  • 一个可操作的数据库是为众所周知的任务和工作负载(例如搜索特定记录,建立索引等)而构建的。在合同中,数据仓库查询通常很复杂,并且它们表示数据的一般形式。

  • 运营数据库支持并发处理多个事务。运营数据库需要并发控制和恢复机制,以确保数据库的健壮性和一致性。

  • 操作数据库查询允许读取和修改操作,而OLAP查询仅需要对存储数据的只读访问。

  • 业务数据库维护当前数据。另一方面,数据仓库维护历史数据。

数据仓库功能

数据仓库的关键功能在下面讨论-

  • 面向主题-数据仓库是面向主题的,因为它提供围绕主题而不是组织正在进行的操作的信息。这些主题可以是产品,客户,供应商,销售,收入等。数据仓库不关注正在进行的操作,而是关注数据的建模和分析以进行决策。

  • 集成-通过集成来自异构源(例如关系数据库,平面文件等)的数据来构建数据仓库。这种集成可增强对数据的有效分析。

  • 时变-在特定时间段内识别在数据仓库中收集的数据。数据仓库中的数据从历史角度提供信息。

  • 非易失性-非易失性意味着在向其添加新数据时不会删除先前的数据。数据仓库与操作数据库保持隔离,因此操作数据库中的频繁更改不会反映在数据仓库中。

–数据仓库不需要事务处理,恢复和并发控制,因为它是物理存储的,并且与操作数据库分开。

数据仓库应用

如前所述,数据仓库可帮助业务主管组织,分析和使用其数据进行决策。数据仓库是用于企业管理的计划执行评估“闭环”反馈系统的唯一组成部分。数据仓库广泛用于以下领域-

  • 金融服务
  • 银行服务
  • 消费品
  • 零售业
  • 受控制造

数据仓库的类型

信息处理,分析处理和数据挖掘是下面讨论的三种类型的数据仓库应用程序:

  • 信息处理-数据仓库允许处理存储在其中的数据。可以通过查询,基本统计分析,使用交叉表,表格,图表或图形的报告来处理数据。

  • 分析处理-数据仓库支持对存储在其中的信息进行分析处理。数据可以通过基本的OLAP操作进行分析,包括切片和切块,向下钻取,向上钻取和旋转。

  • 数据挖掘-数据挖掘通过发现隐藏的模式和关联,构建分析模型,执行分类和预测来支持知识发现。可以使用可视化工具显示这些挖掘结果。

Sr.No. Data Warehouse (OLAP) Operational Database(OLTP)
1 It involves historical processing of information. It involves day-to-day processing.
2 OLAP systems are used by knowledge workers such as executives, managers, and analysts. OLTP systems are used by clerks, DBAs, or database professionals.
3 It is used to analyze the business. It is used to run the business.
4 It focuses on Information out. It focuses on Data in.
5 It is based on Star Schema, Snowflake Schema, and Fact Constellation Schema. It is based on Entity Relationship Model.
6 It focuses on Information out. It is application oriented.
7 It contains historical data. It contains current data.
8 It provides summarized and consolidated data. It provides primitive and highly detailed data.
9 It provides summarized and multidimensional view of data. It provides detailed and flat relational view of data.
10 The number of users is in hundreds. The number of users is in thousands.
11 The number of records accessed is in millions. The number of records accessed is in tens.
12 The database size is from 100GB to 100 TB. The database size is from 100 MB to 100 GB.
13 These are highly flexible. It provides high performance.