📜  数据仓库的历史

📅  最后修改于: 2022-05-13 01:57:03.526000             🧑  作者: Mango

数据仓库的历史

数据仓库是一个核心存储库,它执行聚合以将来自各种来源的数据收集和分组到一个中央集成单元中。可以检索和分析来自仓库的数据,以生成报告或数据库数据集之间的关系,从而促进许多行业的发展。数据仓库属于商业智能。数据仓库旨在提供实时信息。数据存储已经从简单的磁带演变为集成数据仓库。本文将概述仓储的历史。

存储数据的早期机制:

保存数据的早期方法始于穿孔卡片、纸带。然后磁带的发展发生了。虽然我们可以在磁带上写入和重写数据,但它并不是一种稳定的存储数据的介质。磁盘存储应运而生,您可以在其中存储和访问大量数据。

磁盘存储中的 DBMS:

后来 DBMS(数据库管理系统)与磁盘存储集成,将数据直接存储在磁盘本身上。集成 DBMS 的主要优点是我们可以快速定位数据。这些功能包括数据的定位和删除,解决了两个不同数据映射到同一位置时的问题。当数据超过存储限制时,可以扩展物理位置。

在线申请:

在磁盘存储中使用 DBMS 之后,出现了在线应用程序。在线应用程序是在线处理的产品,在商业行业有其应用。例如零售和销售处理、票务预订系统、自动柜员机处理等。在线应用程序由于其相互交织的应用程序而在近年来发挥着重要作用。但它有一个应用程序的最终用户提出的缺点。由于数据量巨大,最终用户发现很难保留所需的数据。即使他们得到了它,由于数据的不断升级,他们也不确定它是否正确或准确。

第四代技术 (4GL) 和个人电脑:

4GL 技术的动机是为最终用户提供访问数据的直接机会,使用编程语言和系统开发,而不受 IT 部门的干扰。个人电脑也是如此。因此,个人可以将自己的个性化系统带入商业公司,并可以访问他们可以访问的特定数据。这减少了对集中技术部门向用户提供请求数据的需求。电子表格就是一个很好的例子。但它有它的缺点。检索到的数据可能不完整、具有误导性或错误。由于缺乏文档和存在相同数据的多个版本,它在最终结果中缺乏技巧。

蜘蛛网环境:

由于其不利的性质和复杂性,Spider Web 环境最终成为最终用户和 IT 专业人员的两难选择。这种环境被称为蜘蛛网环境,因为有许多线连接起来,让人想起蜘蛛网的线。虽然可以检索数据,但效率和准确性非常低。这些严重的缺陷要求构建以数据仓库为中心的信息架构。

数据仓库环境的演进:

随着公司从蜘蛛网转移到数据仓库环境,它对存储数据的常用技术产生了重大变化。在引入数据仓库之前,人们认为数据库必须支持数据的所有用途。数据仓库出现后,很明显有不同类型的数据库用于不同的目的。

数据仓库是将信息处理成机器人集成和粒度形式的数据和历史的地方。尽管并非所有仓库都是集成的,但集成数据仓库的好处在于提供了公司的企业视图。粒度数据具有以不同方式查看相同数据的好处。一组数据可以以营销方式查看,也可以以财务方式查看。相同的数据也可用于以会计方式查看。数据仓库用于存储多年的历史数据。

数据仓库的挑战:

  • 首先是数据集成,这是最困难和最耗时的过程,因为需要触及企业遗留问题的根源以获取有用的集成数据。这是一个痛苦的步骤,但它是值得的。
  • 由数据仓库技术创建的大量数据使处理过程变得乏味。因此,需要摆脱旧数据。但是,对于数据分析来说,它们非常有价值,不容忽视。
  • 数据仓库不能像其他操作应用程序一样一次性创建。它必须迭代开发,就像一次一步一样。

开发Data Warehouse 2.0 Environment(DW 2.0)的原因:

早期的技术已经发展了很多,最终以 DW 2.0 结束。我们需要来回穿梭,以了解启动 DW 2.0 架构的力量。其中一些在下面给出。

  • 最终用户对新系统或架构的需求。
  • 财务经济
  • 在线处理技术
  • 高存储容量
  • 需要综合数据
  • 需要在数据混合中包含用于分析目的的非结构化数据。

数据仓库演进(从业务角度):

  • 早期技术的输出是未经提炼的格式。例如,读取所有这些十六进制输入只是为了从神秘代码中找到一小段信息,这是一个忙碌的过程。
  • 现在,最终用户变得更具未来感。因此,他们需要更复杂的输出和即时的输出源。
  • 对于要完成的在线处理技术,需要整合数据。此外,它需要历史数据进行分析。
  • 由于最终用户对企业数据的渴望,第一代数据仓库应运而生。

数据仓库的变异形式:

由于数据仓库的吸引人的特性,业务顾问根据他们的企业需求改变了数据仓库的概念。数据仓库的一些变体是:

  • 活动数据仓库:在线处理和更新都在这个仓库中进行。这个仓库最大的特点就是事务的执行率非常高。这种变异仓库的缺点是交易的完整性受到质疑、统计处理量大、容量浪费大,进而增加了运营成本。
  • 联合数据仓库:在这种方法中,由于数据集成的高度复杂性,他们跳过了这个过程。从技术上讲,这种方法不存在仓库。其背后的计划是通过合并公司的旧遗产以同时获取和处理数据来神奇地构建数据仓库。这种方法看起来很有吸引力,工作量更少,但这只是一种错觉,而不是解决方案本身。它有许多缺陷,例如性能差、历史有限、缺乏数据集成、复杂性、继承的粒度,当最终用户从联邦仓库请求不同粒度级别的数据时,这会给最终用户带来较差的性能。
  • 星型数据仓库:这个数据仓库使用的outlook需要构建维度表和事实表。它作为数据仓库提供了很多好处,但也有其局限性。它仅针对有限的需求而设计,当需求发生变化时,数据仓库就会变得脆弱。由于多个模式形成质疑数据的完整性,粒度级别不断变化。它不能扩展超过一定的限制,并且仅针对一种受众类型而设计。
  • 数据集市数据仓库:在线应用程序处理的顾问首先构建一个数据集市,它可以让您有机会了解产品的销售情况,而无需构建实际的数据仓库。缺点包括不可扩展性、高错误发生率、无法协调数据以及提取扩散,这使得提取遗留数据变得困难。关于这种方法的另一个事实是,数据集市无法转换为数据仓库。就好像每个核心都不一样,不能变异变成仓库。