📝 数据仓库教程
24篇技术文档📅  最后修改于: 2021-01-07 05:52:08        🧑  作者: Mango
通过集成来自多个异构源的数据来构建数据仓库。它支持分析报告,结构化和/或临时查询和决策。本教程采用分步方法来解释数据仓库的所有必要概念。本教程将帮助计算机科学专业的毕业生理解与数据仓库相关的基础到高级概念。先决条件在继续本教程之前,您应该了解基本的数据库概念,例如架构,ER模型,结构化查询语言等。...
📅  最后修改于: 2021-01-07 05:52:47        🧑  作者: Mango
“数据仓库”一词最早是由Bill Inmon在1990年提出的。根据Inmon的说法,数据仓库是面向主题的,集成的,随时间变化的,非易失性的数据收集。此数据可帮助分析师在组织中做出明智的决策。由于发生的交易,可操作的数据库每天都会频繁更改。假设业务主管想要分析关于任何数据(例如产品,供应商或任何消费者数据)的先前反馈,那么该主管将没有可用于分析的数据,因为先前的数据由于交易而已被更新。数据仓库以多...
📅  最后修改于: 2021-01-07 05:53:12        🧑  作者: Mango
什么是数据仓库?数据仓库是构建和使用数据仓库的过程。通过集成来自多个异构源的数据来构建数据仓库,这些数据支持分析报告,结构化和/或临时查询以及决策。数据仓库涉及数据清理,数据集成和数据合并。使用数据仓库信息有决策支持技术可帮助利用数据仓库中的可用数据。这些技术可帮助主管人员快速有效地使用仓库。他们可以收集数据,对其进行分析并根据仓库中存在的信息做出决策。仓库中收集的信息可以在以下任何域中使用-调整...
📅  最后修改于: 2021-01-07 05:53:41        🧑  作者: Mango
在本章中,我们将讨论数据仓库中一些最常用的术语。元数据元数据被简单地定义为关于数据的数据。用于表示其他数据的数据称为元数据。例如,一本书的索引用作该书中内容的元数据。换句话说,我们可以说元数据是将我们引向详细数据的汇总数据。在数据仓库方面,我们可以定义元数据,如下所示:元数据是通往数据仓库的路线图。数据仓库中的元数据定义仓库对象。元数据充当目录。此目录可帮助决策支持系统查找数据仓库的内容。元数据存...
📅  最后修改于: 2021-01-07 05:54:22        🧑  作者: Mango
数据仓库永远不会是静态的。它随着业务的发展而发展。随着业务的发展,其需求不断变化,因此必须设计数据仓库以应对这些变化。因此,数据仓库系统需要灵活。理想情况下,应该有一个交付过程来交付数据仓库。但是,数据仓库项目通常会遇到各种问题,这些问题使得难以以瀑布方法要求的严格和有序方式完成任务和可交付成果。在大多数情况下,对要求的理解并不完全。只有在收集并研究了所有需求之后,才能完成架构,设计和构建组件。运...
📅  最后修改于: 2021-01-07 05:55:01        🧑  作者: Mango
我们在操作数据库上有固定数量的操作要应用,并且我们有定义明确的技术,例如使用规范化数据,保持表较小等。这些技术适合于提供解决方案。但是在决策支持系统的情况下,我们不知道将来需要执行哪些查询和操作。因此,应用于操作数据库的技术不适用于数据仓库。在本章中,我们将讨论如何在Unix和关系数据库等顶级开放系统技术上构建数据仓库解决方案。数据仓库中的流程构成数据仓库的主要过程有四个-提取并加载数据。清理和转...
📅  最后修改于: 2021-01-07 05:55:49        🧑  作者: Mango
在本章中,我们将讨论用于数据仓库设计和数据仓库体系结构的业务分析框架。业务分析框架业务分析师从数据仓库获取信息,以衡量性能并进行重要调整,以赢得市场上的其他业务所有者。拥有数据仓库具有以下优点-由于数据仓库可以快速有效地收集信息,因此可以提高业务生产力。数据仓库为我们提供了一致的客户和物料视图,因此有助于我们管理客户关系。数据仓库还可以通过以一致且可靠的方式长期跟踪趋势和模式来帮助降低成本。为了设...
📅  最后修改于: 2021-01-07 05:56:21        🧑  作者: Mango
在线分析处理服务器(OLAP)基于多维数据模型。它使管理人员和分析人员可以通过快速,一致和交互式的信息访问来洞察信息。本章介绍OLAP的类型,对OLAP的操作,OLAP之间的差异以及统计数据库和OLTP。OLAP服务器的类型我们有四种类型的OLAP服务器-关系OLAP(ROLAP)多维OLAP(MOLAP)混合OLAP(HOLAP)专用SQL Server关系OLAPROLAP服务器位于关系后端服...
📅  最后修改于: 2021-01-07 05:56:45        🧑  作者: Mango
关系OLAP服务器位于关系后端服务器和客户端前端工具之间。为了存储和管理仓库数据,关系OLAP使用关系或扩展关系DBMS。ROLAP包括以下内容-聚合导航逻辑的实现针对每个DBMS后端的优化其他工具和服务要记住的要点ROLAP服务器具有高度可扩展性。ROLAP工具可以跨多个维度分析大量数据。ROLAP工具存储和分析高度易变且可变的数据。关系OLAP架构ROLAP包括以下组件-数据库服务器ROLAP...
📅  最后修改于: 2021-01-07 05:57:03        🧑  作者: Mango
多维OLAP(MOLAP)使用基于数组的多维存储引擎来获取数据的多维视图。对于多维数据存储,如果数据集稀疏,则存储利用率可能较低。因此,许多MOLAP服务器使用两个级别的数据存储表示来处理密集和稀疏的数据集。要记住的要点-MOLAP工具以一致的响应时间处理信息,无论汇总或选择的计算级别如何。MOLAP工具需要避免创建关系数据库来存储数据进行分析的许多复杂性。MOLAP工具需要尽可能快的性能。MOL...
📅  最后修改于: 2021-01-07 05:57:32        🧑  作者: Mango
模式是整个数据库的逻辑描述。它包括所有记录类型的记录的名称和描述,包括所有关联的数据项和聚合。就像数据库一样,数据仓库也需要维护模式。数据库使用关系模型,而数据仓库使用Star,Snowflake和Fact Constellation模式。在本章中,我们将讨论数据仓库中使用的模式。星图星型模式中的每个维度仅由一维表表示。该维表包含属性集。下图显示了关于四个维度(时间,项目,分支和位置)的公司销售数...
📅  最后修改于: 2021-01-07 05:58:18        🧑  作者: Mango
进行分区可以提高性能并简化数据管理。分区还有助于平衡系统的各种需求。通过将每个事实表划分为多个单独的分区,它可以优化硬件性能并简化数据仓库的管理。在本章中,我们将讨论不同的分区策略。为什么需要分区?分区很重要,原因如下:为了便于管理,为了协助备份/恢复,提升性能。易于管理数据仓库中的事实表可以增长到数百GB。如此庞大的事实表很难作为一个单独的实体进行管理。因此,需要分区。协助备份/恢复如果不对事实...
📅  最后修改于: 2021-01-07 05:58:53        🧑  作者: Mango
什么是元数据?元数据被简单地定义为关于数据的数据。用于表示其他数据的数据称为元数据。例如,一本书的索引用作该书中内容的元数据。换句话说,我们可以说元数据是使我们获得详细数据的汇总数据。在数据仓库方面,我们可以如下定义元数据。元数据是通往数据仓库的路线图。数据仓库中的元数据定义仓库对象。元数据充当目录。此目录可帮助决策支持系统查找数据仓库的内容。注意-在数据仓库中,我们为给定数据仓库的数据名称和定义...
📅  最后修改于: 2021-01-07 05:59:25        🧑  作者: Mango
为什么我们需要数据集市?下面列出的是创建数据集市的原因-为了对数据进行分区以强加访问控制策略。通过减少要扫描的数据量来加快查询速度。将数据分段到不同的硬件平台。以适合用户访问工具的形式构造数据。注–由于其他原因,请勿进行数据集市,因为数据市场化的运营成本可能很高。在进行数据标记之前,请确保数据标记策略适合您的特定解决方案。具有成本效益的数据营销请遵循以下步骤,使数据传输具有成本效益-识别功能拆分确...
📅  最后修改于: 2021-01-07 06:00:03        🧑  作者: Mango
要成功实施数据仓库,必须进行系统管理。最重要的系统管理员是-系统配置管理器系统调度管理器系统事件管理器系统数据库管理器系统备份恢复管理器系统配置管理器系统配置管理器负责管理数据仓库的设置和配置。配置管理器的结构因一个操作系统而异。在Unix配置结构中,管理器因供应商而异。配置管理器具有单个用户界面。配置管理器的界面使我们可以控制系统的各个方面。注–最重要的配置工具是I / O管理器。系统计划管理器...