📜  数据仓库什么是数据多维数据集

📅  最后修改于: 2020-12-30 00:50:51             🧑  作者: Mango

什么是数据立方体?

将数据分组或组合到称为“数据多维数据集”的多维矩阵中时。数据多维数据集方法具有一些替代名称或一些变体,例如“多维数据库”,“物化视图”和“ OLAP(在线分析处理)”。

这种方法的总体思想是实现某些经常查询的昂贵计算。

例如,可以将与架构销售(零件,供应商,客户和销售价格)的关系具体化为一组八个视图,如图1所示,其中psc表示由聚合函数值组成的视图(例如total-value)。通过将三个属性部件,供应商和客户分组来计算出的销售额), p表示一个视图,该视图由仅通过对部件进行分组等而计算出的相应集合函数值组成。

数据多维数据集是从数据库中的属性子集创建的。选择特定属性作为度量属性,即,其值是感兴趣的属性。选择另一个属性作为尺寸或功能属性。度量属性根据维度进行汇总。

例如,XYZ可以创建一个销售数据仓库来保存有关时间,项目,分支和位置维度的商店销售记录。这些尺寸使商店可以跟踪物品的月度销售情况,以及销售物品的分支机构和位置。每个维度可能都有一个与其相关的表,称为维度表,该表描述了这些维度。例如,项目的维度表可能包含属性item_name,brand和type。

数据立方体方法是一种有趣的技术,具有许多应用程序。在许多情况下,数据多维数据集可能很稀疏,因为并非每个维度的每个单元都可能在数据库中具有对应的数据。

应该开发出可以有效处理稀疏立方体的技术。

如果查询所包含的常量的级别甚至低于数据多维数据集中提供的常量,则不清楚如何最佳利用存储在数据多维数据集中的预计算结果。

模型以数据多维数据集的形式查看数据。 OLAP工具基于多维数据模型。数据立方体通常为n维数据建模。

数据立方体使数据可以在多个维度上建模和查看。围绕中心主题(例如销售和交易)组织多维数据模型。事实表代表了这个主题。事实是数字量度。因此,事实表包含度量(例如Rs_sold)和每个相关维表的键。

维度是定义数据多维数据集的事实。事实通常是数量,用于分析尺寸之间的关系。

示例:2D表示中,我们将查看在温哥华市每季度售出的商品的所有电子产品销售数据。以美元售出的计量显示(以千为单位)。

三维长方体

假设我们想用第三维来查看销售数据。例如,假设我们想根据时间,项目以及城市芝加哥,纽约,多伦多和温哥华的位置查看数据。以美元售出的计量显示(以千为单位)。这些3-D数据显示在表中。该表的3-D数据被表示为一系列的2-D表。

从概念上讲,我们可以以3-D数据立方体的形式表示相同的数据,如图所示:

让我们假设我们想用附加的第四个维度(例如供应商)查看我们的销售数据。

在数据仓库中,数据多维数据集是n维的。具有最低汇总级别的长方体称为基本长方体

例如,图中的4-D长方体是给定时间,项目,位置和供应商尺寸的基本长方体。

图中显示了根据时间,项目,位置和供应商维度的销售数据的4-D数据立方体表示。显示的度量单位是出售的美元(以千计)。

最高级别的0-D长方体(称为最高顶点长方体)具有最高级别的汇总。在此示例中,这是在所有四个维度上汇总的总销售额或总销售额。

长方体的晶格形成一个数据立方体。该图显示了长方体的晶格,该长方体为时间,物料,位置和供应商创建了4-D数据立方体。每个长方体表示不同程度的汇总。