数据挖掘中的数据立方体或 OLAP 方法
多维矩阵中的数据分组称为数据立方体。在Dataware房屋中,我们通常处理各种多维数据模型,因为数据将由多个维度和多个属性表示。这种多维数据在数据立方体中表示,因为立方体表示高维空间。数据立方体以图形方式显示数据的不同属性在数据模型中的排列方式。下面是一个通用数据立方体的示意图。
上面的例子是一个 3D 立方体,它具有诸如 branch(A,B,C,D),item type(home,entertainment,computer,phone,security), year(1997,1998,1999) 等属性。
数据立方体分类:
数据立方体可以分为两类:
- 多维数据立方体:它基本上通过使用多维数组来帮助存储大量数据。它通过保留每个维度的索引来提高效率。因此,Dimension 能够快速检索数据。
- 关系数据立方体:它基本上通过使用关系表来帮助存储大量数据。每个关系表都显示数据立方体的维度。与多维数据立方体相比,它要慢一些。
数据立方体操作:
数据立方体操作用于操作数据以满足用户的需求。这些操作有助于为分析目的选择特定数据。主要有下面列出的5种操作-
- Roll-up :将某些具有相同维度的相似数据属性操作和聚合在一起。例如,如果数据立方体显示了一个客户的每日收入,我们可以使用上卷操作来找到他的薪水的月收入。
- 向下钻取:此操作与上卷操作相反。它允许我们获取特定信息,然后将其进一步细分以进行更粗略的粒度分析。它放大了更多细节。例如,如果印度是国家/地区列的属性,并且我们希望查看印度的村庄,则向下钻取操作将印度拆分为州、地区、城镇、城市、村庄,然后显示所需的信息。
- 切片:此操作过滤不必要的部分。假设在一个特定的维度,用户不需要分析所有东西,而是需要一个特定的属性。例如,country=”jamaica”,这将只显示关于牙买加的信息,并且只显示国家列表中的其他国家。
- Dicing :这个操作是多维切割,不仅切割一个维度,而且可以去另一个维度切割它的一定范围。结果,它看起来更像是整个立方体中的一个子立方体(如图所示)。例如,用户想要查看贾坎德邦雇员的年薪。
- Pivot :从角度来看,此操作非常重要。它基本上在视图方面转换了数据立方体。它不会更改数据立方体中存在的数据。例如,如果用户正在比较年份与分支,则使用枢轴操作,用户可以更改视角并现在比较分支与项目类型。
数据立方体的优点:
- 有助于提供数据的汇总视图。
- 数据立方体以简单的方式存储大数据。
- 数据立方体操作提供快速和更好的分析,
- 提高数据的性能。