📅  最后修改于: 2021-01-07 05:53:41             🧑  作者: Mango
在本章中,我们将讨论数据仓库中一些最常用的术语。
元数据被简单地定义为关于数据的数据。用于表示其他数据的数据称为元数据。例如,一本书的索引用作该书中内容的元数据。换句话说,我们可以说元数据是将我们引向详细数据的汇总数据。
在数据仓库方面,我们可以定义元数据,如下所示:
元数据是通往数据仓库的路线图。
数据仓库中的元数据定义仓库对象。
元数据充当目录。此目录可帮助决策支持系统查找数据仓库的内容。
元数据存储库是数据仓库系统的组成部分。它包含以下元数据-
业务元数据-它包含数据所有权信息,业务定义和更改策略。
运营元数据-它包括数据货币和数据沿袭。数据流通是指正在活动,已归档或已清除的数据。数据沿袭是指数据迁移的历史以及对其应用的转换。
从操作环境映射到数据仓库的数据-元数据包括源数据库及其内容,数据提取,数据分区,清理,转换规则,数据刷新和清除规则。
汇总算法-包括维算法,粒度数据,聚合,汇总等。
数据立方体可帮助我们在多个维度上表示数据。它由维度和事实定义。维度是企业保留记录所依据的实体。
假设一家公司希望借助销售数据仓库跟踪有关时间,项目,分支和位置的销售记录。这些尺寸使您可以跟踪每月的销售情况以及商品在哪个分支的销售情况。每个维度都有一个表。该表称为尺寸表。例如,“ item”维度表可以具有诸如item_name,item_type和item_brand之类的属性。
下表显示了有关时间,项目和位置维度的公司销售数据的二维视图。
但是在此二维表中,我们仅具有关于时间和项目的记录。显示了新德里的销售额与时间的关系,并根据所售物品的类型显示了物品尺寸。如果我们要再查看一个维度(例如位置维度)的销售数据,则3-D视图将很有用。下表显示了有关时间,项目和位置的销售数据的3-D视图-
上面的3-D表可以表示为3-D数据立方体,如下图所示-
数据集市包含整个组织范围内的数据的子集,这对于组织中的特定人群来说很有价值。换句话说,数据集市仅包含特定于特定组的那些数据。例如,营销数据集市可以仅包含与项目,客户和销售有关的数据。数据集市仅限于主题。
基于Windows或基于Unix / Linux的服务器用于实现数据集市。它们在低成本服务器上实现。
数据集市的实施周期是在短时间内(即数周而不是数月或数年)进行衡量的。
如果数据集市的规划和设计不在组织范围内,则从长远来看,其生命周期可能会很复杂。
数据集市规模很小。
数据集市是按部门定制的。
数据集市的来源是部门结构化的数据仓库。
数据集市非常灵活。
下图显示了数据集市的图形表示。
运行数据仓库上的视图称为虚拟仓库。建立虚拟仓库很容易。建立虚拟仓库需要操作数据库服务器上有多余的容量。