📜  数据仓库-数据集市

📅  最后修改于: 2021-01-07 05:59:25             🧑  作者: Mango


为什么我们需要数据集市?

下面列出的是创建数据集市的原因-

  • 为了对数据进行分区以强加访问控制策略。

  • 通过减少要扫描的数据量来加快查询速度。

  • 将数据分段到不同的硬件平台。

  • 以适合用户访问工具的形式构造数据。

–由于其他原因,请勿进行数据集市,因为数据市场化的运营成本可能很高。在进行数据标记之前,请确保数据标记策略适合您的特定解决方案。

具有成本效益的数据营销

请遵循以下步骤,使数据传输具有成本效益-

  • 识别功能拆分
  • 确定用户访问工具要求
  • 识别访问控制问题

识别功能拆分

在此步骤中,我们确定组织是否具有自然的职能部门。我们寻找部门划分,并确定部门使用信息的方式是否倾向于与组织的其余部分隔离。让我们举个例子。

考虑一个零售组织,其中每个商人都要负责使一组产品的销售额最大化。为此,以下是有价值的信息-

  • 每天的销售交易
  • 每周销售预测
  • 每天的库存状况
  • 每天的库存变动

由于商人对他们不处理的产品不感兴趣,因此数据标记是感兴趣的产品组处理的数据的子集。下图显示了不同用户的数据标记。

数据市场

以下是确定功能划分时要考虑的问题-

  • 该部门的结构可能会发生变化。

  • 产品可能会从一个部门切换到另一个部门。

  • 商家可以查询其他产品的销售趋势,以分析销售情况。

注意-我们需要确定使用数据集市的业务收益和技术可行性。

确定用户访问工具要求

我们需要数据集市来支持需要内部数据结构的用户访问工具。这种结构中的数据不在数据仓库的控制范围内,但需要定期进行填充和更新。

有一些直接从源系统填充的工具,而有些则不能。因此,有必要在将来确定工具范围之外的其他要求。

–为了确保所有访问工具中数据的一致性,不应直接从数据仓库中填充数据,而是每个工具都必须具有自己的数据集市。

识别访问控制问题

应该有隐私规则,以确保仅授权用户才能访问数据。例如,零售银行机构的数据仓库可确保所有帐户都属于同一法人实体。隐私法可能会迫使您完全阻止访问非特定银行拥有的信息。

数据集市使我们可以通过物理上分离数据仓库中的数据段来构建完整的墙。为了避免可能的隐私问题,可以从数据仓库中删除详细数据。我们可以为每个法人实体创建数据集市,并通过数据仓库将其与详细的帐户数据一起加载。

设计数据集市

数据集市应设计为数据仓库中星型模式的较小版本,并且应与数据仓库的数据库设计相匹配。它有助于维持对数据库实例的控制。

设计数据集市

汇总的数据标记方式与在数据仓库中设计的方式相同。摘要表有助于利用starflake模式中的所有维度数据。

数据营销成本

数据营销的成本衡量标准如下-

  • 硬件和软件成本
  • 网络访问
  • 时间窗口约束

硬件和软件成本

尽管数据集市是在相同的硬件上创建的,但是它们需要一些其他的硬件和软件。要处理用户查询,它需要额外的处理能力和磁盘存储空间。如果数据仓库中存在详细的数据和数据集市,那么我们将面临存储和管理复制数据的额外费用。

–数据标记比聚合更昂贵,因此应将其用作附加策略,而不是替代策略。

网络访问

数据集市可能与数据仓库位于不同的位置,因此我们应确保LAN或WAN具有处理在数据集市加载过程中传输的数据量的能力

时间窗口约束

数据集市的加载过程将在可用时间窗口内吞噬的程度取决于转换的复杂性和要运送的数据量。确定可能有多少个数据集市取决于-

  • 网络容量。
  • 时间窗口可用
  • 正在传输的数据量
  • 用于将数据插入数据集市的机制