📜  数据集市(HDFS 的存储组件)

📅  最后修改于: 2021-09-10 02:20:09             🧑  作者: Mango

数据仓库和数据集市,都是 HDFS 的存储组件。数据集市就是这样一个存储组件,它与组织的特定部门有关。它是存储在数据仓库中的数据的子集。数据集市仅关注组织的特定函数,并且仅由单一机构维护,例如财务、营销。数据集市规模小且灵活。

数据集市的类型:
数据集市分为三种类型:

1. 相关数据集市 –

从属数据集市是通过从中央存储库 Datawarehouse 中提取数据来创建的。首先通过从外部来源提取数据(通过 ETL 工具)创建数据仓库,然后从数据仓库创建数据集市。依赖数据集市是在数据仓库架构的自顶向下方法中创建的。这种数据集市模型被大型组织使用。

2. 独立数据集市——

独立数据集市是直接从外部源而不是数据仓库创建的。首先通过从外部来源提取数据来创建数据集市,然后根据数据集市中的数据创建数据仓库。独立数据集市采用自下而上的数据仓库架构设计。这种数据集市模型供小型组织使用,相对而言具有成本效益。

3. 混合数据集市——

这种类型的数据集市是通过从操作源或数据仓库中提取数据来创建的。 1Path 反映直接从外部来源访问数据,2Path 反映数据集市的依赖数据模型。

数据集市的需要:

  1. 数据集市仅关注组织特定部门的运作。
  2. 它由组织的单一权威维护。
  3. 由于它存储与组织特定部分相关的数据,因此从中检索数据非常快。
  4. 与数据仓库相比,数据集市的设计和维护非常简单。
  5. 它减少了用户的响应时间,因为它存储的数据量很小。
  6. 由于从它访问数据的速度非常快,因此它的尺寸很小。
  7. 大多数组织都使用此存储单元来确保其部门的顺利运行。

数据集市的优势:

  1. 与数据仓库的实现相比,数据集市的实现需要更少的时间,因为数据集市是为组织的特定部门设计的。
  2. 组织可以根据成本和业务选择数据集市模型。
  3. 可以从数据集市轻松访问数据。
  4. 它包含经常访问的查询,因此可以分析业务趋势。

数据集市的缺点:

  1. 由于它只存储与特定函数相关的数据,因此不会像数据仓库那样存储与组织的每个部门相关的大量数据。
  2. 创建过多的数据集市有时会变得很麻烦。