📜  数据仓库-数据集市(1)

📅  最后修改于: 2023-12-03 15:26:07.345000             🧑  作者: Mango

数据仓库-数据集市

什么是数据仓库?

数据仓库(Data Warehouse)指存放企业各个应用系统中独立的,经过清洗、整合、转换加工后的数据的中央存储区域。数据仓库结构是以主题为中心的、集成的、稳定的、不变的数据集。通过数据仓库,企业可以实现数据的一致性和共享性,为企业内部和外部决策提供支持。

数据集市是什么?

数据集市(Data Mart)是数据仓库的一种变体,是一个小型、灵活的数据仓库,代表着企业内一个单一主题领域的数据。通常,数据集市的数据规模比数据仓库小得多,但数据粒度和管理精度都更高。不同部门的数据分析人员可以根据自己的需求创建自己的数据集市,以便于提高部门的决策速度。

数据仓库与数据集市的关系

数据仓库是企业级别的数据存储区域,而数据集市则是针对某个业务领域或一部门,较有针对性的数据仓库。数据集市建立在数据仓库之上,通过将数据仓库中的数据经过加工和切分,将其转化为更易用的数据集市,提高数据仓库的有效利用率。

数据仓库-数据集市架构

数据仓库-数据集市架构通常由以下组件构成:

  • 数据源:数据仓库需要从各个应用系统中采集数据,数据源可以是企业内部或外部的系统,也可以是传感器、物联网等各种设备。

  • 数据抽取:将数据从数据源中导出到数据仓库/数据集市的过程。这个过程要求高效、快速、稳定,一般采用 ETL 工具。

  • 数据清洗:从数据源中抽取的数据往往会存在各种问题,如格式不正确、缺失数据、脏数据等。数据清洗是解决这些问题的重要环节。

  • 数据整合:将从不同数据源中抽取的数据整合起来,形成数据仓库。数据仓库的主要特点是,数据是以主题为中心,集成的、稳定的、不变的。

  • 数据建模:将数据仓库中的数据进行建模,组织成易于理解和使用的数据模型。

  • 数据集市:将数据仓库的部分数据重新组织、加工,形成小型、灵活的数据仓库,以便于针对某个业务或部门的需求,提高数据利用效率。

  • 数据访问:数据仓库中的数据,需要进行查询、分析,以支持决策。数据访问需要支持各种途径,如 SQL 查询、OLAP 等。

总结

数据仓库是企业数据管理的重要手段,可以帮助企业实现数据共享、数据一致性。数据集市则是数据仓库的某个业务领域的变体,更加灵活、可定制。数据仓库-数据集市架构是构建企业级数据平台的重要组成部分,需要综合考虑数据治理、数据管控、数据隐私等方面的要求。