📜  数据仓库中的数据加载

📅  最后修改于: 2022-05-13 01:57:01.120000             🧑  作者: Mango

数据仓库中的数据加载

数据仓库是由不同来源的数据整合而成的。有几个因素将数据仓库与操作数据库分开。由于这两个系统提供了截然不同的功能并需要不同类型的数据,因此有必要将数据数据库与操作数据库分开。数据仓库是从多个来源收集的熟人的金库,在统一的模式下挑选,并且通常驻留在单个站点上。数据仓库是通过数据清洗、数据集成、数据转换、数据加载和定期数据刷新的过程构建的。

数据仓库

ETL 代表提取、转换和加载。它是数据仓库中的一个过程,负责将数据从源系统中取出并保存在数据仓库中。典型的 ETL 生命周期包括以下执行步骤:启动周期、构建参考数据、从不同来源提取数据、验证数据、转换数据、暂存数据、生成审计报告、发布数据、归档、清理.

  • 提取:涉及连接系统,以及分析处理所需的选择和必要和源收集数据。
  • 转换:对提取的数据执行一系列步骤以转换为标准格式
  • 加载:将转换后的数据导入大型数据库或数据仓库

数据仓库和提取、转换和加载 (ETL) 的优势

  • 增强的商业智能
  • 提高查询和系统性能
  • 及时访问数据
  • 提高质量和一致性
  • 高投资回报

什么是加载?

加载是 ETL 过程中的最终步骤。在此步骤中,将提取的数据和转换后的数据加载到目标数据库中。为了使数据加载高效,需要在加载数据之前对数据库进行索引并禁用约束。 ETL 过程中的所有三个步骤都可以并行运行。数据提取需要时间,因此转换过程的第二阶段是同时执行的。这为加载的第三阶段准备了数据。一旦一些数据准备好,它就会被加载,而无需等待前面的步骤完成。

加载过程是数据从存储源数据库的计算机系统到将存储数据仓库数据库的计算机系统的物理移动。将数据传输到数据仓库存储库的整个过程通过以下方式引用:

  1. 初始加载:第一次加载所有数据仓库表。
  2. 增量负载:根据要求定期应用正在进行的更改。数据加载到数据仓库数据库后,验证维度和事实表之间的引用完整性,以确保所有记录都属于其他表中的相应记录。 DBA 必须验证事实表中的每条记录是否与将与该事实表结合使用的每个维度表中的一条记录相关。
  3. 完全刷新:删除表的内容并用新数据重新加载它。

刷新与更新

初始加载后,需要对数据仓库进行维护和更新,这可以通过以下两种方法来完成:

  • 更新- 在数据源中应用增量更改。
  • Refresh -complete 以指定的时间间隔重新加载。

数据加载-

数据以物理方式移动到数据仓库。加载发生在“加载窗口”内。随着仓库越来越多地用于运营应用程序,这种趋势接近于数据仓库的实时更新。

加载维度表

维护维度表的过程包括两个功能,表的初始加载和随后持续应用更改 系统齿轮键用于数据仓库。源系统中的簧片有自己的键。因此,在初始加载或持续加载之前,生产密钥必须与数据仓库中系统生成的密钥共同,另一个问题与数据仓库的类型 1类型 2类型 3更改的应用有关。。显示如何处理它。

将更改加载到维度表

加载事实表:历史和增量加载

  • 事实表中的键是维度表中键的串联。
  • 因此,首先加载幅度记录。
  • 连接键是从相应维度表的键创建的。

数据加载方法

  • 基于云的
  • 批量处理
  • 开源

ETL 工具

在当今的市场上,ETL设备具有很大的价值,识别提取方法、转化方法和装载方法的分类方法非常重要。

  • 斯凯维亚
  • IRI贪婪
  • Xtract.io
  • DBConvert Studio 来自 SLOTIX sro
  • Informatica – PowerCenter
  • IBM – 信息圈信息服务器
  • Oracle 数据集成器
  • Microsoft – SQL Server 集成服务 (SSIS)
  • 从头算起

数据加载挑战

许多 ETL 解决方案都是基于云的,这对它们的速度和可扩展性负责。但拥有传统本地基础设施和数据管理流程的大型企业通常使用定制脚本通过定制配置来收集数据并将其加载到存储系统中。

减慢分析:每次添加或更改数据源时,都必须重新配置系统,这既费时又阻碍了快速决策的能力。

增加出错的可能性:更改和重新配置为人为错误、重复或丢失数据以及其他问题打开了大门。

需要专业知识:内部 IT 团队通常缺乏编码和监控 ETL 任务的必要技能(和带宽)。

需要昂贵的设备:除了投资于合适的人力资源外,组织还必须采购、容纳和维护硬件和其他设备以推动现场流程。