📜  Microsoft Azure – Azure 数据工厂简介

📅  最后修改于: 2022-05-13 01:55:46.318000             🧑  作者: Mango

Microsoft Azure – Azure 数据工厂简介

通常称为 ADF 的 Azure 数据工厂是一种 ETL(Extract-Transform-load)工具,用于将来自各种格式和大小的各种来源的数据集成在一起,换句话说,它是一个完全托管的、无服务器的数据集成解决方案,用于摄取、大规模准备和转换所有数据。

随着世界各地的数据日益增加,许多企业和企业正在转向使用基于云的技术,以使其业务可扩展。由于云适配的增加,需要云中可靠的ETL工具来进行集成。与其他 ETL 工具相比,Azure 数据工厂因其易于使用、经济高效的解决方案、强大且智能的无代码服务特性而脱颖而出

Azure 数据工厂的架构

下图描述了使用 Azure 数据工厂的数据工程流程的架构

Azure 数据工厂

Azure 数据工厂的各个组件如下:

  1. 活动
  2. 管道
  3. 关联服务
  4. 数据集
  5. 数据流
  6. 集成运行时

所有这些组件在运行时协同工作,以帮助提取和转换源数据。

在了解管道是什么之前,有必要了解活动是什么。

  • 活动:管道中的活动定义了对数据执行的操作。例如,复制数据活动可以从 Blob 存储的一个位置读取并将其加载到 Blob 存储上的另一个位置
  • 管道:管道是一起执行任务的活动的逻辑分组。例如,Pipeline 可以有一组活动,这些活动从 ADLS 获取数据并使用 U-SQL 执行一些数据转换并在 SQL DB 中加载数据
  • 链接服务:链接服务用于通过 Azure 数据工厂连接到其他源。链接服务充当要连接的资源的连接字符串。例如,将 AWS S3 连接到 Azure 数据工厂
  • 数据集:数据集只是点或引用数据,我们希望在我们的活动中将其用作输入或输出
  • 数据流: Azure 数据工厂中的数据流功能将允许用户开发可以作为 ADF 管道中的活动执行的图形数据转换逻辑
  • 集成运行时:集成运行时 (IR) 是 ADF 使用的计算基础设施,以提供跨不同网络环境的数据流、数据移动、活动调度和 SSIS 包执行等功能。

Azure 数据工厂的定价:

  • 无前期费用
  • 无终止费
  • 只为你使用的东西付费
  1. 数据管道:帮助大规模集成来自云和混合数据源的数据。 – 定价从 72.046 卢比/每月 1,000 次活动开始
  2. SQL Server Integration Services:有助于轻松地将现有的本地 SQL Server Integration Services 项目移动到云中的完全托管环境。 - SQL Server 集成服务集成运行时节点的定价从 60.498 卢比/小时起