📜  数据管道概述

📅  最后修改于: 2022-05-13 01:57:00.390000             🧑  作者: Mango

数据管道概述

在第 21 代的今天,我们必须应对我们获得的每一个信息或数据。当我们通常听到管道时,我们会突然想到那些将这些资源从一个地方长距离输送到另一个地方的天然气和石油管道。但是在这里我们将了解数据管道。

数据管道:

数据管道处理从一端流向另一端的信息。简而言之,我们可以说从各种资源中收集数据,然后根据要求对其进行处理,并通过遵循一些顺序活动将其传输到目的地。它是一组首先从各种资源中提取数据并将其转换为目标的方式,这意味着它会对其进行处理并将其从一个系统移动到另一个系统。

为什么数据管道很重要?

让我们考虑一个数据管道有用的场景。

云的改进意味着企业的现代技术使用许多具有不同功能的应用程序。零售团队可能会结合使用 Hub 现货和 Market 来实现交易自动化。其他零售商团队主要依靠 Salesforce 来处理,其中一些可能使用 MangoDB 来存储客户方法。这会导致跨不同工具的数据浪费,并导致数据孤岛。数据孤岛什么都不是,但它会使获取业务洞察力变得困难,例如您最赚钱的市场。对于商业智能 (BI) 来说,在他们的日常生活中最重要的是,他们需要日常信息才能使用。

如何构建数据管道:

组织可以决定要遵循的开发方法,只是从源中提取数据并将其传输到目的地。批量转换和处理是两种常见的开发方法。然后决定在将数据移动到所需目的地之前使用什么转换过程 - ELT(提取/加载/转换)或 ETL。

构建数据管道的挑战:

Netflix,已经建立了自己的数据管道。但是,构建自己的数据管道非常困难且耗时。

以下是在内部创建数据管道的一些常见挑战:

  • 联系
  • 灵活性
  • 集权
  • 潜伏

数据管道的组件:

要深入了解数据管道如何准备用于解构的大型数据集,我们必须知道它是通用数据管道的主要组件。这些是 -

  1. 资源
  2. 目的地
  3. 数据流
  4. 加工
  5. 工作流程
  6. 监控

未来需要改进:

将来,世界上的数据将不会被存储。这意味着在几年内,数据将在内存中实时收集、处理和分析。该迹象只是对改进数据管道的需求日益增长的各种原因之一:

最后,当今的大多数企业都拥有大量具有动态结构的数据。从这些数据的废料中创建数据管道可能是一种先进的方法,因为企业可能需要利用高质量的资源来开发它,然后确保它会随着数据量和模式变化的增加而继续下去。越来越多的数据工程师在数据和业务之间架起了一座桥梁,让每个人的生活更轻松,这背后是我们最近获得的更轻松的访问,数据工程师付出了他们的辛勤努力,除了那些其他团队无法提供的人。