📝 Apache Flume教程

12篇技术文档
  Apache Flume教程

📅  最后修改于: 2020-12-03 04:44:27        🧑  作者: Mango

Flume是一种标准,简单,健壮,灵活且可扩展的工具,用于将数据从各种数据生产者(Web服务器)提取到Hadoop中。在本教程中,我们将使用简单的说明性示例来解释Apache Flume的基础知识以及如何在实践中使用它。本教程适用于所有希望学习使用Apache Flume将日志和流数据从各种Web服务器传输到HDFS或HBase的过程的专业人员。先决条件要充分利用本教程,您应该对Hadoop和HD...

  Apache Flume-简介

📅  最后修改于: 2020-12-03 04:44:47        🧑  作者: Mango

什么是水槽?Apache Flume是一种工具/服务/数据摄取机制,用于收集各种流数据(例如日志文件,事件(等))的聚合并将其从各种来源传输到集中式数据存储。Flume是一种高度可靠,分布式且可配置的工具。它主要用于将流式数据(日志数据)从各种Web服务器复制到HDFS。水槽的应用假设电子商务Web应用程序要分析特定区域的客户行为。为此,他们需要将可用的日志数据移入Hadoop进行分析。 Apac...

  Apache Flume-Hadoop中的数据传输

📅  最后修改于: 2020-12-03 04:45:15        🧑  作者: Mango

大数据,因为我们知道,是不能用传统的计算技术来处理大型数据集的集合。大数据经过分析,可以提供有价值的结果。Hadoop是一个开放源代码框架,允许使用简单的编程模型在跨计算机集群的分布式环境中存储和处理大数据。流/日志数据通常,将要分析的大多数数据将由各种数据源生成,例如应用程序服务器,社交网站,云服务器和企业服务器。这些数据将采用日志文件和事件的形式。日志文件-通常,日志文件是列出操作系统中发生的...

  Apache Flume-体系结构

📅  最后修改于: 2020-12-03 04:45:41        🧑  作者: Mango

下图描述了Flume的基本体系结构。如图所示,数据生成器(例如Facebook,Twitter)生成的数据由运行在它们上的各个Flume代理收集。此后,数据收集器(也是代理)从代理收集数据,这些数据被汇总并推送到集中存储(例如HDFS或HBase)中。水槽事件事件是Flume内部传输数据的基本单位。它包含字节数组的有效负载,该有效负载将与可选的标头一起从源传输到目的地。典型的Flume事件将具有以...

  Apache Flume-数据流

📅  最后修改于: 2020-12-03 04:46:00        🧑  作者: Mango

Flume是一个用于将日志数据移入HDFS的框架。通常,事件和日志数据由日志服务器生成,并且这些服务器上运行有Flume代理。这些代理从数据生成器接收数据。这些代理中的数据将由称为收集器的中间节点收集。就像代理一样,Flume中可以有多个收集器。最后,来自所有这些收集器的数据将被汇总并推送到集中存储,例如HBase或HDFS。下图说明了Flume中的数据流。多跳流量在Flume中,可以有多个代理,...

  Apache Flume-环境

📅  最后修改于: 2020-12-03 04:46:29        🧑  作者: Mango

在上一章中,我们已经讨论了Flume的体系结构。在本章中,让我们看看如何下载和设置Apache Flume。在继续进行之前,您需要在系统中拥有Java环境。因此,首先,请确保您在系统中安装了Java。对于本教程中的一些示例,我们使用了Hadoop HDFS(作为接收器)。因此,我们建议您与Java一起安装Hadoop。要收集更多信息,请单击链接-http://www.tutorialspoint....

  Apache Flume-配置

📅  最后修改于: 2020-12-03 04:47:04        🧑  作者: Mango

安装Flume之后,我们需要使用配置文件对其进行配置,该配置文件是具有键值对的Java属性文件。我们需要将值传递给文件中的键。在Flume配置文件中,我们需要-命名当前代理的组件。描述/配置源。描述/配置接收器。描述/配置通道。将源和接收器绑定到通道。通常,在Flume中我们可以有多个代理。我们可以使用唯一的名称来区分每个代理。使用此名称,我们必须配置每个代理。命名组件首先,您需要命名/列出组件,...

  Apache Flume-获取Twitter数据

📅  最后修改于: 2020-12-03 04:47:57        🧑  作者: Mango

使用Flume,我们可以从各种服务中获取数据并将其传输到集中存储(HDFS和HBase)。本章介绍如何使用Apache Flume从Twitter服务中获取数据并将其存储在HDFS中。如Flume Architecture中所述,Web服务器生成日志数据,并且该数据由Flume中的代理收集。通道将该数据缓冲到接收器,接收器最后将其推送到集中存储。在本章提供的示例中,我们将创建一个应用程序,并使用A...

  Apache Flume-序列生成器源

📅  最后修改于: 2020-12-03 04:48:25        🧑  作者: Mango

在上一章中,我们已经了解了如何从Twitter源中获取数据到HDFS。本章介绍如何从Sequence Generator中获取数据。先决条件要运行本章提供的示例,您需要将HDFS和Flume一起安装。因此,在继续进行操作之前,请验证Hadoop安装并启动HDFS。 (请参阅上一章以了解如何启动HDFS)。配置Flume我们必须使用conf文件夹中的配置文件配置源,通道和接收器。本章给出的示例使用了...

  Apache Flume-NetCat源码

📅  最后修改于: 2020-12-03 04:48:52        🧑  作者: Mango

本章以示例为例,说明如何生成事件并随后将其登录到控制台。为此,我们使用了NetCat源和记录器接收器。先决条件要运行本章提供的示例,您需要安装Flume。配置Flume我们必须使用conf文件夹中的配置文件配置源,通道和接收器。本章中的示例使用NetCat源,内存通道和记录器接收器。NetCat来源在配置NetCat源时,我们必须在配置源时指定端口。现在,源(NetCat源)侦听给定的端口,并接收...

  Apache Flume-有用的资源

📅  最后修改于: 2020-12-03 04:49:08        🧑  作者: Mango

以下资源包含有关Apache Flume的其他信息。请使用它们来获得有关此方面的更深入的知识。Apache Flume上的有用链接Apache Flume–Apache Flume的参考。Flume用户指南-Apache Flume用户指南参考。Apache Flume Wiki–Apache Flume的维基百科参考。关于Apache Flume的有用书籍要在此页面上注册您的网站,请发送电子邮件...

  讨论Apache Flume

📅  最后修改于: 2020-12-03 04:49:21        🧑  作者: Mango

Flume是一种标准,简单,健壮,灵活且可扩展的工具,用于将数据从各种数据生产者(Web服务器)提取到Hadoop中。在本教程中,我们将使用简单的说明性示例来解释Apache Flume的基础知识以及如何在实践中使用它。...