📜  Apache Flume-数据流

📅  最后修改于: 2020-12-03 04:46:00             🧑  作者: Mango


Flume是一个用于将日志数据移入HDFS的框架。通常,事件和日志数据由日志服务器生成,并且这些服务器上运行有Flume代理。这些代理从数据生成器接收数据。

这些代理中的数据将由称为收集器的中间节点收集。就像代理一样,Flume中可以有多个收集器。

最后,来自所有这些收集器的数据将被汇总并推送到集中存储,例如HBase或HDFS。下图说明了Flume中的数据流。

水槽数据流

多跳流量

在Flume中,可以有多个代理,并且在到达最终目的地之前,一个事件可能会通过多个代理进行。这称为多跳流

扇出流量

从一个源到多个通道的数据流称为扇出流。它有两种类型-

  • 复制-将在所有已配置通道中复制数据的数据流。

  • 复用-数据流,数据将被发送到事件标题中提到的选定通道。

扇入流

将数据从许多源传输到一个通道的数据流称为扇入流

故障处理

在Flume中,对于每个事件,都会发生两个事务:一个在发送方,一个在接收方。发送方将事件发送给接收方。接收到数据后不久,接收方将提交自己的事务,并向发送方发送“已接收”信号。收到信号后,发送方将提交其事务。 (发件人直到收到来自接收者的信号,才会进行交易。)