Apache Flume数据流


Flume是一个用于将日志数据移动到HDFS的框架。通常,事件和日志数据由日志服务器生成,这些服务器上运行Flume代理。这些代理从数据生成器接收数据。

这些代理中的数据将由称为 收集器 的中间节点 收集 。就像代理商一样,Flume中可能有多个收藏家。

最后,来自所有这些收集器的数据将被聚合并推送到集中存储,例如HBase或HDFS。下图说明了Flume中的数据流。

Flume DataFlow

多跳流

在Flume中,可以有多个代理,在到达最终目的地之前,事件可能会通过多个代理。这被称为 多跳流

扇出流量

从一个源到多个通道的数据流称为 扇出流 。它有两种类型 -

  • 复制 - 将在所有已配置的通道中复制数据的数据流。

  • 多路复用 - 将数据发送到事件标题中提到的选定通道的数据流。

扇入流量

将数据从多个源传输到一个通道的数据流称为 扇入流

失败处理

在Flume中,对于每个事件,发生两个事务:一个在发送者处,一个在接收者处。发送者将事件发送给接收者。收到数据后不久,接收方提交自己的交易并向发送方发送“已接收”信号。收到信号后,发件人提交其交易。(发送者在接收到来自接收者的信号之前不会提交其交易。)