熱線電話:13121318867

登錄
首頁大數據時代什么是flume?它在大數據處理中起到什么作用?
什么是flume?它在大數據處理中起到什么作用?
2020-07-16
收藏

Flume 是 Apache 旗下的一款,開源,可靠性高,擴展性高,管理簡單,并且能夠支持客戶擴展的數據采集系統。 Flume 是使用 JRuby 來構建的,因此依賴于 Java 運行環境。Flume 起初是由 Cloudera 的工程師設計出來,被 用于合并日志數據的系統,后來也逐漸被應用到處理流數據事件。

1.Flume概述

Flume能夠支持在日志系統中定制各類數據發送方,用來收集數據;并且,Flume提供對簡單處理數據,并寫到各種數據接受方(可定制)的功能,其設計的原理同樣是基于將數據流(例如日志數據)從各種網站服務器上匯集起來,并存儲到HDFS、HBase等集中存儲器中。Flume具有的可靠性機制以及故障轉移和恢復機制,還具有強大的容錯性和容錯能力。Flume 使用的是一個簡單的可擴展數據模型,允許在線分析應用程序。

2.Flume特點

(1)  Flume是一個分布式、高可靠、高可用的海量日志采集、聚合和傳輸的系統。

(2)   Flume能夠采集文件,socket數據包等各種形式源數據,又能夠將采集到的數據輸出到HDFS、hbase、hive、kafka等眾多外部存儲系統中

(3)   對于一般的采集需求,通過對flume的簡單配置就能實現

(4) 即使 針對特殊場景 Flume也具備良好的自定義擴展能力,所以,flume適合于大部分的日常數據采集

3.Flume的運行機制

Flume的核心是一個agent,agent對外有兩個進行交互的地方,一個是source,負責采集,接受數據的輸入,另一個是sink,數據的輸出,主要負責將數據發送到外部指定的目的地。在source接收到數據之后,會將數據傳送到channel,channel是通道,作為一個數據緩沖區會臨時將這些數據存放起來,之后sink會將channel中的數據發送到指定的地方。這里需要注意:只有sink將channel中的數據發送成功之后,channel才會刪除臨時數據,就是這種機制保證了數據傳輸的可靠性與安全性。

單個agent采集數據

復雜結構:多級agent之間串聯

4.在大數據的業務處理過程中,Flume主要負責數據的采集。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢