
實時計算 流數據處理系統簡單分析_數據分析師
一. 實時計算的概念
實時計算一般都是針對海量數據進行的,一般要求為秒級。實時計算主要分為兩塊:數據的實時入庫、數據的實時計算。
主要應用的場景:
1) 數據源是實時的不間斷的,要求用戶的響應時間也是實時的(比如對于大型網站的流式數據:網站的訪問PV/UV、用戶訪問了什么內容、搜索了什么內容等,實時的數據計算和分析可以動態實時地刷新用戶訪問數據,展示網站實時流量的變化情況,分析每天各小時的流量和用戶分布情況)
2) 數據量大且無法或沒必要預算,但要求對用戶的響應時間是實時的。比如說:
昨天來自每個省份不同性別的訪問量分布,昨天來自每個省份不同性別不同年齡不同職業不同名族的訪問量分布。
二. 實時計算的相關技術
主要分為三個階段(大多是日志流):
數據的產生與收集階段、傳輸與分析處理階段、存儲對對外提供服務階段
下面具體針對上面三個階段詳細介紹下
1)數據實時采集:
需求:功能上保證可以完整的收集到所有日志數據,為實時應用提供實時數據;響應時間上要保證實時性、低延遲在1秒左右;配置簡單,部署容易;系統穩定可靠等。
目前的產品:Facebook的Scribe、LinkedIn的Kafka、Cloudera的Flume,淘寶開源的TimeTunnel、Hadoop的Chukwa等,均可以滿足每秒數百MB的日志數據采集和傳輸需求。他們都是開源項目。
2)數據實時計算
在流數據不斷變化的運動過程中實時地進行分析,捕捉到可能對用戶有用的信息,并把結果發送出去。
實時計算目前的主流產品:
關于這三個產品的具體介紹架構分析:http://www.kuqin.com/system-analysis/20120111/317322.html
下面是S4和Storm的詳細對比
其他的產品:
早期的:IBM的Stream Base、 Borealis、Hstreaming、Esper
4. 淘寶的實時計算、流式處理
1) 銀河流數據處理平臺:通用的流數據實時計算系統,以實時數據產出的低延遲、高吞吐和復用性為初衷和目標,采用actor模型構建分布式流數據計算框架(底層基于akka),功能易擴展、部分容錯、數據和狀態可監控。銀河具有處理實時流數據(如TimeTunnel收集的實時數據)和靜態數據(如本地文件、HDFS文件)的能力,能夠提供靈活的實時數據輸出,并提供自定義的數據輸出接口以便擴展實時計算能力。銀河目前主要是為魔方提供實時的交易、瀏覽和搜索日志等數據的實時計算和分析。
2) 基于Storm的流式處理,統計計算、持續計算、實時消息處理。
在淘寶,Storm被廣泛用來進行實時日志處理,出現在實時統計、實時風控、實時推薦等場景中。一般來說,我們從類kafka的metaQ或者基于HBase的timetunnel中讀取實時日志消息,經過一系列處理,最終將處理結果寫入到一個分布式存儲中,提供給應用程序訪問。我們每天的實時消息量從幾百萬到幾十億不等,數據總量達到TB級。對于我們來說,Storm往往會配合分布式存儲服務一起使用。在我們正在進行的個性化搜索實時分析項目中,就使用了timetunnel +HBase + Storm + UPS的架構,每天處理幾十億的用戶日志信息,從用戶行為發生到完成分析延遲在秒級。
3) 利用Habase實現的Online應用
4)實時查詢服務
關于實時計算流數據分析應用舉例:
對于電子商務網站上的店鋪:
1) 實時展示一個店鋪的到訪顧客流水信息,包括訪問時間、訪客姓名、訪客地理位置、訪客IP、訪客正在訪問的頁面等信息;
2) 顯示某個到訪顧客的所有歷史來訪記錄,同時實時跟蹤顯示某個訪客在一個店鋪正在訪問的頁面等信息;
3) 支持根據訪客地理位置、訪問頁面、訪問時間等多種維度下的實時查詢與分析。
下面對Storm詳細介紹下:
整體架構圖
整個數據處理流程包括四部分:
第一部分是數據接入該部分從前端業務系統獲取數據。
第二部分是最重要的Storm 實時處理部分,數據從接入層接入,經過實時處理后傳入數據落地層;
第三部分為數據落地層,該部分指定了數據的落地方式;
第四部分元數據管理器。
數據接入層
該部分有多種數據收集方式,包括使用消息隊列(MetaQ),直接通過網絡Socket傳輸數據,前端業務系統專有數據采集API,對Log問價定時監控。(注:有時候我們的數據源是已經保存下來的log文件,那Spout就必須監控Log文件的變化,及時將變化部分的數據提取寫入Storm中,這很難做到完全實時性。)
Storm實時處理層
首先我們通過一個 Storm 和Hadoop的對比來了解Storm中的基本概念。
(Storm關注的是數據多次處理一次寫入,而Hadoop關注的是數據一次寫入,多次處理使用(查詢)。Storm系統運行起來后是持續不斷的,而Hadoop往往只是在業務需要時調用數據。兩者關注及應用的方向不一樣。)
1. Nimbus:負責資源分配和任務調度。
2. Supervisor:負責接受nimbus分配的任務,啟動和停止屬于自己管理的worker進程。
3. Worker:運行具體處理組件邏輯的進程。
4. Task:worker中每一個spout/bolt的線程稱為一個task. 在Storm0.8之后,task不再與物理線程對應,同一個spout/bolt的task可能會共享一個物理線程,該線程稱為executor。
具體業務需求:條件過濾、中間值計算、求topN、推薦系統、分布式RPC、熱度統計
數據落地層:
MetaQ
如圖架構所示,Storm與MetaQ是有一條虛線相連的,部分數據在經過實時處理之后需要寫入MetaQ之中,因為后端業務系統需要從MetaQ中獲取數據。這嚴格來說不算是數據落地,因為數據沒有實實在在寫入磁盤中持久化。
Mysql
數據量不是非常大的情況下可以使用Mysql作為數據落地的存儲對象。Mysql對數據后續處理也是比較方便的,且網絡上對Mysql的操作也是比較多的,在開發上代價比較小,適合中小量數據存儲。
HDFS及基于Hadoop的分布式文件系統。許多日志分析系統都是基于HDFS搭建出來的,所以開發Storm與HDFS的數據落地接口將很有必要。例如將大批量數據實時處理之后存入Hive中,提供給后端業務系統進行處理,例如日志分析,數據挖掘等等。
Lustre
Lustre作為數據落地的應用場景是,數據量很大,且處理后目的是作為歸檔處理。這種情形,Lustre能夠為數據提供一個比較大(相當大)的數據目錄,用于數據歸檔保存。
元數據管理器的設計目的是,整個系統需要一個統一協調的組件,指導前端業務系統的數據寫入,通知實時處理部分數據類型及其他數據描述,及指導數據如何落地。元數據管理器貫通整個系統,是比較重要的組成部分。元數據設計可以使用mysql存儲元數據信息,結合緩存機制開源軟件設計而成。數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
2025 年,數據如同數字時代的 DNA,編碼著人類社會的未來圖景,驅動著商業時代的運轉。從全球互聯網用戶每天產生的2.5億TB數據, ...
2025-05-27CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25