熱線電話:13121318867

登錄
首頁精彩閱讀大數據技術深觀察:從具體場景說開去
大數據技術深觀察:從具體場景說開去
2016-10-27
收藏


這幾年,隨著大數據技術的日益成熟,越來越多的公司和產品引入大數據技術;同時也有越來越多的大數據技術、框架以及產品被推向市場;目前大數據產品市場已進化到V3.0,產品繁多,數不勝數。


這個現象充分說明了大數據技術的發展速度之快和大家對該技術未來發展的信心;但這也給一個企業或者產品開發決策者帶來了更多的選擇困境。本文試圖從“用戶行為分析系統”的應用場景出發,結合技術落地過程的一些經驗和感受,給廣大的技術決策和愛好者一些親身的建議;當然技術本身沒有好壞之分,只有適不適合之說,文中技術描述有不到位的地方,敬請指出,不勝感激。

丨應用場景無處不在
用戶行為分析系統主要通過收集用戶的行為數據(功能使用信息、操作行為信息、按鈕點擊事件信息等等),會話加工、業務建模、數據分析甚至數據挖掘等業務技術流程來統計分析用戶的行為,形成各類統計指標和分析結果供運營決策。簡要流程見下方:


丨技術難題催生解決之道
在不同的階段,運用的技術和方案也不盡相同。首先來看看在實踐過程中用到的一些技術和遇到的一些問題。

1.數據采集階段
在該階段由于涉及的數據來源方式的多樣性,如前端SDK發送、日志、數據庫等;各種方式的處理方法和技術不盡相同。

一般SDK技術由于客戶端的不同而不同,不在此處贅述。

日志文件數據的采集可通過推送或抓取兩種方向不同而方式不同,像公司的T2日志filterlog、java的log4j等均可以通過推送至數據接收端的方式進行,市面上主要的技術是由flume/flume-ng(高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸的系統)采集至kafka來解決或ELK(elasticsearch+logstash+kibana)來解決。

但是這兩種方案主要存在的問題是對前端發送數據無法保證完整性和一致性,畢竟該方案在網絡閃斷、服務異常、超過上限閾值等情況下容易導致數據丟失,特別是需要有完整性需求時(如提供日志中心服務、日志文件還原服務等),需要慎重考慮;由于歷史遺留問題,需要建立對接產品的日志中心服務,提供日志文件的存儲、還原及下載服務,我們采用的更為保守的Socket雙向數據確認服務來保證日志的完整性;也可做到有效控制對客戶機資源消耗的管控(當然對數據一致性要求不是特別高的應用場景,這幾種方案都是可以考慮的)。Socket雙向數據確認服務主要處理流程見下方:

數據庫數據層面的數據采集根據數據庫的不同技術也不太相同,目前公司2.0業務使用較多的RDS(MYSQL)的數據采集可以考慮研發中心的斗轉星移產品;當然,更為通用的解決技術如kettle也是可以考慮的技術之一,只是對于開發投入等會較前面的產品更為大一些。

2.數據接收階段
在數據接收階段,主要考慮的是高并發和高可用;這階段的技術主要通過kafka集群作為緩沖來解決這兩塊問題。當然,前端通過SLB加后端多接收負載均衡來達到高可用;實時流式的數據應用一般通過實時流式計算框架JStorm來實現。

Kafka主要有如下特點是一種分布式的,基于發布/訂閱的消息系統。主要設計目標如下:
1、以時間復雜度為O(1)的方式提供消息持久化能力,即使對TB級以上數據也能保證常數時間的訪問性能。
2、高吞吐率。即使在非常廉價的商用機器上也能做到單機支持每秒100K條消息的傳輸。
3、支持Kafka Server間的消息分區,及分布式消費,同時保證每個partition內的消息順序傳輸。
4、同時支持離線數據處理和實時數據處理。

這里主要需要關注的點是:
1、kafka只能保證在同一個partition內的消息順序傳輸,多個partition內的消息無法保證順序傳輸;在需要順序傳輸需求時需要保證只使用一個partition;
2、SLB的負載均衡通常判斷后端服務是否存活的依據是后端端口是否存在,當后端架設nginx等此類服務時需要特別小心,經常會引發后端服務掛掉但nginx服務還存活時,SLB無法正確進行判斷進而轉發至有效后端服務的情況。

3.數據存儲、建模、數據統計分析階段
hadoop大數據平臺主要的存儲數據格式/方式有hdfs、hbase、redis、es/solr等;hdfs主要在存儲的數據不需要更改的情況下使用,如日志文件等非結構化數據等;hbase主要解決數據的可修改性和基于rowkey的快速查詢的應用場景,當然通常配合es/solr來優化多字段查詢;es/solr主要作為小數據量內存應用的場景。

對于對象間的關系模型的存儲,Neo4j圖形化數據庫是首選的解決方案。Neo4j是一個高性能的、NOSQL圖形數據庫,它將結構化數據存儲在網絡上而不是表中。Neo4j也可以被看作是一個高性能的圖引擎,該引擎具有成熟數據庫的所有特性。

程序員工作在一個面向對象的、靈活的網絡結構下而不是嚴格、靜態的表中——但是它們可以享受到具備完全的事務特性、企業級的數據庫的所有好處。Neo4j因其嵌入式、高性能、輕量級等優勢,越來越受到關注。

它主要解決圖形數據結構問題;在一個圖中包含兩種基本的數據類型:Nodes(節點) 和 Relationships(關系)。Nodes 和 Relationships 包含key/value形式的屬性。Nodes通過Relationships所定義的關系相連起來,形成關系型網絡結構。


4.結果數據存儲、展示階段
這部分數據通常需要結合最后的報表等展示系統的查詢特性,一般有關系型數據庫或者NOsql數據來承擔這樣的角色?;贛ysql的RDS或者是Mongodb、cassandra等都是不錯的選擇。在多維度的較大結果數據的存儲上,mysql需要結合分庫分表方案,mongodb需要結合分區分片等技術。


丨用戶行為系統任重道遠
一套安全、高可用、高靈活性的系統涉及的周邊需求和技術還有很多,比如硬件監控、業務監控、快速擴展、高效部署、灰度升級等方面的需求結合SEE平臺、Azkaban、docker技術等不再擴展描述。

上述的一些技術和應用案例也只是基于用戶行為分析系統的實踐過程中的一些積累,就像文首描述的一樣,目前的技術更新和演進越來越快,我們的用戶行為系統的實踐也僅僅只涵蓋了一小部分技術和內容;在建設過程中踩過很多坑,填過很多坑;歡迎同行能夠提一些建設性的意見和建議,讓我們一起成長。

CDA大數據分析師就業班本周末開課,歡迎參加:

http://www.ruiqisteel.com/kecheng/7.html


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢