
1)時間序列數據庫(OpenTSDB)
用HBase儲存時間序列數據,每時每刻都在解決,數據庫為開源
2)HBase爬蟲調度庫
垂直搜索爬蟲
大規模爬蟲(全網爬蟲)
這里界定URL爬蟲調度
3)HBase文檔庫
儲存文檔數據庫,偏重于儲存
4)銀行人民幣查詢系統
HBase在實際問題中的應用:
當數據需要隨機讀寫應用,或者高并發操作(大數據多次操作),或者當數據結構簡單,但是量大(非關系型需要大量應用join操作)
HBase對關系型查詢,如join等比較難操作
關鍵要設計Rowkey,可加快查詢
常用語言有Java, thrift引用其他語言操作
在rowkey設計里要避免rowkey熱點,要充分利用rowkey有序特點,并可以把需求字段組合成rowkey
時間序列數據庫
OpenTSDB屬于分布式、可伸縮的時間序列數據庫
可以在秒級數據進行采集,并支持永久存儲與容量規劃,另外可以從不同的metrics進行存儲、索引
普通mysql容量不夠,維度支持不夠
該數據庫的經驗(應該會有遺漏。。)
1)更多的列,更多的數據,掃描更快(在列上掃描比行上掃描快)
2)要讓每一行的數據相對獨立。把行按照一定的規律進行切分(譬如認為10秒是一行數據,時間戳)
3)要在每一個KeyValue里儲存更多的數據
4)不要把同步的儲存到server里面(如HTable/HTablePool等),多用asynchbase的護理高并發數據庫
5)key盡量等長
6)不要在一個Region里儲存過多?
儲存時間序列的方法
每一行保存一個metric & time 以及值,這樣可以按不同維度儲存
把metric id放在時間前面做組合的key,能夠更快掃描相應的維度,而且可以節省儲存空間(把metrics編號,而不是直接用其名字做metrics)
還可以把行變寬,使行儲存更多數據(+0,+1,+2),但是這個不會節省任何空間,只是展示上有所變化而已
但是行不能無限度變寬。
另外,為了防止網絡中斷錯行,建議按照時間戳分行,而不是時間+1、+2、+3這樣按列數斷行
有相應的PDF,網上搜就可以了。。
總結
加寬行可以增加掃描速度,組合使用rowkey,但這些并不能節省空間
只有合并列、縮短column family名字才能一定程度上縮短空間
垂度爬蟲調度庫
多個組(如圖片組新聞組等)同時進行爬蟲處理,并儲存到調度庫里,HBase定期讀取即可
特點
爬蟲軟件需要根據實時性、優先級等存儲調度需要爬取的url
且爬蟲需要為不同組維護url列表
基本上是隊列特征,先插入的URL要優先爬取。但是也要有可以自定義優先級的功能。而且由于數據量差異大(圖片很大),也要合理分配資源。
如垂直業務同時調度、站點抓取速度限速處理、還有時間戳調度處理。
調度庫
為不同頻道儲存host特點及host url列表。
在url里按照hostid與優先級排序
這里符合之前OpenTSDB的特性,不要直接用名字做rowkey,而是用ID(來自host name表)排序
這樣就可以有間隔的掃描線程來執行URL
總結:
要充分運用rowkey進行有序排序
要把rowkey融入有用的字段hostid+PID+URLID
不要直接用字符串作為rowkey,而是編碼以后(整數)進行掃描,節省空間(因為每個列都要儲存rowkey
而且整數化以后就規整化了
文檔庫
文檔庫與調度庫原理比較相似
文檔庫,可以存儲網頁分析以后更加精細化的數據
特點:
數據格式不一樣,需要實時讀取和寫入(還有更新),數據之間存儲會有關聯(如BLOG的評論和正文之間是有關聯的)
技術特點
拆分基礎數據和動態數據(兩個column family)
基礎的基本不會變(網頁標題啊內容啊創建時間?。?nbsp;
動態數據可以實時變化(瀏覽量啊等等)
這里不再是一個server應對不同組,而是多個server應對多個組,以應對不同組的不同數據精細化要求
關聯
銀行人民幣查詢系統
特點:
規模極大,且設備分散(如ATM啊點鈔機啊等等),采集系統要求要及時且不能有遺漏
可按照人民幣冠字號來看,做HASH值或逆轉(因為冠字號可能是連續的,有些連號鈔票會儲存在一起,無法有效切分數據儲存,有時候會造成訪問熱點,因此需要更改冠字號來做rowkey)
要求
及時可靠,能夠快速檢索及存儲,且擴展性要好
因為涉及到多設備采集輸入,所以可以用Flume+HBase解決問題
選擇HBase的原因是應用非常簡單,只是簡單查詢而已,用HBase就夠了
可以參考Cloudera開源的日志收集系統
總結
HBase常常需要與其他系統結合使用
要盡量避免產生訪問熱點(尤其要避免直接采用時間作為rowkey),要把連續號打散
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25