熱線電話:13121318867

登錄
首頁大數據時代數據傾斜是什么,產生原因有哪些?
數據傾斜是什么,產生原因有哪些?
2020-06-30
收藏

數據傾斜數據挖掘過程中的常見問題,尤其是在需要處理的數據量過于龐大時,我們可能會需要花費幾周甚至更長時間去處理。小編今天就來跟大家分享一下數據傾斜的表現以及產生原因,希望對各位小伙伴有所幫助。

1、數據傾斜概念

由于數據分配不均勻,造成數據大量集中到一點,造成數據熱點

2、數據傾斜主要表現

任務進度長時間內徘徊在99%或者100%左右,但根據任務監控頁面顯示,未完成的只有少量reduce子任務,原因是這些子任務的數據量和其他的reduce差異過大。單一reduce處理的記錄數與平均記錄數相比差距過高,最高能達到達到好幾倍之多,最長時間遠遠超過平均時長。

3、容易數據傾斜情況

4、數據傾斜產生的原因:

A:key 分布不均勻

B:業務數據本身的特性

C:在考慮不周全情況下建表

D:某些 HQL 語句本身就存在數據傾斜

以上就是小編今天跟大家分享的數據傾斜的一些內容,希望對各位小伙伴數據挖掘工作有所幫助。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢