數據傾斜解決優化方法有哪些？-CDA數據分析師官網

熱線電話：13121318867

登錄

首頁大數據時代數據傾斜解決優化方法有哪些？

數據傾斜解決優化方法有哪些？

2020-07-02

收藏

數據分析時，數據量大不可怕，可怕的是數據傾斜。當出現數據傾斜時，小量任務耗時遠高于其它任務，從而使得整體耗時過大，未能充分發揮分布式系統的并行計算優勢。下面小編就給大家分享幾種數據傾斜優化的方法，希望對大家有所幫助。

一、解決思路

業務邏輯

程序層面

調參方面

二、解決方法

1.針對goupby出現數據傾斜

解決策略是對key值進行加鹽處理：

核心實現思路就是進行兩階段聚合。第一次是局部聚合，先給每個key都打上一個隨機數，此時原先一樣的key就變成不一樣的了，接著對打上隨機數后的數據，執行sum,count等聚合操作，進行局部聚合。然后將各個key的前綴給去掉，就會變成(hello,2)(hello,2)，再次進行全局聚合操作，就可以得到最終結果了。

方案優點：對于聚合類的shuffle操作導致的數據傾斜，效果是非常不錯的。通常都可以解決掉數據傾斜，或者至少是大幅度緩解數據傾斜

方案缺點：僅僅適用于聚合類的shuffle操作，適用范圍相對較窄。如果是join類的shuffle操作，還得用其他的解決方案。

2.針對join出現的數據傾斜

方案一：抽樣求出引起數據傾斜的key值，進行過濾處理

情景：某張表中數據分布不均，個別key值出現次數占比很大，引起join數據傾斜，例如數據空值或者爬蟲IP

處理思路：首先對數據進行抽樣，選出key占比較大列表，采取過濾處理，去掉無效值或者加鹽等處理，然后先進行局部處理，在整體處理

優點：可以快速解決數據傾斜問題

缺點：應用場景受限，適用于幾個key值偏多的情況

方案二：優先使用mapjoin

由于map階段不會發生數據傾斜，使用mapjoin可以防止數據傾斜，join操作中的表的數據量比較小(比如幾百M或者一兩G)，比較適用此方案。

方案優點：對join操作導致的數據傾斜，效果非常好，因為根本就不會發生shuffle，也就根本不會發生數據傾斜。

方案缺點：適用場景較少，因為這個方案只適用于一個大表和一個小表的情況。

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

數據傾斜 shuffle 數據分析

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇簡單理解文本挖掘的定義與過程

下一篇正態分布是什么，有什么特征？

數據分析師考試動態

考試介紹
考試大綱
考試內容
考試地點

CDA報考指南

報考流程
考試時間
報名費用
聯系我們

數據分析學習

數據分析師資訊

更多

Copyright © 2015-2021, www.ruiqisteel.com All Rights Reserved. CDA數據分析師(北京國富如荷網絡科技有限公司) 版權所有京ICP備11001960號-9

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯系電話：13321103290 (微信同號)

OK

免費資料
免費試聽
訂制課程
職業規劃
認證考試

客服在線

日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊