熱線電話:13121318867

登錄
首頁精彩閱讀shuffle在Spark及Hadoop中的作用大嗎?
shuffle在Spark及Hadoop中的作用大嗎?
2020-05-13
收藏

shuffle是一個能產生奇跡的地方,不管是在 Spark 還是 Hadoop 中,它們的作用都是至關重要的。


在Spark中,一般在執行reduceByKey、groupByKey、sortByKey、countByKey、join、cogroup等操作時,會發生shuffle。


關于 Shuffle 的原理,這里不再講述,看看有關Spark或Hadoop相關的論文或者文章理解一下就 ok。這里主要針對,在 Shuffle如何產生了數據傾斜。


Hadoop 和 Spark 在 Shuffle 過程中產生數據傾斜的原理基本類似。如下圖。

大部分數據傾斜的原理就類似于下圖,很明了,因為數據分布不均勻,導致大量的數據分配到了一個節點。


千億數據優化,如何繞過<wordsbank_match class='wbmatch' location='/map/shujuqingxie/' style='cursor:pointer;'><a href='/map/shujuqingxie/' style='color:#000;font-size:inherit;'>數據傾斜</a></wordsbank_match>這頭攔路虎?



shuffle是MR處理流程中的一個過程,它的每一個處理步驟是分散在各個map task和reduce task節點上完成的。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢