Spark和Hadoop作業之間的區別_數據分析師-CDA數據分析師官網

熱線電話：13121318867

登錄

首頁精彩閱讀Spark和Hadoop作業之間的區別_數據分析師

Spark和Hadoop作業之間的區別_數據分析師

2014-11-25

收藏

Spark和Hadoop作業之間的區別_數據分析師

　Spark目前被越來越多的企業使用，和Hadoop一樣，Spark也是以作業的形式向集群提交任務，那么在內部實現Spark和Hadoop作業模型都一樣嗎?答案是不對的。

　　熟悉Hadoop的人應該都知道，用戶先編寫好一個程序，我們稱為Mapreduce程序，一個Mapreduce程序就是一個Job，而一個Job里面可以有一個或多個Task，Task又可以區分為Map Task和Reduce Task，如下圖所示：

　　而在Spark中，也有Job概念，但是這里的Job和Mapreduce中的Job不一樣，它不是作業的最高級別的粒度，在它只上還有Application的概念。我們先來看看Spark文檔是怎么定義Application，Task ，Job和Stage的：

　　一個Application和一個SparkContext相關聯，每個Application中可以有一個或多個Job，可以并行或者串行運行 Job。Spark中的一個Action可以觸發一個Job的運行。在Job里面又包含了多個Stage，Stage是以Shuffle進行劃分的。在 Stage中又包含了多個Task，多個Task構成了Task Set。他們之間的關系如下圖所示：

　Mapreduce中的每個Task分別在自己的進程中運行，當該Task運行完的時候，該進程也就結束了。和Mapreduce不一樣的是，Spark中多個Task可以運行在一個進程里面，而且這個進程的生命周期和Application一樣，即使沒有Job在運行。

　　這個模型有什么好處呢?可以加快Spark的運行速度!Tasks可以快速地啟動，并且處理內存中的數據。但是這個模型有的缺點就是粗粒度的資源管理，每個Application擁有固定數量的executor和固定數量的內存。本文來源：CDA數據分析師

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

Mapreduce Hadoop 數據分析

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇隨機森林 vs XGBoost vs 決策樹：算法選擇中的

下一篇圖論在大數據分析中的作用！

數據分析師考試動態

考試介紹
考試大綱
考試內容
考試地點

CDA報考指南

報考流程
考試時間
報名費用
聯系我們

數據分析學習

數據分析師資訊

更多

Copyright © 2015-2021, www.ruiqisteel.com All Rights Reserved. CDA數據分析師(北京國富如荷網絡科技有限公司) 版權所有京ICP備11001960號-9

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯系電話：13321103290 (微信同號)

OK

免費資料
免費試聽
訂制課程
職業規劃
認證考試

客服在線

日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊