熱線電話:13121318867

登錄
首頁精彩閱讀rdd是什么?關于它的前世今生!
rdd是什么?關于它的前世今生!
2020-05-13
收藏
rdd,英文全稱為:Resilient Distributed Dataset,中文簡稱“彈性分布式數據集”,spark中最基礎的抽象數據結構。

RDD具備分區、不可變、并行操作這三個基本特性,表現形式為不可變的分區元素的集合,并且可以在集群中并行操作。

RDD擁有的特性如下:

1、是一個分區的只讀記錄的集合;
2. 一個具有容錯機制的特殊集;
3. 只能通過在穩定的存儲器或其他RDD上的確定性操作(轉換)來創建;
4. 可以分布在集群的節點上,以函數式操作集合的方式,進行各種并行操作

另外,每個RDD里都會包括分區信息、依賴關系等等的信息,如下圖所示:



a,Partitions
Partitions 就是上面所說的,代表著RDD中數據的邏輯結構。

b,SparkContext
SparkContext是所有Spark功能的入口,可用來創建RDD對象以及在節點中的廣播變量等等。

c,SparkConf
SparkConf 是一些配置信息。


d,Partitioner
Partitioner 決定了RDD的分區方式,目前兩種主流的分區方式:Hash partioner 和 Range partitioner。

e,Dependencies
Dependencies 也就是依賴關系,記錄了該rdd的計算過程。根據每個rdd的分區計算后生成的新的rdd的分區的對應關系,可以分成窄依賴和寬依賴。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢