
0基礎搭建Hadoop大數據處理-初識
在互聯網的世界中數據都是以TB、PB的數量級來增加的,特別是像BAT光每天的日志文件一個盤都不夠,更何況是還要基于這些數據進行分析挖掘,更甚者還要實時進行數據分析,學習,如雙十一淘寶的交易量的實時展示。
大數據什么叫大?4個特征:
體量化 Volume,就是量大。
多樣化 Variety,可能是結構型的數據,也可能是非結構行的文本,圖片,視頻,語音,日志,郵件等
快速化 Velocity,產生快,處理也需要快。
價值密度低 Value,數據量大,但單個數據沒什么意義,需要宏觀的統計體現其隱藏的價值。
可以看出想只要一臺強大的服務器來實時處理這種體量的數據那是不可能的,而且成本昂貴,代價相當大,普通的關系型數據庫也隨著數據量的增大其處理時間也隨之增加,那客戶是不可能忍受的,所以我們需要Hadoop來解決此問題。
優點:
Hadoop是一個能夠讓用戶輕松架構和使用的分布式計算平臺。用戶可以輕松地在Hadoop上開發和運行處理海量數據的應用程序。它主要有以下幾個優點:
高可靠性。Hadoop按位存儲和處理數據的能力值得人們信賴。
高擴展性。Hadoop是在可用的計算機集簇間分配數據并完成計算任務的,這些集簇可以方便地擴展到數以千計的節點中。
高效性。Hadoop能夠在節點之間動態地移動數據,并保證各個節點的動態平衡,因此處理速度非???。
高容錯性。Hadoop能夠自動保存數據的多個副本,并且能夠自動將失敗的任務重新分配。
低成本。與一體機、商用數據倉庫以及QlikView、Yonghong Z-Suite等數據集市相比,hadoop是開源的,項目的軟件成本因此會大大降低。
Hadoop得以在大數據處理應用中廣泛應用得益于其自身在數據提取、變形和加載(ETL)方面上的天然優勢。Hadoop的分布式架構,將大數據處理引擎盡可能的靠近存儲,對例如像ETL這樣的批處理操作相對合適,因為類似這樣操作的批處理結果可以直接走向存儲。Hadoop的MapReduce功能實現了將單個任務打碎,并將碎片任務(Map)發送到多個節點上,之后再以單個數據集的形式加載(Reduce)到數據倉庫里。
Hadoop在各應用中是最底層,最基礎的組件,所以其重要性不言而喻。
框架結構
Hadoop主要由HDFS ( 分布式文件系統)和MapReduce (并行計算框架)組成。
Hadoop 由許多元素構成。其最底部是 Hadoop Distributed File System(HDFS),它存儲 Hadoop 集群中所有存儲節點上的文件。HDFS(對于本文)的上一層是MapReduce 引擎,該引擎由 JobTrackers 和 TaskTrackers 組成。通過對Hadoop分布式計算平臺最核心的分布式文件系統HDFS、MapReduce處理過程,以及數據倉庫工具Hive和分布式數據庫Hbase的介紹,基本涵蓋了Hadoop分布式平臺的所有技術核心。
對外部客戶機而言,HDFS就像一個傳統的分級文件系統??梢詣摻?、刪除、移動或重命名文件,等等。但是 HDFS 的架構是基于一組特定的節點構建的,這是由它自身的特點決定的。這些節點包括 NameNode(僅一個),它在 HDFS 內部提供元數據服務;DataNode,它為 HDFS 提供存儲塊。由于僅存在一個 NameNode,因此這是 HDFS 的一個缺點(單點失?。?。
存儲在 HDFS 中的文件被分成塊,然后將這些塊復制到多個計算機中(DataNode)。這與傳統的 RAID 架構大不相同。塊的大?。ㄍǔ?64MB)和復制的塊數量在創建文件時由客戶機決定。NameNode 可以控制所有文件操作。HDFS 內部的所有通信都基于標準的 TCP/IP 協議。
單節點物理結構
主從結構
主節點,只有一個: namenode
從節點,有很多個: datanodes
namenode負責:接收用戶操作請求 、維護文件系統的目錄結構、管理文件與block之間關系,block與datanode之間關系
NameNode 是一個通常在 HDFS 實例中的單獨機器上運行的軟件。它負責管理文件系統名稱空間和控制外部客戶機的訪問。
datanode負責:存儲文件文件被分成block存儲在磁盤上、為保證數據安全,文件會有多個副本
MapReduce
MapReduce和Hadoop是相互獨立的,實際上又能相互配合工作得很好。
主從結構
主節點,只有一個: JobTracker
從節點,有很多個: TaskTrackers
JobTracker負責:接收客戶提交的計算任務、把計算任務分給TaskTrackers執行、監控TaskTracker的執行情況
TaskTrackers負責:執行JobTracker分配的計算任務
Hadoop能做什么?
大數據量存儲:分布式存儲
日志處理: Hadoop擅長這個
海量計算: 并行計算
ETL:數據抽取到oracle、mysql、DB2、mongdb及主流數據庫
使用HBase做數據分析: 用擴展性應對大量的寫操作—Facebook構建了基于HBase的實時數據分析系統
機器學習: 比如Apache Mahout項目
搜索引擎:hadoop + lucene實現
數據挖掘:目前比較流行的廣告推薦
大量地從文件中順序讀。HDFS對順序讀進行了優化,代價是對于隨機的訪問負載較高。
數據支持一次寫入,多次讀取。對于已經形成的數據的更新不支持。
數據不進行本地緩存(文件很大,且順序讀沒有局部性)
任何一臺服務器都有可能失效,需要通過大量的數據復制使得性能不會受到大的影響。
用戶細分特征建模
個性化廣告推薦
智能儀器推薦
擴展
實際應用:
Flume+Logstash+Kafka+Spark Streaming進行實時日志處理分析
酷狗音樂的大數據平臺
京東的智能供應鏈預測系統
Hadoop的學習不僅僅是學習Hadoop,還要學習Linux,網絡知識,Java、還有數據結構和算法等等,所以萬里長征才開始第一步,希望Hadoop學習不是從了解到放棄。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25