熱線電話:13121318867

登錄
首頁精彩閱讀Hadoop:偽分布模式啟動步驟分解及HDFS基本操作
Hadoop:偽分布模式啟動步驟分解及HDFS基本操作
2020-06-03
收藏

1、格式化HDFS

在運行偽分布式前,需先對NameNode進行格式化,在命令行中輸入

hdfs namenode -format          # 格式化hdfs

若出現successfully formatted字樣,則說明格式化成功

2、啟動hadoop

然后啟動hadoop集群

start-all.sh # 一次性啟動所有服務

或使用以下命令單獨啟動各項服務

start-dfs.sh      #啟動hdfs
start-yarn.sh     #啟動mapreduce框架yarn

利用jps命令查看是否啟動成功,如果出現下述進程,則證明啟動成功

Jps

運行后顯示有如下進程。

啟動完成后,我們可使用Web端口檢測集群運行情況,建議使用360或Chrome瀏覽器。

查看ResourceManager Web界面:

打開主機瀏覽器,然后輸入下述網址:http://192.168.1.618:8088, 在該界面我們能查看集群任務運行情況

NameNode HDFS Web界面

打開主機瀏覽器,然后輸入下述網址:http://192.168.152.128:50070,在該界面我們能查看集群hdfs基本運行情況

3、 測試運行

接下來,我們仍以grep為例測試其在偽分布式上運行情況。和單機模式不同,偽分布式運行時默認讀取hdfs上文件,同時也會將輸出結果保存在hdfs上,因此我們要提前在hdfs上創建文件夾,更多關于hdfs的操作會在下文介紹

3.1、HDFS基本操作指令

由于偽分布式運行時,數據從HDFS上進行讀取,在上傳數據至HDFS之前,我們需要在HDFS中創建用戶目錄。

hdfs dfs -mkdir -p /user/hduser

接著,我們選取hadoop配置文件夾中的xml文件作為輸入文件復制到HDFS系統中。

hdfs dfs -mkdir input
cd ~/hadoop
hdfs dfs -put ./etc/hadoop/*.xml input

查看HDFS中文件

hdfs dfs -ls input

3.2、運行grep例子

偽分布式運行 MapReduce 作業的方式跟單機模式相同,只是讀取文件和輸出文件保存均在HDFS中。

運行過程中可在8088端口查看mapreduce任務運行情況

運行完成后如下所示

查看保存在HDFS中的運行結果

hdfs dfs -cat output/*

當然,我們也可進一步將結果取回本地

cd ~/hadoop
rm -r ./output # 先刪除本地的 output 文件夾(如果存在)
hdfs dfs -get output ./output # 將 HDFS 上的 output 文件夾拷貝到本機
cat ./output/*  #查看所有文件

到這里hadoop偽分布的安裝啟動就介紹完成了。偽分布的優點是在一臺計算機上也可以使用Hadoop命令;缺點也是顯而易見的發揮不了Hadoop設計初衷--分布式存儲分布式計算。

在下文中我將給大家介紹多節點的分布式集群搭建教程。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢