熱線電話：13121318867

登錄

首頁大數據時代大數據分析師教程-1.2Hadoop安裝與HDFS、MapReduce實驗：Hadoop安裝、配置文件

大數據分析師教程-1.2Hadoop安裝與HDFS、MapReduce實驗：Hadoop安裝、配置文件

2024-10-13

收藏

大數據分析師教程-Hadoop安裝與HDFS、MapReduce實驗：Hadoop安裝、配置文件

Hadoop安裝、配置和啟動
- 解壓縮 Hadoop安裝包及設置環境變量
- 創建數據存放目錄
- 配置文件設置、環境變量、主從節點指定
- 復制 Hadoop到其它各個節點
- 推薦學習書籍

Hadoop安裝、配置和啟動

下載Hadoop，我們使用的版本是Hadoop2.7.3

解壓縮 Hadoop安裝包及設置環境變量

解壓縮 Hadoop安裝包，并且對安裝目錄進行重命名

cd /opt/linuxsir
tar -zxvf hadoop-2.7.3.tar.gz 
 
ls
mv hadoop-2.7.3 /opt/linuxsir/hadoop

在192.168.31.131虛擬機上編輯/root/.bashrc文件，然后復制到192.168.31.132、192.168.31.133

echo "" >> /root/.bashrc
echo "export HADOOP_PREFIX=/opt/linuxsir/hadoop" >> /root/.bashrc
echo "export HADOOP_HOME=$HADOOP_PREFIX" >> /root/.bashrc
echo "export HADOOP_COMMON_HOME=$HADOOP_PREFIX" >> /root/.bashrc
echo "export HADOOP_CONF_DIR=$HADOOP_PREFIX/etc/hadoop" >> /root/.bashrc
echo "export HADOOP_HDFS_HOME=$HADOOP_PREFIX" >> /root/.bashrc
echo "export HADOOP_MAPRED_HOME=$HADOOP_PREFIX" >> /root/.bashrc
echo "export HADOOP_YARN_HOME=$HADOOP_PREFIX" >> /root/.bashrc
echo "export PATH=$PATH:$HADOOP_PREFIX/sbin:$HADOOP_PREFIX/bin" >> /root/.bashrc
 
echo "export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"" >> /root/.bashrc
echo "export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native" >> /root/.bashrc
 
echo "export CLASSPATH=$CLASSPATH:/opt/linuxsir/hadoop/lib/*" >> /root/.bashrc
 
cat /root/.bashrc

\在192.168.31.131上，復制/root/.bashrc到132和133
scp -r /root/.bashrc root@192.168.31.132:/root/.bashrc
scp -r /root/.bashrc root@192.168.31.133:/root/.bashrc
 
\在192.168.31.131上，在131/132/133三臺機器上運行/root/.bashrc，刷新環境
cd 
source /root/.bashrc
ssh root@192.168.31.132 source /root/.bashrc
ssh root@192.168.31.133 source /root/.bashrc

創建數據存放目錄

cd /opt/linuxsir/hadoop                  \進入/opt/linuxsir/hadoop目錄
rm -rf /opt/linuxsir/hadoop/tmp
rm -rf /opt/linuxsir/hadoop/hdfs
mkdir /opt/linuxsir/hadoop/tmp           \創建tmp目錄
mkdir -p /opt/linuxsir/hadoop/hdfs/data /opt/linuxsir/hadoop/hdfs/name \創建hdfs的data、name子目錄
 
\還要針對hd-slave1,hd-slave2等兩個節點上執行上述命令，然后再初始化hdfs
ssh root@192.168.31.132 rm -rf /opt/linuxsir/hadoop/tmp
ssh root@192.168.31.132 rm -rf /opt/linuxsir/hadoop/hdfs
ssh root@192.168.31.132 mkdir /opt/linuxsir/hadoop/tmp
ssh root@192.168.31.132 mkdir -p /opt/linuxsir/hadoop/hdfs/data /opt/linuxsir/hadoop/hdfs/name
 
ssh root@192.168.31.133 rm -rf /opt/linuxsir/hadoop/tmp
ssh root@192.168.31.133 rm -rf /opt/linuxsir/hadoop/hdfs
ssh root@192.168.31.133 mkdir /opt/linuxsir/hadoop/tmp
ssh root@192.168.31.133 mkdir -p /opt/linuxsir/hadoop/hdfs/data /opt/linuxsir/hadoop/hdfs/name

配置文件設置、環境變量、主從節點指定

對若干配置文件進行設置，保證Hadoop能夠正常啟動。

(1) 主要的配置文件包括HADOOP_HOME目錄下的

etc/hadoop/core-site.xml
etc/hadoop/hdfs-site.xml
etc/hadoop/yarn-site.xml
etc/hadoop/mapred-site.xml等文件

(2) 并且為如下文件配置環境變量

etc/hadoop/hadoop-env.sh
etc/hadoop/yarn-env.sh
etc/hadoop/mapred-env.sh等

(3)master和slave

masters
slaves

配置文件設置

編輯/opt/linuxsir/hadoop/etc/hadoop目錄下的core-site.xml文件

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
    <name>hadoop.tmp.dir</name>
    <value>file:///opt/linuxsir/hadoop/tmp</value>
</property>
 
<property>
    <name>fs.defaultFS</name>
    <value>hdfs://hd-master:9000</value><!-- NameNode URI -->
</property>
 
<property>
    <name>io.file.buffer.size</name>
    <value>131702</value>
</property>
</configuration>

編輯/opt/linuxsir/hadoop/etc/hadoop目錄下的hdfs-site.xml文件，內容如下

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
    <name>dfs.namenode.name.dir</name>
    <value>file:///opt/linuxsir/hadoop/hdfs/name</value> <!-- 本機name目錄for NameNode -->
</property>
 
<property>
    <name>dfs.datanode.data.dir</name>
    <value>file:///opt/linuxsir/hadoop/hdfs/data</value> <!-- 本機data目錄for DataNode -->
</property>
 
<property>
    <name>dfs.replication</name> <!-- 數據塊副本數量 -->
    <value>2</value>
</property>
 
<property>
    <name>dfs.webhdfs.enabled</name>
    <value>true</value>
</property>
 
<property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>hd-master:9001</value>
</property>
</configuration>

在/opt/linuxsir/hadoop/etc/hadoop目錄下，復制mapred-site.xml.template到mapred-site.xml，并且進行編輯

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value> <!--yarn or yarn-tez-->
</property>
 
<property>
    <name>mapreduce.jobhistory.address</name>
    <value>hd-master:10020</value>
</property>
 
<property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>hd-master:19888</value>
</property>
<property>
    <name>mapreduce.map.memory.mb</name> <!-- memory for map task -->
    <value>64</value>
</property>
<property>
    <name>mapreduce.reduce.memory.mb</name> <!-- memory for reduce task -->
    <value>128</value>
</property>
<property>
    <name>mapreduce.task.io.sort.mb</name>
    <value>32</value>
</property>
 
<property>
    <name>mapreduce.map.java.opts</name> <!-- settings for JVM map task -->
    <value>-Xms128m -Xmx256m</value>
</property>
<property>
    <name>mapreduce.reduce.java.opts</name> <!-- settings for JVM reduce task -->
    <value>-Xms128m -Xmx256m</value>
</property>
</configuration>

在/opt/linuxsir/hadoop/etc/hadoop編輯yarn-site.xml文件，對YARN資源管理器的ResourceManager和NodeManagers節點、端口、內存分配等進行配置

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
    <name>yarn.resourcemanager.hostname</name>
    <value>hd-master</value>
</property>
 
<property>
    <name>yarn.resourcemanager.address</name>
    <value>hd-master:9032</value>
</property>
<property>
    <name>yarn.resourcemanager.scheduler.address</name>
    <value>hd-master:9030</value>
</property>
<property>
    <name>yarn.resourcemanager.resource-tracker.address</name>
    <value>hd-master:9031</value>
</property>
<property>
    <name>yarn.resourcemanager.admin.address</name>
    <value>hd-master:9033</value>
</property>
<property>
    <name>yarn.resourcemanager.webapp.address</name>
    <value>hd-master:9099</value>
</property>
<property>
    <name>yarn.nodemanager.resource.memory-mb</name>
    <value>2048</value>
</property>
<property>
    <name>yarn.scheduler.maximum-allocation-mb</name>
    <value>2048</value>
</property>
<property>
    <name>yarn.scheduler.minimum-allocation-mb</name>
    <value>1024</value>
</property>
<property>
    <name>yarn.app.mapreduce.am.resource.mb</name>
    <value>1024</value>
</property>
<property>
    <name>yarn.app.mapreduce.am.command-opts</name>
    <value>-Xms128m -Xmx256m</value>
</property>

<property>
    <name>yarn.nodemanager.vmem-check-enabled</name>
    <value>false</value>
</property>
<property>
    <name>yarn.nodemanager.vmem-pmem-ratio</name>
    <value>8</value>
</property>
<property>
    <name>yarn.nodemanager.resource.cpu-vcores</name>
    <value>1</value>
</property>
 
 
<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>
<property>
    <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
    <value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>

進入hadoop-env.sh腳本文件所在目錄/opt/linuxsir/hadoop/etc/Hadoop

設置環境變量

export JAVA_HOME=/opt/linuxsir/java/jdk

接著，設置/opt/linuxsir/hadoop/etc/hadoop目錄下yarn-env.sh腳本文件的JAVA_HOME變量，內容如下

export JAVA_HOME=/opt/linuxsir/java/jdk

如果NodeManager因為內存不足，而啟動不起來，那么yarn-env.sh文件需要做如下修改，即JAVA_HEAP_MAX改為3G

JAVA_HEAP_MAX=-Xmx3072m

指定主從節點列表

修改/opt/linuxsir/hadoop/etc/hadoop/masters文件和/opt/linuxsir/hadoop/etc/hadoop/slaves文件，目的是指定主節點和從節點列表。

/opt/linuxsir/hadoop/etc/hadoop/masters文件的內容如下，即主節點為hd-master

hd-master

/opt/linuxsir/hadoop/etc/hadoop/slaves文件的內容如下，即從節點為hd-slave1和hd-slave2

hd-slave1
hd-slave2

復制Hadoop到其它各個節點

從192.168.31.131虛擬機復制Hadoop到其它各個節點，包括192.168.31.132、192.168.31.133。在192.168.31.131上運行如下命令

chmod a+rwx -R /opt/linuxsir \設置/opt/linuxsir的存取權限
ssh root@192.168.31.132 chmod a+rwx -R /opt/linuxsir 
ssh root@192.168.31.133 chmod a+rwx -R /opt/linuxsir
 
scp -r /root/.bashrc root@192.168.31.132:/root/.bashrc \復制/root/.bashrc
scp -r /root/.bashrc root@192.168.31.133:/root/.bashrc
 
scp -r /opt/linuxsir/hadoop hd-slave1:/opt/linuxsir \復制/opt/linuxsir/hadoop
scp -r /opt/linuxsir/hadoop hd-slave2:/opt/linuxsir
 
source ~/.bashrc  \刷新環境變量
ssh root@192.168.31.132 source ~/.bashrc
ssh root@192.168.31.133 source ~/.bashrc

這里分享一個你一定用得到的小程序——CDA數據分析師考試小程序。它是專為CDA數據分析認證考試報考打造的一款小程序?？梢詭湍憧焖賵竺荚?、查成績、查證書、查積分，通過該小程序，考生可以享受更便捷的服務。掃碼加入CDA小程序，與圈內考生一同學習、交流、進步！

推薦學習書籍

《CDA一級教材》適合CDA一級考生備考，也適合業務及數據分析崗位的從業者提升自我。完整電子版已上線CDA網校，累計已有10萬+在讀~

免費加入閱讀：https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

Hadoop 數據分析壓縮虛擬機 NameNode HDFS shuffle 大數據分析

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇大數據分析師教程-1.1 Hadoop安裝與HDFS、MapReduce實驗：集群網絡配置、JDK安裝、無密碼登錄ssh

下一篇大數據管理與應用專業學什么？給你一些行業需求與課程解析小思路

數據分析師考試動態

考試介紹
考試大綱
考試內容
考試地點

CDA報考指南

報考流程
考試時間
報名費用
聯系我們

數據分析學習

數據分析師資訊

更多

Copyright © 2015-2021, www.ruiqisteel.com All Rights Reserved. CDA數據分析師(北京國富如荷網絡科技有限公司) 版權所有京ICP備11001960號-9

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯系電話：13321103290 (微信同號)

OK

免費資料
免費試聽
訂制課程
職業規劃
認證考試

客服在線

日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊