熱線電話:13121318867

登錄
首頁大數據時代大數據分析師教程-1.1 Hadoop安裝與HDFS、MapReduce實驗:集群網絡配置、JDK安裝、無密碼登錄ssh
大數據分析師教程-1.1 Hadoop安裝與HDFS、MapReduce實驗:集群網絡配置、JDK安裝、無密碼登錄ssh
2024-10-12
收藏

大數據分析師教程

大數據分析師教程-Hadoop安裝與HDFS、MapReduce實驗:集群網絡配置、JDK安裝、無密碼登錄ssh


新建虛擬機集群邏輯說明

在一臺虛擬機上安裝了CentOS以后,可以復制該虛擬機(復制虛擬機Image所在目錄),并且修改主機名、進行網絡配置修改(IP地址),構造3臺虛擬機構成的集群

如果通過復制虛擬機Image的方式,建立另外兩個虛擬機碰到問題,不好解決。所以最好是新建虛擬機2和虛擬機3,全新安裝CentOS和進行相關配置,包括網絡配置、Samba、SSHD、Yum等


集群網絡配置

vm里面有3臺主機,每個主機都是centos系統,上面都安裝了Hadoop, hd-master節點的配置如下

  • ip:192.168.31.131
  • mask:255.255.255.0
  • gateway:192.168.31.2

hd-slave1節點的配置如下

  • ip:192.168.31.132
  • mask:255.255.255.0
  • gateway:192.168.31.2

hd-slave2節點的配置如下

  • ip:192.168.31.133
  • mask:255.255.255.0
  • gateway:192.168.31.2
  • DNS:``

windows的vmnet8配置如下

  • ip:192.168.31.1
  • mask:255.255.255.0
  • gateway:192.168.31.2
  • DNS:``

無線網卡節點的配置如下

  • ip:192.168.1.100
  • mask:255.255.255.0
  • gateway:192.168.1.1
  • DNS:``

介紹Hadoop的安裝和配置

安裝JDK

為了安裝Hadoop,首先需要安裝特定版本的JDK 查看安裝的JDK信息

rpm -qa | grep java

卸載當前的jdk

rpm -e --nodeps java-1.7.0-openjdk-headless-1.7.0.75-2.5.4.2.el7_0.x86_64
rpm -e --nodeps java-1.8.0-openjdk-headless-1.8.0.31-2.b13.el7.x86_64
 
rpm -e --nodeps tzdata-java-2015a-1.el7.noarch
 
rpm -e --nodeps java-1.8.0-openjdk-1.8.0.31-2.b13.el7.x86_64
rpm -e --nodeps java-1.7.0-openjdk-1.7.0.75-2.5.4.2.el7_0.x86_64
rpm -e --nodeps java-1.6.0-openjdk-1.6.0.34-1.13.6.1.el7_0.x86_64

下載JDK

將安裝包jdk-8u144-linux-x64.tar.gz 傳到/opt/linuxsir/java

解壓和安裝

mkdir -p /opt/linuxsir/java
cd /opt/linuxsir/java
 
tar -zxvf /opt/linuxsir/java/jdk-8u144-linux-x64.tar.gz
ls jdk1.8.0_144
mv jdk1.8.0_144 jdk
 
ls /opt/linuxsir/java/jdk

配置JDK

編輯/root/.bashrc文件,增加如下內容

ls /opt/linuxsir/java/jdk/jre/lib/rt.jar           \查看文件是否存在
ls /opt/linuxsir/java/jdk/lib/dt.jar
ls /opt/linuxsir/java/jdk/lib/tools.jar
 
echo "export JAVA_HOME=/opt/linuxsir/java/jdk" >> /root/.bashrc
echo "export JRE_HOME=$JAVA_HOME/jre" >> /root/.bashrc
echo "export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH" >> /root/.bashrc
      
echo "export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar" >> /root/.bashrc
 
cat /root/.bashrc

重新讀取并生效.bashrc

cd                 \進入/root目錄,即root用戶的主目錄
source .bashrc
同步三臺虛擬機
scp -r /opt/linuxsir/java/jdk root@192.168.31.132:/opt/linuxsir/java \拷貝jdk
scp -r /opt/linuxsir/java/jdk root@192.168.31.133:/opt/linuxsir/java
 
scp -r /root/.bashrc root@192.168.31.132:/root/.bashrc \拷貝/root/.bashrc
scp -r /root/.bashrc root@192.168.31.133:/root/.bashrc
 

ssh root@192.168.31.132 source ~/.bashrc \刷新環境變量
ssh root@192.168.31.133 source ~/.bashrc
 
ssh root@192.168.31.132 java -version \查看JDK版本
ssh root@192.168.31.133 java -version

配置各個虛擬機別名/etc/hostname

為192.168.31.131、192.168.31.132、192.168.31.133等3臺虛擬機配置別名

三臺機器的/etc/hostname的內容分別是hd-master、hd-slave1、hd-slave2

比如,在192.168.31.131上

cat /etc/hostname
 
rm -rf /etc/hostname
touch /etc/hostname
 
echo "hd-master" >> /etc/hostname
cat /etc/hostname| grep hd-master

另外2個主機運行類似的命令,注意主機名分別為hd-slave1、hd-slave2。

配置各個虛擬機的/etc/hosts文件

192.168.31.131、192.168.31.132、192.168.31.133三臺虛擬機的/etc/hosts內容一樣

192.168.31.131 hd-master
192.168.31.132 hd-slave1
192.168.31.133 hd-slave2
 
127.0.0.1 localhost                \ 這行放在最后

在三臺虛擬機上執行如下命令

rm -rf /etc/hosts
touch /etc/hosts
 
echo "192.168.31.131 hd-master" >>/etc/hosts
echo "192.168.31.132 hd-slave1" >>/etc/hosts
echo "192.168.31.133 hd-slave2" >>/etc/hosts
echo "127.0.0.1 localhost" >>/etc/hosts
echo "" >>/etc/hosts
 
cat /etc/hosts
無密碼ssh登錄

Linux虛擬機之間的無密碼ssh登錄,使得我們可以在hd-master上,方便地啟動Hadoop服務進程,這些服務進程包括主節點的進程和從節點的進程

當從主節點啟動從節點的進程的時候,系統無需等待用戶輸入密碼

在192.168.31.131、192.168.31.132、192.168.31.133三臺虛擬機上執行如下命令,配置sshd

編輯/etc/ssh/sshd_config,去掉以下兩行注釋,即把行首的#去掉,并且設置AuthorizedKeysFile

#RSAAuthentication yes    # 啟用 RSA 認證
#PubkeyAuthentication yes    # 啟用公鑰私鑰配對認證方式

AuthorizedKeysFile .ssh/authorized_keys    # 公鑰文件路徑(和下面生成的文件同名)

無密碼ssh登錄 在192.168.31.131、192.168.31.132、192.168.31.133上執行如下命令,生成key

 
whoami
cd
pwd
 
ssh-keygen -t rsa                     \生成密鑰文件
ls /root/.ssh/id_rsa                    \文件在/root/.ssh/id_rsa

在192.168.1.131上執行如下命令,從另外兩臺機器(132/133),合并公鑰到authorized_keys文件

cd ~/.ssh
ls authorized_keys
rm -rf authorized_keys
 
cat id_rsa.pub >> authorized_keys
ssh root@192.168.31.132 cat ~/.ssh/id_rsa.pub >> authorized_keys
ssh root@192.168.31.133 cat ~/.ssh/id_rsa.pub >> authorized_keys

從192.168.31.131,復制~/.ssh/authorized_keys和 ~/.ssh/known_hosts兩個文件到另外兩臺機器192.168.31.132、192.3168.1.133

這時候,每臺機器(CentOS)均有3臺機器的公鑰

cd ~/.ssh
scp authorized_keys root@192.168.31.132:~/.ssh
scp authorized_keys root@192.168.31.133:~/.ssh

scp known_hosts root@192.168.31.132:~/.ssh
scp known_hosts root@192.168.31.133:~/.ssh


在192.168.31.131上執行如下命令,修改192.168.31.131/132/133等三臺機器上的~/.ssh/authorized_keys權限

cd ~/.ssh
ls authorized_keys
ssh root@192.168.31.132 ls ~/.ssh/authorized_keys
ssh root@192.168.31.133 ls ~/.ssh/authorized_keys
 
cd ~/.ssh
chmod 700 authorized_keys
ssh root@192.168.31.132 chmod 700 ~/.ssh/authorized_keys
ssh root@192.168.31.133 chmod 700 ~/.ssh/authorized_keys

在192.168.31.131、192.168.31.132、192.3168.1.133上執行如下命令,重啟sshd

service sshd restart
    \或者用/etc/init.d/sshd restart

測試無密碼登錄

\在192.168.31.131上,測試無密碼登錄132/133
ssh root@192.168.31.131
exit
ssh root@192.168.31.132
exit
 
\在192.168.31.132上,測試無密碼登錄131/133
ssh root@192.168.31.131
exit
ssh root@192.168.31.133
exit
 
\在192.168.31.133上,測試無密碼登錄131/132
ssh root@192.168.31.131
exit
ssh root@192.168.31.132
exit

大數據分析師證書

針對不同知識,掌握程度的要求分為【領會】、【熟知】、【應用】三個級別,考生應按照不同知識要求進行學習。

  • 1.領會:考生能夠領會了解規定的知識點,并能夠了解規定知識點的內涵與外延,了 解其內容要點和它們之間的區別與聯系,并能做出正確的闡述、解釋和說明。

  • 2.熟知:考生須掌握知識的要點,并能夠正確理解和記憶相關理論方法,能夠根據不 同要求,做出邏輯嚴密的解釋、說明和闡述。此部分為考試的重點部分。

  • 3.應用:考生須學會將知識點落地實踐,并能夠結合相關工具進行商業應用,能夠根 據具體要求,給出問題的具體實施流程和策略。

考試范圍

PART 1 大數據基礎理論 占比(8% ) ?

  • a. 大數據分析基礎(1%)

  • b. Python 基礎(5%)

  • c. Linux & Ubuntu 操作系統基礎(2%)

PART 2 Hadoop 理論 占比(12% )

  • a. Hadoop 安裝配置及運行機制解析(2%)

  • b. HDFS 分布式文件系統(2%)

  • c. MapReduce 理論及實戰(2%)

  • d. Hadoop 生態其他常用組件(6%)

PART 3 大數據分析之數據庫理論及工具 占比(16% )

  • a. 數據庫導論(2%)

  • b. MySQL 理論及實戰(3%)

  • c. HBase 安裝及使用(3%)

  • d. Hive 安裝及使用(5%)

  • e. Sqoop 安裝及使用(3%)

PART 4 大數據分析數據挖掘理論基礎 占比(10% )

PART 5 大數據分析之 Spark 工具及實戰 占比(35% )

  • a. Spark 基礎理論(2%)

  • b. Spark RDD 基本概念及常用操作(3%)

  • c. Spark 流式計算框架 Spark Streaming、Structured Streaming(5%)

  • d. Spark 交互式數據查詢框架 Spark SQL(5%)

  • e. Spark 機器學習算法庫 Spark MLlib 基本使用方法(15%)

  • f. Spark 圖計算框架 GraphX(5%)

PART 6 大數據分析數據可視化方法 占比(4% )

PART 7 大數據分析實戰 占比(15% )

這里分享一個你一定用得到的小程序——CDA數據分析師考試小程序。 它是專為CDA數據分析認證考試報考打造的一款小程序??梢詭湍憧焖賵竺荚?、查成績、查證書、查積分,通過該小程序,考生可以享受更便捷的服務。 掃碼加入CDA小程序,與圈內考生一同學習、交流、進步!

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢