在centos7上搭建hadoop叢集

阿新 • • 發佈：2019-01-11

準備工作

主機名稱	系統環境	ip地址
hadoop-master	centos7	192.168.150.181
hadoop-slave1	centos7	192.168.150.182
hadoop-slave2	centos7	192.168.150.183

3.安裝3個虛擬機器並實現ssh免密碼登入
- 1.安裝虛擬機器
這裡用的linux系統是CentOS7，安裝方法請看上篇部落格（centos7 Linux環境的搭建）；安裝3臺機器，機器名分別是hadoop-master、hadoop-slave1、hadoop-slaver2
1.1）機器在安裝的時候，可以建立1個hadoop使用者，之後通過hostname進行修改；
1.2）也可以使用克隆的方式複製多個獨立的虛擬機器,每個虛擬機器建立一個Hadoop使用者並加入到root組中useradd -m hadoop -G root -s /bin/bash

利用 passwd hadoop 配置密碼遇到提示說密碼簡單就再輸入一次

- 2.配置ip和主機名

用root使用者登入hadoop-master主機上配置

vi /etc/sysconfig/network-scripts/ifcfg-ens33

這裡寫圖片描述
注意如果你是克隆的虛擬機器那麼每個虛擬機器的網絡卡UUID是一樣的，這個不行，所有要刪除這個，讓它自動在生成一個
重啟網路服務：systemctl restart network
我的實驗是把上面圖中的ip地址改為192.168.196.162 預設閘道器設定為192.168.150.2 為什麼這麼做，根據什麼要看看你的虛擬機器網路編輯器這個在虛擬機器選單編輯中我的設定如圖：
這裡寫圖片描述

如果你在上圖中設定取消了DHCP那麼你想讓你的電腦訪問虛擬機器就設定你的電腦中
這裡寫圖片描述

配置靜態IP

修改主機名：vi /etc/hostname刪除原有的，修改成hadoop-master 儲存退出
- 3. 修改/etc/hosts檔案
修改hosts：vi 、etc/hosts配置如圖所示：
這裡寫圖片描述

儲存退出，重啟虛擬機器。在每個虛擬機器裡重複修改網絡卡（ifcfg-enss*）,hostname,hosts 的步驟，重啟後測試互通性
要求在hadoop-master中能ping通slave1,slave2。其它任何一個虛擬機器中都能ping通另外兩個才行
這裡寫圖片描述

- 4.給hadoop-master生成祕鑰檔案並且在hadoop-master上建立authorized_keys檔案
檢查每個虛擬機器上是否安裝了ssh 和啟動了sshd服務

rpm -qa | grep ssh

如圖所示：（出現ssh server和client證明已經安裝）
這裡寫圖片描述
如果沒有安裝請執行下面的程式碼：(遇到輸入y/N輸入y)

yum -y install openssl openssh-server openssh-clients

退出所有虛擬機器上root登陸使用者，使用hadoop使用者登入

在每個虛擬機器上執行ssh localhost測試一下，最好都做一下，非常有用，會生成 .ssh 隱藏資料夾，遇到提示輸入yes
這裡寫圖片描述

在hadoop-master虛擬機器上生成ssh金鑰

cd .ssh
ssh-keygen -t rsa #遇到提示一路回車就行
ll #會看到 id_rsa id_rsa.pub 兩檔案前為私鑰，後為公鑰
cat id_rsa.pub >> authorized_keys #把公鑰內容追加到authorized_keys檔案中
chmod 600 authorized_keys #修改檔案許可權，重要不要忽略

如圖：
這裡寫圖片描述
至此hadoop-master可以無密碼登陸自己了，測試 ssh localhost 不再提示輸入密碼，如果不能請檢查少了上面那一步

5.將authorized_keys檔案複製到其他機器，實現hadoop-master無密碼登陸到所有slave上

scp authorized_keys hadoop@hadoop-slave1:~/.ssh/
scp authorized_keys hadoop@hadoop-slave2:~/.ssh/

如圖：
這裡寫圖片描述

6.測試使用ssh進行無密碼登入

安裝jdk8+並搭建環境變數

使用xftp把jdk-8u121-Linux-x64.rpm傳送到每個虛擬機器上

如圖：
這裡寫圖片描述

使用下面程式碼安裝

sudo yum -y install jdk-8u121-linux-x64.rpm

如果出現這樣的錯誤 hadoop 不在 sudoers 檔案中。此事將被報告

可以使用兩種途徑解決：
1）切換到root使用者下

su
yum -y install jdk-8u121-linux-x64.rpm

2)切換到root使用者下,配置hadoop的許可權，改為root許可權

su
visudo

之後輸入:89 回車新增hadoop ALL=(ALL) ALL 注意不是空格是製表符
這裡寫圖片描述
儲存退出，切換到hadoop使用者下，重新輸入命令：sudo yum -y install jdk-8u121-linux-x64.rpm 測試是否安裝成功，輸入如下命令

java -version

如圖表示安裝成功：
這裡寫圖片描述

搭建環境變數，我使用本地環境變數,預設安裝的jdk在/usr/Java/jdk1.8.0_121

vi .bashrc

新增

# Java Environment Variables
export JAVA_HOME=/usr/java/jdk1.8.0_121
export PATH=$PATH:$JAVA_HOME/bin

這裡寫圖片描述
退出，儲存，執行如下命令：

source .bashrc

驗證命令：echo $PATH/JAVA_HOME
這裡寫圖片描述
注意：每臺機器上都要做一遍

安裝hadoop並配置

使用xftp把hadoop-2.7.3.tar.gz傳送到每個虛擬機器上（這一步可以在傳jdk的時候一起做）

使用tar -xzvf hadoop-2.7.3.tar.gz 解壓

配置hadoop環境變數vi .bashrc 我的hadoop安裝目錄/home/hadoop/hadoop-2.7.3

新增

# Hadoop Environment Variables
export HADOOP_HOME=/home/hadoop/hadoop-2.7.3
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

這裡寫圖片描述

編輯如下5個檔案在 /home/hadoop/hadoop-2.7.3/etc/hadoop 目錄中

1.core-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
    <!-- 指定HDFS老大（namenode）的通訊地址 -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://hadoop-master:9000</value>
    </property>
    <!-- 指定hadoop執行時產生檔案的儲存路徑 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/home/hadoop/hadoop-2.7.3/tmp</value>
    </property>
</configuration>

2.hdfs-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
        <!-- 設定namenode的http通訊地址 -->
        <property>
                <name>dfs.namenode.secondary.http-address</name>
                <value>hadoop-master:50090</value>
        </property>
        <!-- 設定hdfs副本數量 -->
        <property>
                <name>dfs.replication</name>
                <value>2</value>
        </property>
         <!-- 設定namenode存放的路徑 -->
        <property>
                <name>dfs.namenode.name.dir</name>
                <value>file:/home/hadoop/hadoop-2.7.3/tmp/dfs/name</value>
        </property>
         <!-- 設定datanode存放的路徑 -->
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>file:/home/hadoop/hadoop-2.7.3/tmp/dfs/data</value>
        </property>
</configuration>

3.mapred-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
        <!-- 通知框架MR使用YARN -->
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
        <property>
                <name>mapreduce.jobhistory.address</name>
                <value>hadoop-master:10020</value>
        </property>
        <property>
                <name>mapreduce.jobhistory.webapp.address</name>
                <value>hadoop-master:19888</value>
        </property>
</configuration>

4.yarn-site.xml

<?xml version="1.0"?>
<configuration>
 <!-- 設定 resourcemanager 在哪個節點-->
<!-- Site specific YARN configuration properties -->
        <property>
                <name>yarn.resourcemanager.hostname</name>
                <value>hadoop-master</value>
        </property>
         <!-- reducer取資料的方式是mapreduce_shuffle -->
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>

</configuration>

5.slaves

hadoop-slave1
hadoop-slave2

執行hadoop叢集#

關閉防火牆和selinux

在root使用者下執行

systemctl disable firewalld   #此命令在下次重啟時生效，將永久關閉防火牆

#或用

systemctl stop firewalld    #只在本次運用時生效，下次開啟機器時需重複此操作
setenforce 0  #僅此次關閉selinux，下次開啟機器時需重複此操作

#永久關閉selinux 
vi /etc/selinux/config

這裡寫圖片描述
在每臺機子上都執行此操作

啟動hadoop叢集

**
在hadoop-master執行如下命令：

hdfs namenode -format #第一次啟動要執行格式化，之後啟動不用執行這個
start-dfs.sh
start-yarn.sh
mr-jobhistory-daemon.sh start historyserver

之後在hadoop-master 執行jps

看到如下算成功：

[hadoop@hadoop-master ~]$ jps
3345 NameNode
3529 SecondaryNameNode
3962 JobHistoryServer
3678 ResourceManager
3998 Jps
[hadoop@hadoop-master ~]$

在hadoop-slave1 和 hadoop-slave2上執行jps

在hadoop-slave1上

[hadoop@hadoop-slave1 ~]$ jps
3142 DataNode
3357 Jps
3246 NodeManager
[hadoop@hadoop-slave1 ~]$

在hadoop-slave2上

[hadoop@hadoop-slave2 ~]$ jps
3092 DataNode
3306 Jps
3196 NodeManager
[hadoop@hadoop-slave2 ~]$

上面的資訊中數字表示程序ID，後面的字元表示程序名字
缺少任何一個程序表示叢集啟動失敗
失敗可以通過檢視日誌查詢原因

如果通過真機win訪問hadoop web管理介面需要先配置真機的hosts檔案它存在於C:\Windows\System32\drivers\etc目錄中在hosts檔案中新增

192.168.150.181 hadoop-master
192.168.150.182 hadoop-slave1
192.168.150.183 hadoop-slave2

這裡寫圖片描述

在centos7上搭建hadoop叢集

準備工作

安裝jdk8+並搭建環境變數

安裝hadoop並配置

執行hadoop叢集#

啟動hadoop叢集

在centos7上搭建hadoop叢集

基於Centos7+Docker 搭建hadoop叢集

AWS上搭建Hadoop叢集（一）——單機安裝Hadoop

阿里雲ECS上搭建Hadoop叢集環境——使用兩臺ECS伺服器搭建“Cluster mode”的Hadoop叢集環境

centos7上搭建hadoop（基礎篇）

centos7上搭建redis叢集步驟

大資料之（1）Centos7上搭建全分散式Hadoop叢集

入門學習Hadoop1：VMware上搭建hadoop伺服器Centos7叢集，並設定SSH免密登入。

CentOS7 上搭建多節點 Elasticsearch叢集

centos7克隆及網路和主機名配置（VMware15搭建Hadoop叢集）

centos7搭建hadoop叢集之xcall指令碼

centos7搭建hadoop叢集之rsync和xsync

本地搭建hadoop叢集--hadoop2.7.6-src在linux上編譯解決downloading過慢教程

Linux上安裝Hadoop叢集(CentOS7+hadoop-2.8.0)

CentOS7.4上搭建rocketMQ叢集

CDH搭建Hadoop叢集(Centos7)

用Docker在一臺膝上型電腦上搭建一個具有10個節點7種角色的Hadoop叢集（下）-搭建Hadoop叢集

初試 Centos7 上 Ceph 儲存叢集搭建

在ubuntu上搭建hadoop服務（叢集模式）

在ubuntu14.04上使用ambari搭建hadoop叢集

在centos7上搭建hadoop叢集

準備工作

安裝jdk8+並搭建環境變數

安裝hadoop並配置

執行hadoop叢集#

啟動hadoop叢集

相關推薦