1. 程式人生 > >大資料學習初級入門教程(一) —— Hadoop 2.x 的安裝、啟動和測試

大資料學習初級入門教程(一) —— Hadoop 2.x 的安裝、啟動和測試

大資料最基礎的就是資料的儲存和計算,而 Hadoop 就是為儲存和計算而生,是最基礎的大資料處理工具。這篇簡單寫寫 Hadoop 2.x 的安裝,啟動和測試。

一、準備環境

大資料環境的部署,一般都是叢集,機器數量為奇數,這裡以 5 臺機器為例,作業系統為 CentOS 6.9_x64;IP 分別為 192.1688.220.19,192.1688.220.18,192.1688.220.11,192.1688.220.12,192.1688.220.13;Hadoop 的安裝包版本為 hadoop-2.5.1_x64.tar.gz。

機器準備好之後,需要做下面幾件事:

1)讓各臺機器間網路互通;

2)讓各臺機器的時間保持一致或接近,保證各個機器的時間同步,30s 以內就行,不一定一模一樣;

3)讓各臺機器間 SSH 互通;

4)讓各臺機器都安裝了 Java 環境;

5)修改各臺機器的主機名,分別為 node19,node18,node11,node12,node13;

6)規劃節點:node19(namenode),node18(second namenode),node11(datanode),node12(datanode),node13(datanode)。

二、上傳解壓安裝包

為了簡單期間,包直接放在 node19 機器的 /home 目錄下,上傳後解壓包即可。

三、配置 Java 環境變數

修改 /home/hadoop-2.5.1/etc/hadoop/hadoop-env.sh 中的 JAVA_HOME。

把:
export JAVA_HOME=${JAVA_HOME}
修改為:
export JAVA_HOME=/usr/java/jdk1.7.0_79

四、配置介面及埠

配置主機名和資料傳輸的介面及埠,fsimage 存放路徑,修改 /home/hadoop-2.5.1/etc/hadoop/core-site.xml。

把:
<configuration>
</configuration>
修改為:
<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://node19:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/hadoop/hadoop-2.5</value>
    </property>
</configuration>

五、配置 Sencondary 的協議地址和埠

配置 namendoe 的 sencondary 的協議地址和埠,修改 /home/hadoop-2.5.1/etc/hadoop/hdfs-site.xml。

把:
<configuration>
</configuration>
修改為:
<configuration>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>node18:50090</value>
    </property>
    <property>
        <name>dfs.namenode.secondary.https-address</name>
        <value>node18:50091</value>
    </property>
</configuration>

六、配置 datanode 的主機

修改 /home/hadoop-2.5.1/etc/hadoop/slaves。

node11
node12
node13

七、配置 second namenode 主機

修改 /home/hadoop-2.5.1/etc/hadoop/masters,如果沒有該檔案可以自己建立。

node18

八、拷貝安裝包到其它機器

拷貝上面配置好的 hadoop 目錄到其它機器上。

scp -r hadoop-2.5.1/ [email protected]:/home/
scp -r hadoop-2.5.1/ [email protected]:/home/
scp -r hadoop-2.5.1/ [email protected]:/home/
scp -r hadoop-2.5.1/ [email protected]:/home/

九、檢查 hosts 配置

保證兩臺 namenode、三臺 datanode 的 hosts 檔案一致。

192.168.220.11 node11
192.168.220.12 node12
192.168.220.13 node13
192.168.220.18 node18
192.168.220.19 node19

十、配置 hadoop 環境變數

export HADOOP_HOME=/home/hadoop-2.5.1
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

到此,配置基本搞定,可以開始啟動叢集工作。

十一、格式化叢集

在 namenode 節點上執行格式化命令

hdfs namenode -format

作用是:/opt/hadoop/hadoop-2.5/dfs/name/current 下建立了 fsimage 檔案。

十二、啟動叢集

start-dfs.sh 

log日誌如下:

Starting namenodes on [node19]
node19: starting namenode, logging to /home/hadoop-2.5.1/logs/hadoop-root-namenode-node19.out
node13: starting datanode, logging to /home/hadoop-2.5.1/logs/hadoop-root-datanode-node13.out
node11: starting datanode, logging to /home/hadoop-2.5.1/logs/hadoop-root-datanode-node11.out
node12: starting datanode, logging to /home/hadoop-2.5.1/logs/hadoop-root-datanode-node12.out
Starting secondary namenodes [node18]
node18: starting secondarynamenode, logging to /home/hadoop-2.5.1/logs/hadoop-root-secondarynamenode-node18.out

十三、測試是否啟動成功

瀏覽器訪問 namenode 節點的監控頁面,訪問路徑為:http://192.168.220.19:50070/,如果出現如下頁面,說明叢集啟動成功。

同理,可以訪問 namenode secondary 監控頁面:http://192.168.220.18:50090/。

十四、停止叢集

stop-dfs.sh

日誌如下:

Stopping namenodes on [node19]
node19: stopping namenode
node12: no datanode to stop
node13: no datanode to stop
node11: no datanode to stop
Stopping secondary namenodes [node18]
node18: stopping secondarynamenode

基礎的安裝和配置到此結束~