大資料學習初級入門教程(一) —— Hadoop 2.x 的安裝、啟動和測試
大資料最基礎的就是資料的儲存和計算,而 Hadoop 就是為儲存和計算而生,是最基礎的大資料處理工具。這篇簡單寫寫 Hadoop 2.x 的安裝,啟動和測試。
一、準備環境
大資料環境的部署,一般都是叢集,機器數量為奇數,這裡以 5 臺機器為例,作業系統為 CentOS 6.9_x64;IP 分別為 192.1688.220.19,192.1688.220.18,192.1688.220.11,192.1688.220.12,192.1688.220.13;Hadoop 的安裝包版本為 hadoop-2.5.1_x64.tar.gz。
機器準備好之後,需要做下面幾件事:
1)讓各臺機器間網路互通;
2)讓各臺機器的時間保持一致或接近,保證各個機器的時間同步,30s 以內就行,不一定一模一樣;
3)讓各臺機器間 SSH 互通;
4)讓各臺機器都安裝了 Java 環境;
5)修改各臺機器的主機名,分別為 node19,node18,node11,node12,node13;
6)規劃節點:node19(namenode),node18(second namenode),node11(datanode),node12(datanode),node13(datanode)。
二、上傳解壓安裝包
為了簡單期間,包直接放在 node19 機器的 /home 目錄下,上傳後解壓包即可。
三、配置 Java 環境變數
修改 /home/hadoop-2.5.1/etc/hadoop/hadoop-env.sh 中的 JAVA_HOME。
把:
export JAVA_HOME=${JAVA_HOME}
修改為:
export JAVA_HOME=/usr/java/jdk1.7.0_79
四、配置介面及埠
配置主機名和資料傳輸的介面及埠,fsimage 存放路徑,修改 /home/hadoop-2.5.1/etc/hadoop/core-site.xml。
把: <configuration> </configuration> 修改為: <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://node19:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/opt/hadoop/hadoop-2.5</value> </property> </configuration>
五、配置 Sencondary 的協議地址和埠
配置 namendoe 的 sencondary 的協議地址和埠,修改 /home/hadoop-2.5.1/etc/hadoop/hdfs-site.xml。
把:
<configuration>
</configuration>
修改為:
<configuration>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>node18:50090</value>
</property>
<property>
<name>dfs.namenode.secondary.https-address</name>
<value>node18:50091</value>
</property>
</configuration>
六、配置 datanode 的主機
修改 /home/hadoop-2.5.1/etc/hadoop/slaves。
node11
node12
node13
七、配置 second namenode 主機
修改 /home/hadoop-2.5.1/etc/hadoop/masters,如果沒有該檔案可以自己建立。
node18
八、拷貝安裝包到其它機器
拷貝上面配置好的 hadoop 目錄到其它機器上。
scp -r hadoop-2.5.1/ [email protected]:/home/
scp -r hadoop-2.5.1/ [email protected]:/home/
scp -r hadoop-2.5.1/ [email protected]:/home/
scp -r hadoop-2.5.1/ [email protected]:/home/
九、檢查 hosts 配置
保證兩臺 namenode、三臺 datanode 的 hosts 檔案一致。
192.168.220.11 node11
192.168.220.12 node12
192.168.220.13 node13
192.168.220.18 node18
192.168.220.19 node19
十、配置 hadoop 環境變數
export HADOOP_HOME=/home/hadoop-2.5.1
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
到此,配置基本搞定,可以開始啟動叢集工作。
十一、格式化叢集
在 namenode 節點上執行格式化命令
hdfs namenode -format
作用是:/opt/hadoop/hadoop-2.5/dfs/name/current 下建立了 fsimage 檔案。
十二、啟動叢集
start-dfs.sh
log日誌如下:
Starting namenodes on [node19]
node19: starting namenode, logging to /home/hadoop-2.5.1/logs/hadoop-root-namenode-node19.out
node13: starting datanode, logging to /home/hadoop-2.5.1/logs/hadoop-root-datanode-node13.out
node11: starting datanode, logging to /home/hadoop-2.5.1/logs/hadoop-root-datanode-node11.out
node12: starting datanode, logging to /home/hadoop-2.5.1/logs/hadoop-root-datanode-node12.out
Starting secondary namenodes [node18]
node18: starting secondarynamenode, logging to /home/hadoop-2.5.1/logs/hadoop-root-secondarynamenode-node18.out
十三、測試是否啟動成功
瀏覽器訪問 namenode 節點的監控頁面,訪問路徑為:http://192.168.220.19:50070/,如果出現如下頁面,說明叢集啟動成功。
同理,可以訪問 namenode secondary 監控頁面:http://192.168.220.18:50090/。
十四、停止叢集
stop-dfs.sh
日誌如下:
Stopping namenodes on [node19]
node19: stopping namenode
node12: no datanode to stop
node13: no datanode to stop
node11: no datanode to stop
Stopping secondary namenodes [node18]
node18: stopping secondarynamenode
基礎的安裝和配置到此結束~