Linux中安裝配置hadoop叢集

阿新 • • 發佈：2019-01-14

一. 簡介

　　參考了網上許多教程，最終把hadoop在ubuntu14.04中安裝配置成功。下面就把詳細的安裝步驟敘述一下。我所使用的環境：兩臺ubuntu 14.04 64位的桌上型電腦，hadoop選擇2.7.1版本。（前邊主要介紹單機版的配置，叢集版是在單機版的基礎上，主要是配置檔案有所不同，後邊會有詳細說明）

二. 準備工作

2.1 建立使用者

建立使用者，併為其新增root許可權，經過親自驗證下面這種方法比較好。

1 sudo adduser hadoop
2 sudo vim /etc/sudoers
3 # 修改內容如下：
4 root ALL = (ALL)ALL
 
5 hadoop ALL = (ALL)ALL

給hadoop使用者建立目錄，並新增到sudo使用者組中，命令如下：

1 sudo chown hadoop /home/hadoop
2 # 新增到sudo使用者組
3 sudo adduser hadoop sudo

最後登出當前使用者，使用新建立的hadoop使用者登陸。

2.2 安裝ssh服務

ubuntu中預設是沒有裝ssh server的（只有ssh client），所以先執行以下命令安裝openssh-server。安裝過程輕鬆加愉快～

sudo apt-get install ssh openssh-server

2.3 配置ssh無密碼登陸

直接上程式碼：執行完下邊的程式碼就可以直接登陸了（可以執行ssh localhost進行驗證）

1 cd ~/.ssh　　# 如果找不到這個資料夾，先執行一下 "ssh localhost"
2 ssh-keygen -t rsa
3 cp id_rsa.pub authorized_keys

注意：

這裡實現的是無密登陸自己，只適用與hadoop單機環境。如果配置Hadoop叢集設定Master與Slave的SSH無密登陸可以參考我的另一篇博文：http://www.cnblogs.com/lijingchn/p/5580263.html

三. 安裝過程

3.1 下載hadoop安裝包

有兩種下載方式：

1. 直接去官網下載：

2. 使用wget命令下載：

wget http://mirrors.hust.edu.cn/apache/hadoop/core/stable/hadoop-2.7.1.tar.gz

3.2 配置hadoop

1. 解壓下載的hadoop安裝包，並修改配置檔案。我的解壓目錄是（/home/hadoop/hadoop-2.7.1），即進入/home/hadoop/資料夾下執行下面的解壓縮命令。

tar -zxvf hadoop-2.7.1.tar.gz

2. 修改配置檔案：（hadoop2.7.1/etc/hadoop/）目錄下，hadoop-env.sh，core-site.xml，mapred-site.xml.template，hdfs-site.xml。

(1). core-site.xml 配置：其中的hadoop.tmp.dir的路徑可以根據自己的習慣進行設定。

<configuration>

<property>

<name>hadoop.tmp.dir</name>

<value>file:/home/hadoop/hadoop/tmp</value>

<description>Abase for other temporary directories.</description>

</property>

<property>

<name>fs.defaultFS</name>

<value>hdfs://localhost:9000</value>

</property>

</configuration>

(2). mapred-site.xml.template配置:

<configuration>

<property>

<name>mapred.job.tracker</name>

<value>localhost:9001</value>

</property>

</configuration>

(3). hdfs-site.xml配置: 其中dfs.namenode.name.dir和dfs.datanode.data.dir的路徑可以自由設定，最好在hadoop.tmp.dir的目錄下面。

注意：如果執行Hadoop的時候發現找不到jdk，可以直接將jdk的路徑放置在hadoop-env.sh裡面，具體如下：

export JAVA_HOME="/opt/java_file/jdk1.7.0_79"，即安裝java時的路徑。

<configuration>

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

<property>

<name>dfs.namenode.name.dir</name>

<value>file:/home/hadoop/hadoop/tmp/dfs/name</value>

</property>

<property>

<name>dfs.datanode.data.dir</name>

<value>file:/home/hadoop/hadoop/tmp/dfs/data</value>

</property>

</configuration>

配置完成後執行hadoop。

四. 執行hadoop

4.1 初始化HDFS系統

在hadop2.7.1目錄下執行命令：

bin/hdfs namenode -format

出現如下結果說明初始化成功。

4.2 開啟 `NameNode` 和 `DataNode` 守護程序

在hadop2.7.1目錄下執行命令：

sbin/start-dfs.sh

成功的截圖如下：

4.3 使用jps命令檢視程序資訊：

若出現如圖所示結果，則說明DataNode和NameNode都已經開啟。

4.4 檢視web介面

至此，hadoop的環境就已經搭建好了。

五. 執行wordcount demo

1. 在本地新建一個檔案，裡面內容隨便填：例如我在home/hadoop目錄下新建了一個haha.txt檔案，裡面的內容為" hello world! "。

2. 然後在分散式檔案系統（hdfs）中新建一個test資料夾，用於上傳我們的測試檔案haha.txt。在hadoop-2.7.1目錄下執行命令：

# 在hdfs的根目錄下建立了一個test目錄
bin/hdfs dfs -mkdir /test

# 檢視HDFS根目錄下的目錄結構
bin/hdfs dfs -ls /

結果如下：

3. 將本地haha.txt檔案上傳到test目錄中；

# 上傳
bin/hdfs dfs -put /home/hadoop/haha.txt /test/
# 檢視
bin/hdfs dfs -ls /test/

結果如下：

4. 執行wordcount demo；

# 將執行結果儲存在/test/out目錄下
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount /test/haha.txt /test/out
# 檢視/test/out目錄下的檔案
bin/hdfs dfs -ls /test/out

結果如下：

執行結果表示：執行成功，結果儲存在part-r-00000中。

5. 檢視執行結果；

# 檢視part-r-00000中的執行結果
bin/hadoop fs -cat /test/out/part-r-00000

結果如下：

至此，wordcount demo 執行結束。

六. 總結

配置過程遇到了很多問題，最後都一一解決，收穫很多，特此把這次配置的經驗分享出來，方便想要配置hadoop環境的各位朋友～

（Hadoop叢集安裝配置過程基本和單機版是一樣的，主要是在配置檔案方面有所區別，以及ssh無密登陸要求master和slave能夠互相無密登陸。具體的配置可以參考：http://www.linuxidc.com/Linux/2015-02/113486.htm）

參考：

Linux中安裝配置hadoop叢集

一. 簡介

二. 準備工作

2.1 建立使用者

2.2 安裝ssh服務

2.3 配置ssh無密碼登陸

三. 安裝過程

3.1 下載hadoop安裝包

3.2 配置hadoop

四. 執行hadoop

4.1 初始化HDFS系統

4.2 開啟 `NameNode` 和 `DataNode` 守護程序

4.3 使用jps命令檢視程序資訊：

4.4 檢視web介面

五. 執行wordcount demo

六. 總結

Linux中安裝配置hadoop叢集

Linux中安裝配置spark叢集

redis在linux中安裝配置

linux中安裝配置JDK

Linux中安裝配置FTP伺服器方法

Linux中安裝配置Redis圖文教程

Linux中安裝配置jdk1.7

linux中安裝配置jdk1.8

linux中安裝和配置 jdk

Docker實戰之安裝配置Hadoop-2.5.2完全分散式叢集

Linux下安裝配置 http ，修改本機中http伺服器主頁，自定義顯示內容。

在Linux中安裝軟體安裝包步驟及java環境並配置

docker 安裝centos7配置hadoop叢集

Linux中安裝ActiveMQ 配置開機自啟動教程

linux中安裝jdk，配置環境變數

從VMware虛擬機器安裝到hadoop叢集環境配置詳細說明

Linux（六）Linux系統中安裝配置JDK

Linux中安裝JDK並配置環境變數——rpm安裝

Linux中JDK配置及tomcat安裝

python中安裝配置pyspark庫教程需要配合spark+hadoop使用

Linux中安裝配置hadoop叢集

一. 簡介

二. 準備工作

2.1 建立使用者

2.2 安裝ssh服務

2.3 配置ssh無密碼登陸

三. 安裝過程

3.1 下載hadoop安裝包

3.2 配置hadoop

四. 執行hadoop

4.1 初始化HDFS系統

4.2 開啟 NameNode 和 DataNode 守護程序

4.3 使用jps命令檢視程序資訊：

4.4 檢視web介面

五. 執行wordcount demo

六. 總結

相關推薦

4.2 開啟 `NameNode` 和 `DataNode` 守護程序