1. 程式人生 > >spark學習1——配置hadoop 單機模式並執行WordCount例項(ubuntu14.04 & hadoop 2.6.0)

spark學習1——配置hadoop 單機模式並執行WordCount例項(ubuntu14.04 & hadoop 2.6.0)

1. 安裝SSH

 hadoop是採用SSH進行通訊的 ,此時要設定密碼為空,即不需要密碼登陸,免去每次登陸時都要輸入密碼,當叢集較大時該步驟顯得尤為重要。

    $ sudo apt-get install ssh

安裝完成後啟動服務:

    $ /etc/init.d/ssh start

以下命令驗證服務是否正常啟動:

    $ ps -e |grep ssh

設定免密碼登陸,生成私鑰和公鑰:

    $ ssh-keygen -t dsa

此時會在~/.ssh中生成兩個檔案:id_dsa, id_dsa.pub,其中,id_dsa為私鑰,id_dsa.pub為公鑰,我們將公鑰追加到authorized_keys中,因為authorized_keys用於儲存所有允許以當前使用者身份登陸到ssh客戶端使用者的公鑰內容。

    $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

登陸ssh:

    $ ssh localhost

下圖為免密碼成功登陸後的結果:

 $ exit    退出localhost。

2. 安裝rsync

通過以下命令安裝或更新rsync:

    $ sudo apt-get install rsync

第一,從hadoop官網下載hadoop壓縮包,筆者下載的版本為 hadoop-2.6.0.tar.gz,將其解壓至/usr/local/下:

    $ sudo tar zxvf /home/XXX/Downloads/hadoop-2.6.0.tar.gz -C /usr/local

第二,在hadoop-env.sh配置java安裝資訊,如下圖:

通過gedit 命令修改hadoop-env.sh檔案中的JAVA_HOME:


使用source命令使配置生效:(在/usr/local/hadoop-2.6.0/etc/hadoop下)

    $ source hadoop-env.sh

為了使我們可以使用hadoop命令,修改 profile檔案中的PATH:

    $ sudo gedit /etc/profile

如下圖:


重啟電腦使配置生效。

驗證hadoop版本資訊:

    $ hadoop version


3. 執行hadoop 自帶的wordcount例項

    $ cd /home/XXX/

    $ mkdir hadoop

    $ cd hadoop

    $ mkdir input

在此目錄下建立任意多個文字檔案。

    $ cd /usr/local/hadoop-2.6.0

    $ bin/hadoop jar share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-2.6.0-sources.jar org.apache.hadoop.examples.WordCount /home/wuqh/hadoop_wuqh/input /home/wuqh/hadoop_wuqh/output

檢視輸出結果:

    $ cat output/*


至此,單機模式的構建、配置和執行測試徹底成功!

參考文獻:《大資料Spark 企業級實戰》,電子工業出版社