spark學習1——配置hadoop 單機模式並執行WordCount例項(ubuntu14.04 & hadoop 2.6.0)
1. 安裝SSH
hadoop是採用SSH進行通訊的 ,此時要設定密碼為空,即不需要密碼登陸,免去每次登陸時都要輸入密碼,當叢集較大時該步驟顯得尤為重要。
$ sudo apt-get install ssh
安裝完成後啟動服務:
$ /etc/init.d/ssh start
以下命令驗證服務是否正常啟動:
$ ps -e |grep ssh
設定免密碼登陸,生成私鑰和公鑰:
$ ssh-keygen -t dsa
此時會在~/.ssh中生成兩個檔案:id_dsa, id_dsa.pub,其中,id_dsa為私鑰,id_dsa.pub為公鑰,我們將公鑰追加到authorized_keys中,因為authorized_keys用於儲存所有允許以當前使用者身份登陸到ssh客戶端使用者的公鑰內容。
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
登陸ssh:
$ ssh localhost
下圖為免密碼成功登陸後的結果:
$ exit 退出localhost。
2. 安裝rsync
通過以下命令安裝或更新rsync:
$ sudo apt-get install rsync
第一,從hadoop官網下載hadoop壓縮包,筆者下載的版本為 hadoop-2.6.0.tar.gz,將其解壓至/usr/local/下:
$ sudo tar zxvf /home/XXX/Downloads/hadoop-2.6.0.tar.gz -C /usr/local
第二,在hadoop-env.sh配置java安裝資訊,如下圖:
通過gedit 命令修改hadoop-env.sh檔案中的JAVA_HOME:
使用source命令使配置生效:(在/usr/local/hadoop-2.6.0/etc/hadoop下)
$ source hadoop-env.sh
為了使我們可以使用hadoop命令,修改 profile檔案中的PATH:
$ sudo gedit /etc/profile
如下圖:
重啟電腦使配置生效。
驗證hadoop版本資訊:
$ hadoop version
3. 執行hadoop 自帶的wordcount例項
$ cd /home/XXX/
$ mkdir hadoop
$ cd hadoop
$ mkdir input
在此目錄下建立任意多個文字檔案。
$ cd /usr/local/hadoop-2.6.0
$ bin/hadoop jar share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-2.6.0-sources.jar org.apache.hadoop.examples.WordCount /home/wuqh/hadoop_wuqh/input /home/wuqh/hadoop_wuqh/output
檢視輸出結果:
$ cat output/*
至此,單機模式的構建、配置和執行測試徹底成功!
參考文獻:《大資料Spark 企業級實戰》,電子工業出版社