1. 程式人生 > >linux ubuntu系統下基於eclipse的hadoop開發環境搭建

linux ubuntu系統下基於eclipse的hadoop開發環境搭建

hadoop是基於linux作業系統的。

本文在linux ubuntu系統下,在eclipse下配置hadoop的開發環境。

這個開發環境對linux下的hadoop偽分散式配置有效,其他配置情況不明。

如果是完全分散式環境,需要重新設定core-site.xml,hdfs-site.xml,mapred-site.xml(如果啟動了yarn,還是需要設定yarn-site.xml)

主要是從這幾個檔案中,獲得相應port值(設定外掛的general),和其他引數(用於設定hadoop的eclipse外掛advanced parameters)

需要用到hadoop的eclipse外掛。

需要用的檔案有:

core-site.xml

hdfs-site.xml

mapred-site.xml(偽分散式下為mapred-site.xml.template)

基本步驟:

1、下載hadoop eclipse外掛。注意與hadoop對應,我的是hadoop2.7.2.

2、tar解壓,並放入eclipse的plugins目錄下。

3、重啟eclipse,就能看到preferences下的mapreduce選項。

4、開啟mapreduce,將它與hadoop安裝目錄相連線。

5、eclipse下開啟mapreduce locations的view。

6、新建一個hadoop location,設定如下:


注意:DFS Master的host,port與core-site.xml的ip,埠號保持一致。

  Map/Reduce的host,port與mapred-site.xml的ip,埠號保持一致。(我這裡是偽分散式,MapReduce的port設定成9001,執行是沒問題的),但mapred-site.xml中沒有設定埠號。以後可能會出問題。

  location name隨便起,是為了eclipse的標示用。

  user name實踐看,也可以隨便起。不過我這裡還是用了ubuntu當初配置hadoop的使用者名稱,即hadoop.

7、以上就完成了eclipse與hadoop叢集的連線。

接著就可以通過這個外掛,DFS locations檢視HDFS上的資料夾和檔案,上載/下載,刪除,更新,連線/斷開,新建資料夾等。

8、在linux終端啟動hadoop.

格式化hdfs:/bin/hdfs namenode -format

啟動namenode,datanode:/sbin/start-dfs.sh

檢視是否啟動成功:jps

在瀏覽器檢視namenode狀態:http://localhost:50070/

新建input檔案:/bin/hdfs dfs -mkdir /user/hadoop/input

執行jar包程式:/bin/hadoop jar ****-examples.jar grep input ourput 'dfs[z-a.]+'(統計以dfs開頭的行)

得到執行結果:可以在瀏覽器上看,也可以通過hadoop eclipse外掛看。

注意:hadoop程式的輸出檔案output一定不能存在。下次執行時,一定要修改輸出檔名output2,否則會出錯。

9、接下來,就是mapreduce程式的編寫工作了。下篇文章再講。

參考文章

1、http://www.linuxidc.com/Linux/2014-04/100256.htm

2、http://www.cnblogs.com/linjiqin/archive/2013/06/21/3147902.html

3、http://www.51itong.net/eclipse-hadoop2-7-0-12448.html

4、http://hadoop.apache.org/docs/current/(配置文件官方說明)