1. 程式人生 > >Hadoop偽分散式環境搭建和MapReduce環境搭建和hdfs相關操作疑難

Hadoop偽分散式環境搭建和MapReduce環境搭建和hdfs相關操作疑難

這篇博文詳細講解了Hadoop偽分散式環境搭建,非常棒。

此外,我這裡記錄一些其他相關內容,備忘。

使用hadoop-eclipse-plugin-2.6.0.jar來構建MapReduce框架的Eclipse開發環境,這裡先給出這個外掛的連結,由於本人沒有什麼有價值的資源,所以沒有積分下載,在網上找了好久,終於找到了一個好心人,這個外掛編譯起來感覺挺亂。這裡我也分享給別人,連結:https://pan.baidu.com/s/1OMoK5NQX19UB5RJGTo06Xg 密碼:jv0a

還有就是,當我從物理機上的Eclipse連線虛擬機器下的機器時,當第一次連線上的時候,如果之前沒有進行過測試,資料夾會顯示是零個,也就是說明在hdfs檔案系統下的檔案是空的,還沒有建立而已。不要以為錯了。此外埠號的問題是,如果之前寫的xml檔案中並沒有提到埠號,Map/Reduce master中的埠號預設即可,DFS的埠號則可以通過在虛擬機器中檢視http://localhost:50070,進入Hadoop管理頁面的overview頁面下面就可以看到處於活躍狀態的主機和埠號。還可以在Utilities頁面的Browse the file system檢視hdfs的檔案系統,此後也可以從這裡獲得執行結果並下載下來。

這裡在說一些hdfs的常用命令:(這裡操作的所有目錄都是hdfs檔案系統下的,在linux檔案系統中是找不到的)

在hadoop的目錄下

建立輸入目錄

bin/hdfs dfs -mkdir /input

將輸入檔案放入輸入目錄

bin/hdfs dfs -put README.txt /input

執行Jar包(省略了jar包的main入口,這個要在打包時宣告main入口,匯出時別直接finish,點Next設定一下就行了)

hadoop jar wordcount.jar /input /output

刪除output資料夾(hadoop不會自動覆蓋已有的output資料夾,所以執行之前要確認是否存在output資料夾)

bin/hdfs dfs -rmr /output

因為畢設選題選到了相關技術,純小白現學現賣,還沒有系統學習,有很多白痴的地方,大神路過勿噴。