Hadoop偽分散式環境搭建和MapReduce環境搭建和hdfs相關操作疑難
這篇博文詳細講解了Hadoop偽分散式環境搭建,非常棒。
此外,我這裡記錄一些其他相關內容,備忘。
使用hadoop-eclipse-plugin-2.6.0.jar來構建MapReduce框架的Eclipse開發環境,這裡先給出這個外掛的連結,由於本人沒有什麼有價值的資源,所以沒有積分下載,在網上找了好久,終於找到了一個好心人,這個外掛編譯起來感覺挺亂。這裡我也分享給別人,連結:https://pan.baidu.com/s/1OMoK5NQX19UB5RJGTo06Xg 密碼:jv0a
還有就是,當我從物理機上的Eclipse連線虛擬機器下的機器時,當第一次連線上的時候,如果之前沒有進行過測試,資料夾會顯示是零個,也就是說明在hdfs檔案系統下的檔案是空的,還沒有建立而已。不要以為錯了。此外埠號的問題是,如果之前寫的xml檔案中並沒有提到埠號,Map/Reduce master中的埠號預設即可,DFS的埠號則可以通過在虛擬機器中檢視http://localhost:50070,進入Hadoop管理頁面的overview頁面下面就可以看到處於活躍狀態的主機和埠號。還可以在Utilities頁面的Browse the file system檢視hdfs的檔案系統,此後也可以從這裡獲得執行結果並下載下來。
這裡在說一些hdfs的常用命令:(這裡操作的所有目錄都是hdfs檔案系統下的,在linux檔案系統中是找不到的)
在hadoop的目錄下
建立輸入目錄
bin/hdfs dfs -mkdir /input
將輸入檔案放入輸入目錄
bin/hdfs dfs -put README.txt /input
執行Jar包(省略了jar包的main入口,這個要在打包時宣告main入口,匯出時別直接finish,點Next設定一下就行了)
hadoop jar wordcount.jar /input /output
刪除output資料夾(hadoop不會自動覆蓋已有的output資料夾,所以執行之前要確認是否存在output資料夾)
bin/hdfs dfs -rmr /output
因為畢設選題選到了相關技術,純小白現學現賣,還沒有系統學習,有很多白痴的地方,大神路過勿噴。