Hadoop偽分布式搭建(本人新手,歡迎大家多多指導和關照)
1.創建hadoop賬戶,創建用戶的home目錄並設置密碼。(useradd -m hadoop )
2.本步驟可以不做(我是為了方便,給hadoop賦予了root權限)(vi /etc/sudoers)
以上的設置使用sudo不用輸入密碼
(註意:要在root用戶下且修改完成要esc :wq保存)
3.修改主機名(如果你不想修改,跳過此步驟)
(1)0本次有效的方法,重啟後就失效(hostname dsj01)
用戶重新登陸下
(2)永久修改的方法(vi /ec/sysconfig/network),然後重啟(init 6或者reboot)。
4.檢查防火墻狀態,如果是打開的,就關閉它。
(1)單次啟動/關閉防火墻(service iptables on/off)
(2)永久啟動/關閉防火墻(chkconfig iptables on/off),關閉後要重啟。
5.將ip與主機名對應信息寫入到/etc/hosts文件
6.配置ssh免密碼登錄(Hadoop 啟動或者停止腳本時需要通過SSH發送命令啟動相關守護進程,為了避免每次啟動或者停止Hadoop輸入密碼進行驗證,需設置免密碼登錄。)
(1)在hadoop根目錄下創建.ssh文件目錄。
(2)生成公鑰文件id_rsa.pub和私鑰文件id_rsa,此操作一直按回車鍵即可。
(3)將公鑰文件id_rsa.pub 中的內容復制到相同目錄下的authorized_keys文件中
(4)切換到hadoop用戶的根目錄,為.ssh目錄授權
(5)使用ssh 登錄djt,第一次登陸需要輸入yes,第二次以後登錄就不需要密碼,此時表明設置成功
檢查是因為openssh-client這個客戶端沒安裝。
依然報錯了,是依賴的問題。(配置DNS來解決)
在物理機的網絡中心配置:
在ifcfg-eth0中配置:
然後安裝客戶端:
完成後,ssh登錄。
7.下載jdk1.7並上傳到/home/hadoop/app目錄下將其解壓並重命名為jdk。
解壓:
重命名:
配置環境變量:
jdk安裝成功:
8.下載hadoop2.6安裝包並上傳,解壓並重命名為hadoop。
解壓:
重命名:
配置環境變量:
進入hadoop/etc/hadoop目錄,查看相關配置文件:
(1)修改core-site.xml配置文件
(2)修改hdfs-site.xml配置文件
(3)修改hadoop-env.sh配置文件
(4)修改mapred-site.xml配置文件
(5)修改yarn-site.xml配置文件
(6)修改slaves配置文件
創建hadoop相關目錄:
格式化namenode:第一次安裝Hadoop集群的時候需要格式化Namenode,以後直接啟動Hadoop集群即可,不需要重復格式化Namenode。
啟動偽分布集群:
啟動成功後:
通過WEB UI查看結果:
進入C:\Windows\System32\drivers\etc 目錄下,將ip與主機名添加到hosts文件裏。
通過dsj01:50070進行訪問hdfs:
通過dsj01:8080訪問yarn:
9.測試運行偽分布式
創建dashuju目錄:
創建一個dsj.txt文件並上傳到dashuju目錄下:
運行Hadoop例子中自帶的wordcount程序:
使用 bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar wordcount /dashuju/dsj.txt /dashuju/output命令,其中/dashuju/dsj.txt是輸入的原文件,/dashuju/output是輸出路徑。
查看統計結果:
通過WEB UI查看統計結果:
到此,hadoop偽分布式搭建完成。
Hadoop偽分布式搭建(本人新手,歡迎大家多多指導和關照)