1. 程式人生 > >hadoop初識之三:搭建hadoop環境(配置HDFS,Yarn及mapreduce 執行在yarn)上及三種執行模式(本地模式,偽分散式和分散式介)

hadoop初識之三:搭建hadoop環境(配置HDFS,Yarn及mapreduce 執行在yarn)上及三種執行模式(本地模式,偽分散式和分散式介)

--===============安裝jdk(解壓版)==================
--root 使用者登入
--建立檔案層級目錄
   /opt下分別 建 modules/softwares/datas/tools 資料夾
--檢視是否安裝jdk
   rpm -qa|grep java
--缷載系統自帶的jdk:nodeps是忽略依賴,強制缷載
   rpm -e --nodeps java-1.5.0
--jdk tar包上傳到softwares中:上傳工具


--解壓jdk到modules中
   tar -zxf jdk-7u67-linux-x64.tar.gz -C /opt/modules/
--配置環境變數
   vi /etc/profile
      ##JAVA_HOME
      export JAVA_HOME=/opt/modules/jdk1.7.0_67
      export PATH=$PATH:$JAVA_HOME/bin
   source /etc/profile
   退出後重新登入進去
--測試
   java -version
--===============安裝hadoop-2.5.0(解壓版)==================
--解壓jdk到modules中
   tar -zxf hadoop-2.5.0-cdh5.3.6.tar.gz -C /opt/modules
   mv hadoop-2.5.0-cdh5.3.6/ hadoop-2.5.0
--可以使用預設,也可以更改
   vi /opt/modules/hadoop-2.5.0/etc/hadoop/hadoop-env.sh
   export JAVA_HOME=/opt/modules/jdk1.7.0_67
   export HADOOP_CONF_DIR=/opt/modules/hadoop-2.5.0-cdh5.3.6/etc/hadoop
--在hadoop2.5.0下
   mkdir input
   cp etc/hadoop/*.xml input/
--===================啟動叢集==========================
   1.本地模式:mapreduce 執行在本地,啟動jvm
    bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0-cdh5.3.6.jar grep input output 'dfs[a-z.]+'
   2.偽分散式模式:
--++++++++++++++配置hadoop中hdfs+++++++++
=》配置  core-site 配置hdfs為預設路徑和臨時資料夾,及配置HDFS垃圾回收時間是7天
    <configuration>
             <property>
                  <name>fs.defaultFS</name>
          <value>hdfs://master:8020</value>
             </property>
             <property>
                 <name>hadoop.tmp.dir</name>
         <value>/opt/modules/hadoop-2.5.0-cdh5.3.6/data/tmp</value>
             </property>

        </configuration>

   <property>
        <name>fs.trash.interval</name>
<value>10080</value>
   </property>

=>配置hdfs-site.xml偽分散式模式備份為1
  <configuration>
          <property>
               <name>fs.replication</name>
       <value>1</value>
          </property>
       </configuration>
=》第一次使用時格式化hdfs系統
   bin/hdfs namenode -format
    =》啟動namenode/datanode
  sbin/hadoop-daemon.sh start namenode
  jps 測試是否成功(有兩個程序)
    =》檢視日誌檔案
  ll logs
  檢視以.log結尾的日誌,而不是以.out結尾的
=》檢視hdfs web介面
  master:50070/若打不開,則使用ip地址 或 配置window系統hosts檔案
  若仍打不開,則關閉linux防火牆
         重啟後生效 
           開啟: chkconfig iptables on 
           關閉: chkconfig iptables off 
         即時生效,重啟後失效 
           開啟: service iptables start 
           關閉: service iptables stop 
--+++++++++++++++配置yarn+++++++++++++++++
     => cd /etc/hadoop/yarn-env.sh
   export JAVA_HOME=/opt/modules/jdk1.7.0_67
     =>yarn-site.xml----執行mapreduce
        <property>
             <name>yarn.resourcemanager.hostname</name>
    <value>master</value>
        </property>
        <property>
             <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
        </property>
=>配置/slaves
=》啟動yarn
   sbin/yarn-daemon.sh start resourcemanager
   sbin/yarn-daemon.sh start nodemanager
=>檢視jps程序
=》yarn監控介面:master:8088
--+++++++++++++++++配置mapreduce預設執行在yarn上,初始預設local模式++++++++++++
     => cd /etc/hadoop/mapred-env.sh
   export JAVA_HOME=/opt/modules/jdk1.7.0_67
     => cd /etc/hadoop/mapred-site.sh
  <configuration>
           <property>
                <name>mapreduce.framework.name</name>
        <value>yarn</value>
           </property>
        </configuration>
--+++++++++++++測試+++++++++++++++++
     bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0-cdh5.3.6.jar  wordcount /user/npl/wordcount/input /user/npl/wordcount/output
--3.分散式模式:多些節點,在slaves中配置