1. 程式人生 > >Centos 7 安裝Hadoop 3.0.0-alpha1

Centos 7 安裝Hadoop 3.0.0-alpha1

簡介:

本文主要介紹如何安裝和配置單節點Hadoop,運用Hadoop MapReduce和Hadoop分散式檔案系統(HDFS)執行一些簡單的操作。算是一個入門級的文件吧。hadoop 安裝三種模式
1. 單機
2. 偽分散式
3. 分散式

前提

支援的平臺

GNU / Linux的支援作為開發和應用的平臺。Hadoop已經證明在GNU / Linux叢集中可以支援2000個節點。

Windows 平臺不做介紹。

依賴的軟體

1. JDK
2. ssh

作業系統: CentOS-7-x86_64
使用者 : root

安裝JDK

將安裝包解壓到/usr/java/latest目錄下面,設定環境變數

vi ~/.bash_profile
export JAVA_HOME=/usr/java/latest/jdk1.8.0_101
export PATH=$JAVA_HOME/bin:$PATH

配置ssh免密碼登入

  $ yum install ssh
  $ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
  $ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
  $ chmod 0600 ~/.ssh/authorized_keys

安裝hadoop-3.0.0-alpha1

將安裝包解壓到 /root/hadoop目錄下

tar -xzvf hadoop-3.0.0-alpha1.tar.gz

設定環境變數

export HADOOP_HOME=/root/hadoop/hadoop-3.0.0-alpha1
PATH=$JAVA_HOME/bin:$PATH:$HOME/bin:$HADOOP_HOME/bin

使環境變數生效. ~/.bash_profile

Standalone Operation

預設情況下,Hadoop常常配置為偽分散式模式,作為一個單獨的java程式來除錯。下面的示例是將開啟conf目錄使用作為輸入,然後查詢並顯示每一個匹配正則表示式的檔案。

  $ mkdir input
  $ cp etc/hadoop/*.xml input
  $ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.0.0-alpha1.jar grep input output 'dfs[a-z.]+'
  $ cat output/*

Pseudo-Distributed Operation 偽分散式操作

Hadoop可以執行在一個偽分佈模式,每個Hadoop守護程序執行在一個單獨的java程式的一個節點。

etc/hadoop/core-site.xml:

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

etc/hadoop/hdfs-site.xml:

<configuration>
    <property>
        <name>dfs.replication</name>
    <value>1</value>
    </property>
</configuration>

YARN on a Single Node 單節點Yarn

etc/hadoop/mapred-site.xml:

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.admin.user.env</name>
        <value>HADOOP_MAPRED_HOME=$HADOOP_COMMON_HOME</value>
    </property>
    <property>
        <name>yarn.app.mapreduce.am.env</name>
        <value>HADOOP_MAPRED_HOME=$HADOOP_COMMON_HOME</value>
    </property>
</configuration>

etc/hadoop/yarn-site.xml:

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

啟動停止Hadoop

1. Format the filesystem:
 $ bin/hdfs namenode -format
2. Start NameNode daemon and DataNode daemon:
 $ sbin/start-dfs.sh
3. Browse the web interface for the NameNode; by default it is available at:
    NameNode - http://localhost:9870/
4. Start ResourceManager daemon and NodeManager daemon:
    $ sbin/start-yarn.sh
5. Browse the web interface for the ResourceManager; by default it is available at:
    ResourceManager - http://localhost:8088/

  停止hadoop
  $ sbin/stop-dfs.sh
  $ sbin/stop-yarn.sh

 檢視程序命令
 jps

這裡寫圖片描述

參考文件: