Centos 7 安裝Hadoop 3.0.0-alpha1
阿新 • • 發佈:2019-02-03
簡介:
本文主要介紹如何安裝和配置單節點Hadoop,運用Hadoop MapReduce和Hadoop分散式檔案系統(HDFS)執行一些簡單的操作。算是一個入門級的文件吧。hadoop 安裝三種模式
1. 單機
2. 偽分散式
3. 分散式
前提
支援的平臺
GNU / Linux的支援作為開發和應用的平臺。Hadoop已經證明在GNU / Linux叢集中可以支援2000個節點。
Windows 平臺不做介紹。
依賴的軟體
1. JDK
2. ssh
作業系統: CentOS-7-x86_64
使用者 : root
安裝JDK
將安裝包解壓到/usr/java/latest目錄下面,設定環境變數
vi ~/.bash_profile
export JAVA_HOME=/usr/java/latest/jdk1.8.0_101
export PATH=$JAVA_HOME/bin:$PATH
配置ssh免密碼登入
$ yum install ssh
$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys
安裝hadoop-3.0.0-alpha1
將安裝包解壓到 /root/hadoop目錄下
tar -xzvf hadoop-3.0.0-alpha1.tar.gz
設定環境變數
export HADOOP_HOME=/root/hadoop/hadoop-3.0.0-alpha1
PATH=$JAVA_HOME/bin:$PATH:$HOME/bin:$HADOOP_HOME/bin
使環境變數生效. ~/.bash_profile
Standalone Operation
預設情況下,Hadoop常常配置為偽分散式模式,作為一個單獨的java程式來除錯。下面的示例是將開啟conf目錄使用作為輸入,然後查詢並顯示每一個匹配正則表示式的檔案。
$ mkdir input $ cp etc/hadoop/*.xml input $ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.0.0-alpha1.jar grep input output 'dfs[a-z.]+' $ cat output/*
Pseudo-Distributed Operation 偽分散式操作
Hadoop可以執行在一個偽分佈模式,每個Hadoop守護程序執行在一個單獨的java程式的一個節點。
etc/hadoop/core-site.xml:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
etc/hadoop/hdfs-site.xml:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
YARN on a Single Node 單節點Yarn
etc/hadoop/mapred-site.xml:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.admin.user.env</name>
<value>HADOOP_MAPRED_HOME=$HADOOP_COMMON_HOME</value>
</property>
<property>
<name>yarn.app.mapreduce.am.env</name>
<value>HADOOP_MAPRED_HOME=$HADOOP_COMMON_HOME</value>
</property>
</configuration>
etc/hadoop/yarn-site.xml:
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
啟動停止Hadoop
1. Format the filesystem:
$ bin/hdfs namenode -format
2. Start NameNode daemon and DataNode daemon:
$ sbin/start-dfs.sh
3. Browse the web interface for the NameNode; by default it is available at:
NameNode - http://localhost:9870/
4. Start ResourceManager daemon and NodeManager daemon:
$ sbin/start-yarn.sh
5. Browse the web interface for the ResourceManager; by default it is available at:
ResourceManager - http://localhost:8088/
停止hadoop
$ sbin/stop-dfs.sh
$ sbin/stop-yarn.sh
檢視程序命令
jps