1. 程式人生 > >Hadoop系列之hadoop環境搭建本地模式

Hadoop系列之hadoop環境搭建本地模式

  1.1 Hadoop環境搭建

Hadoop 的環境可以有多種方式,比如本地模式(standalone)、偽分散式、完全分散式以及 HA 模式。參考:

   1.1.1Hadoop安裝包

  ​​​​​​​核心配置檔案

Hadoop 主要有四個核心配置檔案,如下:

  •  core-site.xml:配置通用屬性
  • hdfs-site.xml:配置 HDFS 的屬性
  • mapred-site.xml:配置 MapReduce 的屬性
  • yarn-site.xml:配置 YARN 的屬性

​​​​​​​本地模式(Local/Standalone)

也稱為“獨立模式”。沒有任何守護程序,所有的程式都執行在同一個 JVM 上。在本地模式下除錯 MR 程式非常方便。所以一般該模式主要是在學習或者開發階段除錯使用 。

​​​​​​​ 搭建步驟

  1. 將 hadoop-2.7.3.tar.gz 上傳到/root 目錄下; 使用put命令上傳,預設會上傳到opt資料夾中
  2. 解壓 進入opt資料夾中進行解壓

[[email protected] ~]# cd /opt/

[[email protected] opt]# tar zxf ~/hadoop-2.7.3.tar.gz

​​​​​​​hadoop目錄介紹[[email protected] opt]# ls -lrt hadoop-2.7.3/ total 108

drwxr-xr-x 4 root root    31 Aug 18  2016 share

drwxr-xr-x 2 root root  4096 Aug 18  2016 sbin

-rw-r--r-- 1 root root 1366 Aug 18 2016 README.txt

-rw-r--r-- 1 root root 14978 Aug 18 2016 NOTICE.txt

-rw-r--r-- 1 root root 84854 Aug 18 2016 LICENSE.txt

drwxr-xr-x 2 root root 239 Aug 18 2016 libexec

drwxr-xr-x 3 root root 20 Aug 18 2016 lib

drwxr-xr-x 2 root root 106 Aug 18 2016 include

drwxr-xr-x 3 root root 20 Aug 18 2016 etc

drwxr-xr-x 2 root root 194 Aug 18 2016 bin [[email protected] opt]#

share:hadoop 各個模組的 jar 包、原始碼以

sbin:hadoop 的各種運維命令

bin:hadoop 的執行命令

libexec:shell 配置檔案

lib:本地 so 庫

include:標頭檔案

etc:hadoop 的各類 xml 配置檔案

​​​​​​​ 本地執行 wordcount

WordCount 是 Hadoop 自帶的一個統計單次個數的 MapReduce 程式。

第一步:準備好需要統計的檔案

這裡直接用 etc/hadoop 下面的配置檔案。在hadoop-2.7.3資料夾中執行以下命令

[[email protected] hadoop-2.7.3]# mkdir input  //建立存放統計檔案的資料夾

[[email protected] hadoop-2.7.3]# cp etc/hadoop/*.xml input   //將需要統計分析的檔案拷貝到input資料夾中

第二步:執行 wordcount  在hadoop-2.7.3資料夾中執行以下命令

[[email protected] hadoop-2.7.3]# bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep input output 'config[a-z.]+'

第三步:檢視統計結果  在hadoop-2.7.3資料夾中執行以下命令

[[email protected] hadoop-2.7.3]# cat output/*

17 configuration

3 configuration.xsl

1 configured

[[email protected] hadoop-2.7.3]#