hadoop偽分佈環境配置以及hbase 配置

阿新 • • 發佈：2019-02-01

原文章作者：簡書作者heamon7 文章地址：http://www.jianshu.com/users/1e2553eec992/latest_articles

本文是第一篇，記錄瞭如何在 Ubuntu14.04搭建Hadoop 2.6 偽分佈環境，以及執行自帶的wordcount例項的詳細步驟。

本文假設讀者對Hadoop並無太多瞭解，對Ubuntu的常見操作有一定了解，會對部分操作予以了較為詳細的解釋或給予有助於更深入理解的連結。

主要分為以下幾步：

安裝Java 8 環境
新建Hadoop專用賬戶
配置本地ssh免登陸
安裝並配置Hadoop偽分佈模式
測試執行wordcount例項

1. 安裝Java 8

Java 8 正式版於 2014 年 3 月釋出，該版本是一個有重大改變的版本，對 JAVA 帶來了諸多新特性。詳細資訊可以參看 Java 8 新特性概述

1.1安裝基礎開發套件

安裝Ubuntu下的基礎開發套件，其中包括接下來 1.2 中要用到的 add-apt-repository 命令：

sudo apt-get install software-properties-common
sudo apt-get install python-software-properties

1.2 通過ppa安裝Java 8

關於ppa(Personal Package Archives)的解釋可以參考

什麼是Ubuntu PPA以及為什麼要用它

sudo add-apt-repository ppa:webupd8team/java
sudo apt-get update
sudo apt-get install oracle-java8-installer

1.3 驗證安裝的Java版本

在根據以上的步驟安裝了Java之後，可以通過以下命令檢測是否安裝成功，及安裝的版本：

java -version

1.4 通過PPA配置Java的環境

1.2中新增的Webupd8 ppa 倉庫提供了一個包來設定Java的環境變數，通過以下命令安裝：

sudo apt-get install oracle-java8-set 
-default

完成以上步驟後即已經成功的配置了安轉Hadoop所需的Java開發環境。

2. 新建Hadoop專用賬戶

為了營造一個更加獨立的Hadoop執行環境，我們可以為系統新建一個Hadoop賬戶，以後執行Hadoop相關操作時都以該使用者的身份登陸。

2.1 新建hadoop使用者

sudo useradd -m  hadoop     #-m引數表示同時建立使用者的家目錄
sudo usermod -s  /bin/bash hadoop    # 指定預設登陸shell
sudo passwd hadoop    #修改使用者預設的密碼

2.2 提升hadoop使用者的許可權

sudo命令可以讓你切換身份來執行命令,其執行過程是：

當用戶執行sudo時，系統於/etc/sudoers檔案中查詢該使用者是否具有sudo的許可權；
當用戶具有可執行sudo的許可權後，便讓使用者輸入使用者自己的密碼來確認；
若密碼輸入成功，便開始進行sudo後續接得命令（但root執行sudo時不需要輸入密碼，若欲切換的身份與執行者的身份相同，則也不需要輸入密碼）；

因此我們需要編輯/etc/sudoers檔案，將我們的hadoop使用者新增進去：

sudo chmod u+w /etc/sudoers    #為當前使用者新增對/etc/sudoers檔案的寫許可權，該檔案預設root只讀
sudo vim /etc/sudoers

在檔案中找到這兩行：

# User privilege specification
root ALL=(ALL:ALL) ALL

在其下面新增一行

hadoop  ALL=(ALL:ALL) ALL

這裡解釋一下這一行四個引數的意思，第一個是使用者的賬號，表示系統中得哪個賬戶可以使用sudo命令，預設是root，第二個是登入者的來源主機名，預設值root可以來自任何一臺網路主機，第三個引數是可切換的身份，預設root可以切換成任何使用者,若新增冒號，則表示的是使用者組；第四個引數是可執行的命令，需使用絕對路徑，預設root可以執行任何命令。其中ALL是特殊的關鍵字，表示任何主機、使用者，或命令。
所以新增上面一行之後，我們的hadoop使用者今後也具有和root一樣的許可權。
最後
最後我們撤銷檔案的寫許可權:

sudo chmod u-w /etc/sudoers
#合併操作 sudo chmod u+w /etc/sudoers && sudo vim /etc/sudoers && sudo chmod u-w /etc/sudoers

3. 配置本地ssh免登陸

因為Hadoop是通過ssh管理各個元件，並實現通訊的，為了避免每次需要輸入密碼，我們可以配置本地ssh免登陸。關於ssh的登陸方式及原理可以參考這裡 SSH原理與運用

su  hadoop
ssh-keygen -t rsa    #用RSA演算法生成公鑰和金鑰
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys    #授權本機ssh免登陸

可以通過以下命令測試是否配置成功：

ssh localhost

若配置成功，則應該不需要輸入密碼。接著退出ssh登陸：

exit

上面是假設已經安裝了SSH，如果沒有安裝，可以通過以下命令安裝並啟動：

sudo apt-get install openssh-server
sudo /etc/init.d/ssh start

4. 安裝並配置Hadoop偽分佈模式

4.1 下載Hadoop 2.6

這裡直接從官網下載Hadoop並放到hadoop使用者主目錄：

cd ~
wget http://apache.claz.org/hadoop/common/hadoop-2.6.0/hadoop-2.6.0.tar.gz

解壓並簡化路徑：

tar xzf hadoop-2.6.0.tar.gz
mv hadoop-2.6.0 hadoop

4.2. 配置環境變數

首先設定Hadoop執行所需要的環境變數，我們編輯 ~/.bashrc 檔案，新增我們的環境變數

 #注意此處的路徑和你的hadoop檔案最後解壓存放的位置是一致的
export HADOOP_HOME=/home/hadoop/hadoop   
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

然後我們重新匯入~/.bashrc檔案中的內容到shell中:

$ source ~/.bashrc

關於上面這條命令的執行原理，請檢視這裡和這裡

接著我們編輯檔案$HADOOP_HOME/etc/hadoop/hadoop-env.sh ，為Hadoop設定 Java環境變數:

vim $HADOOP_HOME/etc/hadoop/hadoop-env.sh

修改其中JAVA_HOME的值為：

export JAVA_HOME=/usr/lib/jvm/java-8-oracle    #如果按照前面安裝Java 8 的方法，則Java應該在此路徑，也可以通過 echo $JAVA_HOME 命令來檢視

4.3 修改Hadoop的配置檔案

Hadoop在目錄 $HADOOP_HOME/etc/hadoop 下有很多配置檔案，我們在此配置偽分散式，需要修改其中四個配置檔案。首先進入配置檔案目錄：

$ cd $HADOOP_HOME/etc/hadoop

然後編輯 core-site.xml 檔案：

vim core-site.xml

在 configuration 標籤裡新增屬性，這裡需要新增的是HDFS的NameNode的地址，修改成以下值:

<configuration>
<property>
  <name>fs.default.name</name>
    <value>hdfs://localhost:9000</value>
</property>
</configuration>

接著修改 hdfs-site.xml 檔案:

vim hdfs-site.xml

修改為以下值：

<configuration>
<property>
 <name>dfs.replication</name>
 <value>1</value>
</property>
<property>
 <name>dfs.name.dir</name>
 <value>file:///home/hadoop/hadoopdata/hdfs/namenode</value>
</property>
<property>
 <name>dfs.data.dir</name>
 <value>file:///home/hadoop/hadoopdata/hdfs/datanode</value>
</property>
</configuration>

上面的 dfs.replication 屬性是指定副本數量，這裡資料只儲存一份，預設是三份；而 dfs.name.dir 屬性指定的是NameNode在本地的儲存地址，dfs.data.dir 屬性指定的是DataNode在本地的儲存地址。

然後修改 mapred-site.xml 檔案，但是預設Hadoop只提供了該配置的模板檔案，我們需要複製模板編輯：

cp mapred-site.xml.template mapred-site.xml
vim mapred-site.xml

將該檔案修改為以下值：

<configuration>
 <property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
 </property>
</configuration>

從字面意義也可以看出這裡指定了MapReduce執行在Hadoop的Yarn框架上。

最後修改 yarn-site.xml 檔案:

vim yarn-site.xml

修改為以下值：

<configuration>
 <property>
  <name>yarn.nodemanager.aux-services</name>
  <value>mapreduce_shuffle</value>
 </property>
</configuration>

這裡 yarn.nodemanager.aux-services 屬性指定了Yarn的NodeManager獲取資料的方式是shuffle，關於shuffle的介紹可以看這裡MapReduce:詳解shuffle過程

4.4 啟動Hadoop

在使用HDFS檔案系統前，我們需要先將其格式化：

hdfs namenode -format

此時應該有大量日誌輸出......
然後啟動HDFS：

start-dfs.sh

此時應該有大量日誌輸出......
最後啟動Yarn：

start-yarn.sh

此時應該有大量日誌輸出......

此時通過jps命令，應該可以看到除了jps本身外，還有5個Java程序,如下：

[email protected]:~$ jps
14049 Jps
13811 ResourceManager
13459 DataNode
13642 SecondaryNameNode
13931 NodeManager
13342 NameNode

5. 測試執行wordcount例項

Hadoop自帶有很多MapReduce的例子，其中一個比較和程式語言領域的 Hello World 齊名的是wordcount,能夠統計出檔案中每個單詞出現的次數，我們可以用wordcount示例測試Hadoop環境。

5.1 上傳輸入檔案到HDFS

首先我們在本地檔案系統新建幾個文字檔案：

cd ~
mkdir input
echo "hello hadoop" > input/f1.txt
echo "hello world" > input/f2.txt 
echo "hello wordcount" > input/f3.txt

然後通過以下命令上傳這三個檔案到HDFS：

hdfs dfs -mkdir -p /home/hadoop/input
hdfs dfs -put input/* /home/hadoop/input

可以通過以下命令檢視上傳的檔案:

hdfs dfs -ls /home/hadoop/input/

5.2 執行wordcount示例

Hadoop 通過把MapReduce程式碼捆綁到 jar 檔案上，然後使用以下命令執行Streaming作業：

hadoop jar <jar> [mainClass] args..

在目錄 $HADOOP_HOME/share/hadoop/mapreduce/ 下有一些執行MapReduce任務所需的已編譯好的jar包，其中 hadoop-mapreduce-examples-2.6.0.jar 包含了一些示例程式，wordcount便在其中，我們可以通過上面的命令來執行wordcount：

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar wordcount /home/hadoop/input  /home/hadoop/output

注意此處的output資料夾不應該事先存在，應該由hadoop自己建立，否則會執行失敗。

5.3 檢視執行結果

稍後片刻，待程式執行結束，我們可以通過以下命令來檢視產生的結果檔案：

hdfs dfs -ls /home/hadoop/output

這裡的輸出是：

[email protected]:~$ hdfs dfs -ls /home/hadoop/output
15/06/18 02:47:10 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Found 2 items
-rw-r--r--   1 hadoop supergroup          0 2015-06-18 02:13 /home/hadoop/output/_SUCCESS
-rw-r--r--   1 hadoop supergroup         32 2015-06-18 02:13 /home/hadoop/output/part-r-00000

可以通過以下命令檢視最後的輸出結果：

hdfs dfs -cat /home/hadoop/output/part-r-00000

這裡看到的結果是：

[email protected]:~$ hdfs dfs -cat /home/hadoop/output/part-r-00000
15/06/18 02:49:38 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
hadoop    1
hello    3
java    1
world    1
[email protected]:~$

至此，Hadoop的單機偽分佈環境搭建成功。
已經按照此方法搭建了三次，寫完本文後，又在一個全新的 Ubuntu 14.04 上一步步搭建了一次，一切正常。

最後，學習Hadoop到現在，雖然談不上已經入門，但感受是：Hadoop入門過程困難的部分不是環境的搭建，而在於出現錯誤時對日誌的分析，和問題的定位，然後還有就是出現效能問題時解決方案的搜尋。

擴充套件閱讀：

文／heamon7（簡書作者）
原文連結：http://www.jianshu.com/p/358dd9b93937
著作權歸作者所有，轉載請聯絡作者獲得授權，並標註“簡書作者”。

原文章作者：簡書作者heamon7 文章地址：http://www.jianshu.com/p/358dd9b93937

承接上一篇文章已經建立了的Hadoop 2.6 的偽分散式環境，這裡記錄一下建立HBase偽分散式環境的過程,使用的HBase版本是1.1.1。

主要分為以下幾步：

搭建Hadoop 2.6偽分散式環境（見上一篇文章）
下載安裝Hbase 1.1.1
配置本地ssh免登陸
安裝並配置Hadoop偽分佈模式
測試執行wordcount例項

下載安裝HBase
HBase的下載地址在這裡，我們選擇hbase-1.1.1-bin.tar.gz 版本下載：

su hadoop # 切換到上篇文章中建立的hadoop賬戶
cd ~
wget http://mirrors.cnnic.cn/apache/hbase/1.1.1/hbase-1.1.1-bin.tar.gz

然後解壓到當前資料夾

tar xzvf hbase-1.1.1-bin.tar.gz 
mv hbase1.1.1 hbase

修改HBase配置檔案
2.1 進入HBase配置資料夾，為HBase 指定JAVA_HOME的值
```
cd hbase/conf
vim hbase-env.sh
```
按照上一篇文章的搭建過程，則這裡JAVA_HOME的值應該是 /usr/lib/jvm/java-8-oracle,
```
# The java implementation to use.  Java 1.7+ required.
export JAVA_HOME=/usr/lib/jvm/java-8-oracle
```
然後編輯hbase-site.xml檔案：

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
  <name>hbase.rootdir</name>
  <value>hdfs://localhost:9000/hbase</value>
</property>
<property>
  <name>hbase.cluster.distributed</name>
  <value>true</value>
</property>
<property>
    <name>hbase.zookeeper.property.dataDir</name>
    <value>/home/hadoop/zookeeper</value>
  </property>
</configuration>

因為我們採用的是偽分佈模式，這裡需要將HBase的資料儲存到之前的Hadoop的HDFS上，hbase.rootdir的值便是HDFS上HBase資料儲存的位置，值中的主機名和埠號要和之前Hadoop的 core-site.xml中的fs.default.name的值相同，比如上一篇文章中的 hdfs://localhost:9000 。

為HBase配置環境變數
和之前配置Hadoop一樣，為了以後方便啟動HBase，這裡我們將HBase的啟動指令碼等目錄加入環境變數：
```
vim ~/.bashrc
```
然後將以下值追加到檔案末尾：
```
export HBASE_HOME=/home/hadoop/hbase
export HBASE_CONF_DIR=$HBASE_HOME/conf
export HBASE_CLASS_PATH=$HBASE_CONF_DIR
export PATH=$PATH:$HBASE_HOME/bin
```
啟動HBase
由於偽分散式下的 HBase 依賴 HDFS ，因此我們需要先啟動 HDFS ：
```
start-dfs.sh
```
然後啟動 HBase :
```
start-hbase.sh
```
測試 HBase

上一步啟動HBase之後，我們檢視一下系統中的Java程序，應該可以看到以下幾個程序:

[email protected]:~$ jps
2832 HMaster
2945 HRegionServer
2245 DataNode
2150 NameNode
3065 Jps
2745 HQuorumPeer
2431 SecondaryNameNode

然後我們啟動HBase shell，利用HBase提供的命令進行簡單互動：

[email protected]:~$ hbase shell
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/home/hadoop/hbase/lib/slf4j-log4j12-1.7.7.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/home/hadoop/hadoop/share/hadoop/common/lib/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
2015-08-06 15:09:30,272 WARN  [main] util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
HBase Shell; enter 'help<RETURN>' for list of supported commands.
Type "exit<RETURN>" to leave the HBase Shell
Version 1.0.1.1, re1dbf4df30d214fca14908df71d038081577ea46, Sun May 17 12:34:26 PDT 2015

hbase(main):001:0> help
HBase Shell, version 1.0.1.1, re1dbf4df30d214fca14908df71d038081577ea46, Sun May 17 12:34:26 PDT 2015
Type 'help "COMMAND"', (e.g. 'help "get"' -- the quotes are necessary) for help on a specific command.
Commands are grouped. Type 'help "COMMAND_GROUP"', (e.g. 'help "general"') for help on a command group.

COMMAND GROUPS:
  Group name: general
  Commands: status, table_help, version, whoami

  Group name: ddl
  Commands: alter, alter_async, alter_status, create, describe, disable, disable_all, drop, drop_all, enable, enable_all, exists, get_table, is_disabled, is_enabled, list, show_filters

  Group name: namespace
  Commands: alter_namespace, create_namespace, describe_namespace, drop_namespace, list_namespace, list_namespace_tables

  Group name: dml
  Commands: append, count, delete, deleteall, get, get_counter, incr, put, scan, truncate, truncate_preserve

  Group name: tools
  Commands: assign, balance_switch, balancer, catalogjanitor_enabled, catalogjanitor_run, catalogjanitor_switch, close_region, compact, compact_rs, flush, major_compact, merge_region, move, split, trace, unassign, wal_roll, zk_dump

  Group name: replication
  Commands: add_peer, append_peer_tableCFs, disable_peer, enable_peer, list_peers, list_replicated_tables, remove_peer, remove_peer_tableCFs, set_peer_tableCFs, show_peer_tableCFs

  Group name: snapshots
  Commands: clone_snapshot, delete_all_snapshot, delete_snapshot, list_snapshots, restore_snapshot, snapshot

  Group name: configuration
  Commands: update_all_config, update_config

  Group name: security
  Commands: grant, revoke, user_permission

  Group name: visibility labels
  Commands: add_labels, clear_auths, get_auths, list_labels, set_auths, set_visibility

SHELL USAGE:
Quote all names in HBase Shell such as table and column names.  Commas delimit
command parameters.  Type <RETURN> after entering a command to run it.
Dictionaries of configuration used in the creation and alteration of tables are
Ruby Hashes. They look like this:

  {'key1' => 'value1', 'key2' => 'value2', ...}

and are opened and closed with curley-braces.  Key/values are delimited by the
'=>' character combination.  Usually keys are predefined constants such as
NAME, VERSIONS, COMPRESSION, etc.  Constants do not need to be quoted.  Type
'Object.constants' to see a (messy) list of all constants in the environment.

If you are using binary keys or values and need to enter them in the shell, use
double-quote'd hexadecimal representation. For example:

  hbase> get 't1', "key\x03\x3f\xcd"
  hbase> get 't1', "key\003\023\011"
  hbase> put 't1', "test\xef\xff", 'f1:', "\x01\x33\x40"

The HBase shell is the (J)Ruby IRB with the above HBase-specific commands added.
For more on the HBase Shell, see http://hbase.apache.org/book.html

hbase(main):002:0> list
TABLE
0 row(s) in 0.4050 seconds

=> []
hbase(main):003:0>

退出HBase shell:

hbase(main):003:0> exit

這裡我們嘗試使用HBase 的 Thrift API，用Python和HBase進行簡單互動。首先啟動HBase的Thrift服務：

[email protected]:~$ hbase-daemon.sh start thrift
starting thrift, logging to /home/hadoop/hbase/logs/hbase-hadoop-thrift-iZ259rt0i0iZ.out

然後安裝Python的happybase模組，HBase是對 HBase的Thrift介面的一個簡單包裝：

pip install happybase

然後啟動ipython，如果沒有ipython，請通過pip安裝:

hadoop@iZ259rt0i0iZ:~$ ipython
Python 2.7.6 (default, Mar 22 2014, 22:59:56)
Type "copyright", "credits" or "license" for more information.

IPython 3.2.1 -- An enhanced Interactive Python.
?         -> Introduction and overview of IPython's features.
%quickref -> Quick reference.
help      -> Python's own help system.
object?   -> Details about 'object', use 'object??' for extra details.

In [1]: import happybase

In [2]: connection = happybase.Connection('localhost')

In [3]: connection.tables()
Out[3]: []

In [4]: families = {'basic':dict(max_versions=3),'detail':dict(max_versions=1000),'comment':dict(max_versions=1000),'answer':dict(max_versions=1000),'follower':dict(max_versions=1000)}

In [5]: connection.create_table('question',families)

In [6]: connection.tables()
Out[6]: ['question']

In [7]:

至此，我們HBase的偽分散式環境搭建完畢。

Reference：

文／heamon7（簡書作者）
原文連結：http://www.jianshu.com/p/27c385800da8
著作權歸作者所有，轉載請聯絡作者獲得授權，並標註“簡書作者”。

hadoop偽分佈環境配置以及hbase 配置

1. 安裝Java 8

1.1安裝基礎開發套件

1.2 通過ppa安裝Java 8

1.3 驗證安裝的Java版本

1.4 通過PPA配置Java的環境

2. 新建Hadoop專用賬戶

2.1 新建hadoop使用者

2.2 提升hadoop使用者的許可權

3. 配置本地ssh免登陸

4. 安裝並配置Hadoop偽分佈模式

4.1 下載Hadoop 2.6

4.2. 配置環境變數

4.3 修改Hadoop的配置檔案

4.4 啟動Hadoop

5. 測試執行wordcount例項

5.1 上傳輸入檔案到HDFS

5.2 執行wordcount示例

5.3 檢視執行結果

hadoop偽分佈環境配置以及hbase 配置

Hadoop偽分佈環境搭建——Hadoop安裝與配置

Hadoop偽分佈環境搭建——Linux環境配置

hadoop偽分佈環境快速搭建

阿里雲搭建大資料平臺（3）：安裝JDK和Hadoop偽分佈環境

三、偽分佈環境下安裝hbase

Centos7下配置Hadoop偽分散式環境

hadoop2.2.0 偽分佈環境配置

Ubuntu hadoop 偽分散式環境搭建步驟+ssh金鑰（免密碼登入）配置

hadoop偽分佈配置

hadoop偽分佈模式配置

Hadoop單機和偽分佈環境搭建

maven環境搭建以及Eclipse配置maven環境

Andriod環境搭建以及模擬器配置

jdk的安裝、不配置環境變數如何執行Java程式、Java為什麼可以跨平臺、為什麼要配置環境變數以及如何配置環境變數

Mac環境下安裝Hadoop偽分佈模式

hbase：偽分佈環境搭建及常見錯誤解決方法

Linux下配置java環境變數以及Eclipse配置

自制Hadoop偽分佈、叢集安裝詳細過程（vmware）

Hadoop偽分佈安裝詳解+MapReduce執行原理+基於MapReduce的KNN演算法實現

hadoop偽分佈環境配置以及hbase 配置

1. 安裝Java 8

1.1安裝基礎開發套件

1.2 通過ppa安裝Java 8

1.3 驗證安裝的Java版本

1.4 通過PPA配置Java的環境

2. 新建Hadoop專用賬戶

2.1 新建hadoop使用者

2.2 提升hadoop使用者的許可權

3. 配置本地ssh免登陸

4. 安裝並配置Hadoop偽分佈模式

4.1 下載Hadoop 2.6

4.2. 配置環境變數

4.3 修改Hadoop的配置檔案

4.4 啟動Hadoop

5. 測試執行wordcount例項

5.1 上傳輸入檔案到HDFS

5.2 執行wordcount示例

5.3 檢視執行結果

相關推薦