《Hadoop》之"踽踽獨行"（七）Hadoop的偽分散式叢集搭建

阿新 • • 發佈：2019-01-09

在上一章我給大家介紹了Hadoop的單節點叢集本地模式的搭建，在這一章中，我們來了解一下Hadoop偽分散式叢集的搭建與用途。

一、Hadoop偽分散式叢集（pseudo distributed cluster）

1、簡介

hadoop的pseudo distributed cluster（偽分散式叢集），就是在一臺主機上模擬多個主機。即hadoop的守護程式在本地計算機(這個指的是Linux虛擬機器)上執行，模擬叢集環境，並且是相互獨立的Java程序。

在這種模式下，Hadoop使用的是分散式檔案系統，各個作業也是由ResourceManager服務來管理的獨立程序。

比local mode 多了程式碼除錯功能，允許檢查記憶體使用情況，HDFS輸入輸出，以及其他的守護程序互動。

2、用途

類似於完全分散式模式下的叢集。因此，這種模式常用來開發測試Hadoop程式的執行是否正確。

二、搭建偽分散式

安裝前說明：

1、普通使用者：hyxy
2、建立~/apps目錄，用於管理軟體包
3、將jdk-7u80-linux-x64.tar.gz 和 hadoop-2.7.3.tar.gz 上傳到/home/hyxy/apps/目錄下

第一步、安裝JDK，配置環境變數

使用tar指令將jdk的軟體包解壓到apps目錄下，後刪除軟體包，然後建立一個軟連結jdk.soft

[[email protected] apps ]$  tar -zxv -f  jdk-7u80-linux-x64.tar.gz。
[[email protected] apps]$ rm jdk-7u80-linux-x64.tar.gz    #解壓後刪除軟體包，節省空間
[[email protected] apps]$ ln -s jdk1.7.0_80/ jdk.soft    #軟連結叫jdk.soft

我們在~/.bash_profile配置檔案內，配置jdk的環境變數，然後重新載入配置檔案，並檢測java和javac兩個命令

[[email protected] apps]$ vim ~/.bash_profile
............ 
PATH=$PATH:$HOME/bin                                  #可要可不要
 
# jdk environment
JAVA_HOME=/home/hyxy/apps/jdk.soft                    #配置環境變數JAVA_HOME
PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH          #千萬別忘記拼接$PATH
export PATH JAVA_HOME

[[email protected] apps]$ source ~/.bash_profile           #重新載入配置檔案
[[email protected] apps]$ java -version                    #檢測jdk版本
java version "1.7.0_80"
............
[[email protected] apps]$ javac                            #測試javac命令

第二步、解壓hadoop，配置環境變數

使用tar指令解壓hadoop軟體包，然後刪除軟體包，再建立軟連結hadoop.soft

[[email protected] apps]$ tar -zxv -f hadoop-2.7.3.tar.gz       #1.解壓軟體包
[[email protected] apps]$ rm hadoop-2.7.3.tar.gz                #2.刪除軟體包
[[email protected] apps]$ ln -s hadoop-2.7.3/ hadoop.soft       #3.建立軟連結hadoop.soft
[[email protected] apps]$ ll
drwxr-xr-x. 9 hyxy hyxy 4096 8月  18 2016 hadoop-2.7.3
lrwxrwxrwx. 1 hyxy hyxy   13 1月   8 11:04 hadoop.soft -> hadoop-2.7.3/
drwxr-xr-x. 8 hyxy hyxy 4096 4月  11 2015 jdk1.7.0_80
lrwxrwxrwx. 1 hyxy hyxy   12 1月   8 10:45 jdk.soft -> jdk1.7.0_80/

在~/.bash_profile配置檔案內，配置hadoop的環境變數，然後重新載入配置檔案，並檢測hadoop命令

[[email protected] apps]$ vim ~/.bash_profile
...............                                 #前面的內容省略了
...............
# hadoop environment                            #追加hadoop環境變數
HADOOP_HOME=/home/hyxy/apps/hadoop.soft         #配置HADOOP_HOME
PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH   #配置path,千萬別忘記拼接$PATH
export PATH HADOOP_HOME

[[email protected] apps]$ source ~/.bash_profile         #重新載入配置檔案
[[email protected] apps]$ hadoop version                 #測試hadoop命令
Hadoop 2.7.3

第三步、修改hadoop偽分散式叢集的配置資訊

首先我們進入hadoop的etc/hadoop目錄下：

[[email protected] apps]$ cd hadoop.soft/etc/hadoop/      #檢查你自己的路徑，不要盲目的抄寫
[[email protected] hadoop]$ ls                            #檢視一下目錄下的配置檔案
capacity-scheduler.xml  hadoop-env.cmd              hadoop-policy.xml        httpfs-signature.secret  kms-log4j.properties  mapred-env.sh               ssl-client.xml.example  yarn-site.xml
configuration.xsl       hadoop-env.sh               hdfs-site.xml            httpfs-site.xml          kms-site.xml          mapred-queues.xml.template  ssl-server.xml.example
container-executor.cfg  hadoop-metrics2.properties  httpfs-env.sh            kms-acls.xml             log4j.properties      mapred-site.xml.template    yarn-env.cmd
core-site.xml           hadoop-metrics.properties   httpfs-log4j.properties  kms-env.sh               mapred-env.cmd        slaves                      yarn-env.sh

修改core-site.xml

[[email protected] hadoop]$ vim core-site.xml      
<configuration>
        <property>
                <name>fs.defaultFS</name>                #屬性: 預設的分散式檔案系統              
                <value>hdfs://localhost:9000</value>     #配置本地地址，port：9000
        </property>
</configuration>

修改hdfs-site.xml

[[email protected] hadoop]$ vim hdfs-site.xml

<configuration>
        <property>
                <name>dfs.replication</name>       #屬性：副本數量
                <value>1</value>                   #給個值 1
        </property>
</configuration>

修改hadoop-env.sh，設定JAVA_HOME=/home/hyxy/apps/jdk.soft

[[email protected] hadoop]$ vim hadoop-env.sh
...............................          #省略了
# The java implementation to use.
export JAVA_HOME=/home/hyxy/apps/jdk.soft      #修改成jdk的安裝路徑

第四步：配置SSH無密登陸

首先檢視一下是否安裝了ssh軟體：rpm -qa | grep ssh。如果沒安裝，就先安裝此軟體。安裝了，就直接進行下面操作。

首先，驗證一下ssh localhost，是否需要密碼：

[[email protected] hadoop]$ ssh localhost
............
[email protected]'s password:              #是需要密碼的

然後配置無密登入。（再次強調，使用普通使用者，不要使用root使用者）

1、生成私鑰和公鑰一對金鑰。輸入命令: ssh-keygen -t rsa 。然後一路回車即可。

[[email protected] ~]$ cd
[[email protected] ~]$ ssh-keygen -t rsa              #執行這個指令串 生成金鑰
Generating public/private rsa key pair.
Enter file in which to save the key (/home/hyxy/.ssh/id_rsa):       #回車
Enter passphrase (empty for no passphrase):                         #回車
Enter same passphrase again:                                        #回車
Your identification has been saved in /home/hyxy/.ssh/id_rsa.       #私鑰檔案
Your public key has been saved in /home/hyxy/.ssh/id_rsa.pub.       #公鑰檔案
The key fingerprint is:
85:b7:6b:04:fe:cd:da:85:47:72:5e:ff:1f:6b:92:74 [email protected]
The key's randomart image is:
+--[ RSA 2048]----+
|                 |
|         .       |
|        o o      |
|       . + .     |
|        S o . o .|
|         o + B E.|
|          + = *..|
|         . o = .+|
|          . . o.+|
+-----------------+
[[email protected] ~]$

2、進入.ssh目錄，將公鑰檔案更名為authorized_keys檔案，即可實現ssh連線自己不再需要密碼。確保authorized_keys的許可權為600。

[[email protected] ~]$ cd ~/.ssh                     #進入.ssh目錄
[[email protected] .ssh]$ ll
-rw-------. 1 hyxy hyxy 1675 1月   8 14:54 id_rsa
-rw-r--r--. 1 hyxy hyxy  393 1月   8 14:54 id_rsa.pub
[[email protected] .ssh]$ mv id_rsa.pub authorized_keys   #更名操作
[[email protected] .ssh]$ chmod 600 authorized_keys       #更改許可權

3、結果驗證:

[[email protected] ~]$ ssh localhost            #驗證localhost
Last login: Tue Jan  8 14:57:02 2019 from localhost

[[email protected] ~]$ ssh master              #驗證主機名登入，前提得在/etc/hosts繫結主機名和ip
Last login: Tue Jan  8 14:57:16 2019 from localhost

第五步：格式化分散式檔案系統

使用hdfs namenode -format 來格式化分散式檔案系統

[[email protected] ~]$ hdfs namenode -format

第六步：啟動HDFS

開啟namenode執行緒和datanode執行緒等

[[email protected] ~]$ start-dfs.sh

第七步：檢視執行緒

正常應該至少有四個執行緒，就對了

[[email protected] ~]$ jps
30591 Jps
30194 NameNode
30481 SecondaryNameNode
30288 DataNode

第八步：使用瀏覽器進行訪問hadoop偽分佈叢集

使用linux虛擬機器上的火狐瀏覽器，訪問地址：http://localhost:50070

能看到上述資訊，1個Live Nodes,就保沒錯了。偽分佈搭建完畢。如果還想配置YARN環境的，可以參考官網：https://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-common/SingleCluster.html，這個連結的最下面就是YARN no a Single node的配置了。

三、程式測試

偽分散式叢集搭建好了，我們來執行一個mapreduce程式試試。

第一步：在分散式檔案系統上建立多級目錄/hyxy/input

[[email protected] ~]$ hdfs dfs -mkdir -p /hyxy/input

第二步：在本地建立一個檔案file，內容如下:

[[email protected] ~]$ echo hello world hello kitty you are good >> file

第三步：將file 上傳到分散式檔案系統/hyxy/input目錄下，然後檢視一下

[[email protected] ~]$ hdfs dfs -put file /hyxy/input
[[email protected] ~]$ hdfs dfs -ls  /hyxy/input/
Found 1 items
-rw-r--r--   1 hyxy supergroup         37 2019-01-08 15:46 /hyxy/input/file

第四步：在分散式檔案系統上建立目錄output。用於儲存輸出資料。

[[email protected] ~]$ hdfs dfs -mkdir /hyxy/output

第五步：使用hadoop自帶的單詞統計mapreduce程式，統計file檔案的單詞

[[email protected] ~]$ hadoop jar ./apps/hadoop.soft/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /hyxy/input /hyxy/output/count

第六步：檢視統計結果

[[email protected] ~]$ hdfs dfs -cat /hyxy/output/count/*
are     1
good    1
hello   2
kitty   1
world   1
you     1

可以在瀏覽器上檢視分散式檔案系統

ok。到此為止，偽分散式搭建和案例測試，都完美收官，吼吼吼

-------------------------------如有疑問，敬請留言吧--------------------------------------------------------------------

《Hadoop》之"踽踽獨行"（七）Hadoop的偽分散式叢集搭建

在上一章我給大家介紹了Hadoop的單節點叢集本地模式的搭建，在這一章中，我們來了解一下Hadoop偽分散式叢集的搭建與用途。一、Hadoop偽分散式叢集（pseudo distributed cluster） 1、簡介 hadoop的pseudo distributed&n

大資料之Hadoop學習（環境配置）——Hadoop偽分散式叢集搭建

title: Hadoop偽分散式叢集搭建 date: 2018-11-14 15:17:20 tags: Hadoop categories: 大資料點選檢視我的部落格: Josonlee’s Blog 文章目錄前言準備偽分

Hadoop單機/偽分散式叢集搭建（新手向）

此文已由作者朱笑笑授權網易雲社群釋出。歡迎訪問網易雲社群，瞭解更多網易技術產品運營經驗。本文主要參照官網的安裝步驟實現了Hadoop偽分散式叢集的搭建，希望能夠為初識Hadoop的小夥伴帶來借鑑意義。環境：（1）系統環境：CentOS 7.3.1611 64位（2）J

【Kaggle-MNIST之路】自定義程式結構（七）

簡述這一篇跟這個系列的其他文章不一樣，這個是重新安排下程式結構結構如下：其中model這個模型專門放模型就好了 model/init.py中不用寫就好了。 model/CNN.py中的內容模型是基於之前的【Kaggle-MNIS

深度學習筆記——理論與推導之Structured Learning【Structured SVM】（七）

Separable case 1. 定義： 2. 用來計算weight的Structured Perceptron演演算法：那麼面對很多個y，是否可以順利在有限次內找到weight呢？答案是可以的，況且只需要(R/δ)^2次，R是同一個x

hadoop偽分散式叢集搭建及配置記錄

如果已經走到了需要搭建hadoop偽分散式的環境了，那說明你至少做好了以下三點建立好了自己的虛擬機器，ip、本機名對映、防火牆、安全子系統都已經配置好了下載jdk1.7及以上版本，並配置好了java環境下載hadoop2.7.0及以上版本，並解壓到、opt/modules（自

極客react之Ant Design Pro系列快速入門（七）-- 使用新的佈局

定義一個新的佈局 loayout資料夾定義佈局的js檔案和less樣式檔案 /common/router.js中定義使用新佈局的路徑 '/data': { component: dynamicWrapper(app, [], () => import('..

Hadoop偽分散式叢集搭建過程及避坑指南

一個偶然的機會，讓我進了hadoop這個坑。我不得不說，Google真是個非常厲害的公司。為計算機行業貢獻了很多亮瞎雙眼額技術。初入Hadoop一般都要了解HDFS，YARN，Mapreduce。現在來總結一下Hadoop分散式叢集的搭建過程。1.首先準備好相應的安裝包，同時

Java多執行緒之原子操作atomic的使用CAS（七）

3-5、java.util.concurrent.atomic：執行緒安全的原子操作包在JDK1.5+的版本中，Doug Lea和他的團隊還為我們提供了一套用於保證執行緒安全的原子操作。我們都知道在多執行緒環境下，對於更新物件中的某個屬性、更新基本型別資料、更新陣列（

Hadoop單機、偽分散式叢集搭建（十分詳細）

原文地址：http://blog.csdn.net/dr_guo/article/details/50886667 下面我就一邊搭建一邊寫怎麼搭建Hadoop偽分佈模式。 1.下載jdk並安裝去官網下就可以了，下完之後把檔案移到/o

hadoop-2.6.5偽分散式叢集搭建

本次搭建的偽分散式hadoop叢集所使用的作業系統是紅帽5，64位系統。所以，需要注意以下幾點： 1、jdk和hadoop安裝包也應該是64位的 2、64位的jdk是從檔名可以直接看出，例如：jdk-8u172-linux-x64.tar.gz 3、而

大資料系列之資料庫Hbase知識整理（一）Hbase簡介，叢集搭建

1.Hbase簡介 HBase是一個分散式的、面向列的開源資料庫，該技術來源於 Fay Chang 所撰寫的Google論文“Bigtable：一個結構化資料的分散式儲存系統”。就像Bigtable利用了Google檔案系統（File System）所提供的分散式資料儲

DRF Django REST framework 之路由器與版本控制組件（七）

路由器一些Web框架提供了用於自動確定應如何將應用程式的URL對映到處理傳入請求的邏輯的功能。而DRF的路由器元件也提供了一種簡單，快速且一致的方式將檢視邏輯對映到一組URL上。路由器元件的使用配合include 第一步：匯入模組 from rest_framework import routers

《Hadoop》之"踽踽獨行"（六）Hadoop的單節點叢集設定

在《Hadoop》之"踽踽獨行"（五）這一篇中，我們對Hadoop進行了簡單的概述。接下來，我們就來了解一下Hadoop叢集的安裝。而Hadoop的安裝模式有以下三種，我們一一來了解一下單節點上的本地模式(獨立模式) ：Local（Standalone）Mode 單節點的偽分佈模式

《Hadoop》之"踽踽獨行"（八）Hadoop叢集的啟動指令碼整理及守護執行緒原始碼

在上一章的偽分散式叢集搭建中，我們使用start-dfs.sh指令碼啟動了叢集環境，並且上傳了一個檔案到HDFS上，還使用了mapreduce程式對HDFS上的這個檔案進行了單詞統計。今天我們就來簡單瞭解一下啟動指令碼的相關內容和HDFS的一些重要的預設配置屬性。一、啟動指令碼 hadoo

《Hadoop》之"踽踽獨行"（九）Hadoop叢集的四個配置檔案的屬性解析

在啟動hadoop叢集的守護執行緒時，一定會載入並執行相關的class位元組碼檔案。通過common模組和hdfs模組裡的原始碼可以看到，它們讀取了相關的配置檔案。 hadoop-common-2.7.3-sources.jar下的org.apache.hadoop.conf.Configura

《Linux系統》之"皮毛系列"（七）網路通訊設定

對於Linux初學者來說，Linux系統的網路配置，又好玩又煩惱。好玩是因為，多臺linux主機之間可以通訊了，或者是可以聯網進行網上衝浪了。煩惱的是，需要設定一堆噁心難記的資料。(記得本人剛剛接觸Linux時，遇到網路設定就一個頭兩個大)。今天我就整理一下配置思路，供大家參考！！！(下面案例以VM

Linux鞏固記錄（5） hadoop 2.7.4下自己編譯代碼並運行MapReduce程序

parser mod pill self add let tokenize org cto 程序代碼為 ~\hadoop-2.7.4\share\hadoop\mapreduce\sources\hadoop-mapreduce-examples-2.7.4-sourc

Hadoop（九）Hadoop IO之Compression和Codecs

需要本地文件 .get 擴展 ecs zip 客戶網絡 color 前言　　前面一篇介紹了Java怎麽去查看數據塊的相關信息和怎麽去查看文件系統。我們只要知道怎麽去查看就行了！接下來我分享的是Hadoop的I/O操作。　　在Hadoop中為什麽要去使用壓縮（Co

Hadoop（十）Hadoop IO之數據完整性

掌握 @override pub out logs pac 開始 stat reat 前言　　上一篇我分享了Hadoop的壓縮和編解碼器，在我們開發的過程中其實是經常會用到的，所以一定要去掌握。這一篇給大家介紹的是Hadoop的數據完整性！　　Hadoop用戶在使用

《Hadoop》之"踽踽獨行"（七）Hadoop的偽分散式叢集搭建

一、Hadoop偽分散式叢集（pseudo distributed cluster）

1、簡介

2、用途

二、搭建偽分散式

第一步、安裝JDK，配置環境變數

第二步、解壓hadoop，配置環境變數

第三步、修改hadoop偽分散式叢集的配置資訊

第四步：配置SSH無密登陸

第五步：格式化分散式檔案系統

第六步：啟動HDFS

第七步：檢視執行緒

第八步：使用瀏覽器進行訪問hadoop偽分佈叢集

三、程式測試

相關推薦