（八）完全分散式模式搭建Hadoop叢集

阿新 • • 發佈：2018-12-18

小技巧：配置好一臺伺服器後，通過 scp -r /opt/zookeeper-3.4.7/ hadoop02:/opt/ 命令，把檔案傳送到另外兩臺機器。

1、搭建方案

引入zookeeper，通過註冊臨時節點來監控服務是否掛掉，保證能及時切換到正在執行的服務上，防止單點故障。

例如：NameNode(active)掛了 ,會有程序 FailOverController 來負責切換到 NameNode(standby)

ResourceManager(active)掛了，會通過zookeeper自主切換到 ResourceManager(standby)

機器分配

主機名	hadoop01	hadoop02	hadoop03
程序	zookeeper	zookeeper	zookeeper
	NameNode(active)	NameNode(standby)
	FailOverController	FailOverController
	ResourceManager(active)		ResourceManager(standby)
	JournalNode	JournalNode	JournalNode
	DataNode	DataNode	DataNode
	NameNode	NameNode	NameNode

2、環境準備

三臺linux伺服器，都配置好主機名。且每臺伺服器把主機名和ip關係配置到hosts檔案中

配置免密登入：每臺機器給自己和其他機器都發送一次免密登入。以hadoop01為例：

生成祕鑰，輸入命令後一直回車即可	ssh-keygen
把祕鑰傳送給自己	ssh-copy-id [email protected]
把祕鑰傳送給hadoop02	ssh-copy-id [email protected]
把祕鑰傳送給hadoop03	ssh-copy-id [email protected]

三臺伺服器防火牆確保關閉

3、zookeeper叢集搭建

搭建步驟參看：

https://mp.csdn.net/postedit/82818981

https://mp.csdn.net/postedit/82937890

4、hadoop叢集搭建

首先安裝和配置hadoop01節點，配置好後把hadoop整個資料夾拷貝到另外兩臺機器。

vim hadoop-env.sh

配置jdk安裝所在目錄，hadoop配置檔案所在目錄

export JAVA_HOME=/usr/java/jdk1.8.0_181-amd64
export HADOOP_CONF_DIR=/opt/hadoop-2.7.1/etc/hadoop

vim core-site.xml

該目錄需要手動建立：/opt/hadoop-2.7.1/tmp

<configuration>
<!--用來指定hdfs的老大，ns為固定屬性名，表示兩個namenode-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://ns</value>
</property>
<!--用來指定hadoop執行時產生檔案的存放目錄-->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/hadoop-2.7.1/tmp</value>
</property>
<!--執行zookeeper地址-->
<property>
<name>ha.zookeeper.quorum</name>
<value>hadoop01:2181,hadoop02:2181,hadoop03:2181</value>
</property>
</configuration>

vim hdfs-site.xml

下列目錄需要手動建立：

/opt/hadoop-2.7.1/journal

/opt/hadoop-2.7.1/tmp/namenode

/opt/hadoop-2.7.1/tmp/datanode

<configuration>
<!--執行hdfs的nameservice為ns,和core-site.xml保持一致-->
<property>
<name>dfs.nameservices</name>
<value>ns</value>
</property>
<!--ns下有兩個namenode,分別是nn1,nn2-->
<property>
<name>dfs.ha.namenodes.ns</name>
<value>nn1,nn2</value>
</property>
<!--nn1的RPC通訊地址-->
<property>
<name>dfs.namenode.rpc-address.ns.nn1</name>
<value>hadoop01:9000</value>
</property>
<!--nn1的http通訊地址-->
<property>
<name>dfs.namenode.http-address.ns.nn1</name>
<value>hadoop01:50070</value>
</property>
<!--nn2的RPC通訊地址-->
<property>
<name>dfs.namenode.rpc-address.ns.nn2</name>
<value>hadoop02:9000</value>
</property>
<!--nn2的http通訊地址-->
<property>
<name>dfs.namenode.http-address.ns.nn2</name>
<value>hadoop02:50070</value>
</property>
<!--指定namenode的元資料在JournalNode上的存放位置,這樣，namenode2可以從jn叢集裡獲
     取最新的namenode的資訊，達到熱備的效果-->
<property>
<name>dfs.namenode.shared.edits.dir</name>
<value>qjournal://hadoop01:8485;hadoop02:8485;hadoop03:8485/ns</value>
</property>
<!--指定JournalNode存放資料的位置-->
<property>
<name>dfs.journalnode.edits.dir</name>
<value>/opt/hadoop-2.7.1/journal</value>
</property>
<!--開啟namenode故障時自動切換-->
<property>
<name>dfs.ha.automatic-failover.enabled</name>
<value>true</value>
</property>
<!--配置切換的實現方式
    由這個類來實現故障時的切換-->
<property>
<name>dfs.client.failover.proxy.provider.ns</name>
<value>
org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property>
<!--配置隔離機制
    祕鑰認證機制-->
<property>
<name>dfs.ha.fencing.methods</name>
<value>sshfence</value>
</property>
<!--配置隔離機制的ssh登入祕鑰所在的位置
    祕鑰存放目錄-->
<property>
<name>dfs.ha.fencing.ssh.private-key-files</name>
<value>/root/.ssh/id_rsa</value>
</property>
<!--配置namenode資料存放的位置,可以不配置，如果不配置，預設用的是
      core-site.xml裡配置的hadoop.tmp.dir的路徑-->
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///opt/hadoop-2.7.1/tmp/namenode</value>
</property>
<!--配置datanode資料存放的位置,可以不配置，如果不配置，預設用的是
      core-site.xml裡配置的hadoop.tmp.dir的路徑-->
<property>
<name>dfs.datanode.data.dir</name>
<value>file:///opt/hadoop-2.7.1/tmp/datanode</value>
</property>
<!--配置block副本數量-->
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<!--設定hdfs的操作許可權，false表示任何使用者都可以在hdfs上操作檔案
    生產環境是不會這樣設定的-->
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
</configuration>

配置mapred-site.xml

先複製一份模板並重命名：cp mapred-site.xml.template mapred-site.xml

然後編輯： vim mapred-site.xml

<configuration>
<property>
<!--指定mapreduce執行在yarn上-->
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

vim yarn-site.xml

<configuration>
<!-- 開啟YARN HA(高可用high available) -->
<property>
<name>yarn.resourcemanager.ha.enabled</name>
<value>true</value>
</property>
 <!-- 指定兩個resourcemanager的名稱 --> 
<property>
<name>yarn.resourcemanager.ha.rm-ids</name>
<value>rm1,rm2</value>
</property>
<!-- 配置rm1，rm2的主機 --> 
<property>
<name>yarn.resourcemanager.hostname.rm1</name>
<value>hadoop01</value>
</property>
<property>
<name>yarn.resourcemanager.hostname.rm2</name>
<value>hadoop03</value>
</property>
<!--開啟yarn恢復機制-->
<property>
<name>yarn.resourcemanager.recovery.enabled</name>
<value>true</value>
</property>
<!--執行rm恢復機制實現類-->
<property>
<name>yarn.resourcemanager.store.class</name>
<value>
org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>
</property>
<!-- 配置zookeeper的地址 --> 
<property>
<name>yarn.resourcemanager.zk-address</name>
<value>hadoop01:2181,hadoop02:2181,hadoop03:2181</value>
</property>
<!-- 指定YARN HA的名稱
     為yarn取一個別名，看日誌可用 -->
<property>
<name>yarn.resourcemanager.cluster-id</name>
<value>yarn-ha</value>
</property>
<property>
<!--指定yarn的老大 resoucemanager的地址
     即哪一個resourcemanager是active狀態-->
<name>yarn.resourcemanager.hostname</name>
<value>hadoop01</value>
</property>
<property>
<!--NodeManager獲取資料的方式-->
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>

vim 置slaves

配置datanode，nodemanager（儲存資料和計算資料的節點資訊）

hadoop01
hadoop02
hadoop03

vim /etc/profile

在檔案末尾新增jdk和hadoop的配置資訊，並執行命令 source /etc/profile 讓配置生效。

注意另外兩臺機器也要執行source命令，使其生效。

#JDK安裝目錄
JAVA_HOME=/usr/java/jdk1.8.0_181-amd64
#hadoop的安裝目錄
HADOOP_HOME=/opt/hadoop-2.7.1
PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export JAVA_HOME PATH CLASSPATH HADOOP_HOME

5、啟動

5.1、先啟動zookeeper叢集

進入zookeeper安裝目錄	cd /opt/zookeeper-3.4.7/bin/
啟動三臺伺服器上的zookeeper	sh zkServer.sh start
全部啟動後檢查各自的狀態	sh zkServer.sh status

5.2、格式化zookeeper

在zookeeper的leader節點上執行命令 hdfs zkfc -formatZK，作用是在zookeeper叢集上生成hadoop-ha節點（ns節點）

5.3、啟動分散式檔案系統

下面步驟可以用一步來替代：start-dfs.sh，第一次建議一步步執行。對應的停止操作為 stop-dfs.sh

啟動journalnode叢集

分別在三臺伺服器上，切換到hadoop安裝目錄的sbin目錄，啟動journalnode sh hadoop-daemon.sh start journalnode 。或者只在一臺機器上執行一次命令： sh hadoop-daemons.sh start journalnode 去啟動配置好的所有journalnode。

格式化hadoop01節點的namenode ： hadoop namenode -format
啟動hadoop01節點的 namenode：sh hadoop-daemon.sh start namenode

把hadoop02節點的namenode配置為 standby，並啟動namenode

配置為standy狀態：hdfs namenode -bootstrapStandby

啟動namenode：sh hadoop-daemon.sh start namenode

啟動datanode

分別在三臺伺服器上執行命令：hadoop-daemon.sh start datanode

啟動失敗恢復程序（zkfc）

在hadoop01，hadoop02節點上執行： hadoop-daemon.sh start zkfc

5.4、啟動MapReduce

在hadoop01節點啟動 ResourceManager（active） start-yarn.sh，該命令會啟動hadoop01節點的 ResourceManager，並根據配置去啟動三個節點的NodeManager。
在hadoop03節點啟動 Resoucemanager（standby） yarn-daemon.sh start resourcemanager

6、訪問

檢視檔案系統：http://192.168.101.100:50070

訪問yarn控制檯：http://192.168.101.100:8088

此時kill掉hadoop01節點的NameNode（active）程序，會發現hadoop02節點的NameNode由standby狀態變為active狀態。由此看出高可用的hdfs搭建成功。

（八）完全分散式模式搭建Hadoop叢集

小技巧：配置好一臺伺服器後，通過 scp -r /opt/zookeeper-3.4.7/ hadoop02:/opt/ 命令，把檔案傳送到另外兩臺機器。 1、搭建方案引入zookeeper，通過註冊臨時節點來監控服務是否掛掉，保證能及時切換到正在執行的服務上，防止單點

獨立模式、偽分佈模式、hbase和hadoop HA（高可用）完全分散式模式。整合配置

一、獨立模式： 1.下載hbase檔案略 2.tar開略 3.配置環境變數略 4.修改配置檔案在hbase安裝目錄下： //配置jdk路徑 [/conf/hbase-env.sh] export JAVA_HOME=/zdq/jdk //配置hbas

Java設計模式（八）Proxy代理模式

com 服務器 exp 技術分享如果 face pub [] his 一、場景描述代理在生活中並不少見，租房子需要找中介，打官司需要找律師，很多事情我們需要找專業人士代理我們做，另一方面，中介和律師也代理了房東、法律程序與我們打交道。當然，設計模式中的代理與廣義的

設計模式（八）裝飾器模式Decorator（結構型）

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

設計模式（八）模板方法模式

老師在黑板上抄題目，我們要先抄題目，再做答案。請把抄題目的程式寫出來。第一版（重複＝易錯＋難改）程式碼結構圖：學生甲抄的試卷類： // 學生甲抄的試卷 class TestPaperA{ // 試題1 public void TestQu

Spring Boot + Spring Cloud 構建微服務系統（八）：分散式鏈路追蹤（Sleuth、Zipkin）

技術背景在微服務架構中，隨著業務發展，系統拆分導致系統呼叫鏈路愈發複雜，一個看似簡單的前端請求可能最終需要呼叫很多次後端服務才能完成，那麼當整個請求出現問題時，我們很難得知到底是哪個服務出了問題導致的，這時就需要解決一個問題，如何快速定位服務故障點，於是，分散式系統呼叫鏈追蹤技術就此誕生了。 ZipKin

Spark（八） -- 使用Intellij Idea搭建Spark開發環境

Intellij Idea下載地址：官方下載選擇右下角的Community Edition版本下載安裝即可本文中使用的是windows系統環境為： jdk1.6.0_45 scala2.10.5 在網上下載jdk和scala的安裝包雙擊執行

Java 設計模式（八）《原型模式》

原型模式原型模式（Prototype Pattern）是用於建立重複的物件，同時又能保證效能。這種型別的設計模式屬於建立型模式，它提供了一種建立物件的最佳方式。所屬型別: 建立型標籤: Java Gang Of Four Difficulty-Be

python爬蟲進階（八）：分散式系統的高可用與高併發處理

一、應對高併發的基本思路 1、加快單機的速度，例如使用Redis，提高資料訪問頻率；增加CPU的核心數，增大記憶體； 2、增加伺服器的數量，利用叢集。二、分散式系統的設計 1、無狀態應用本身沒有狀態，狀態全部通過配置檔案或者叢集的服務端提供並與之同步。比如不同

Java 設計模式（八）觀察者模式

一、定義觀察者模式定義了一個一對多的依賴關係，讓多個觀察者物件同時監聽同一個主題物件。當這個主題狀態發生改變時，會通知所有觀察者物件，讓它們自動更新自己。二、類似場景聊天室程式的建立。伺服器建立好後，A、B、C三個客戶端連線好公開聊天。A向

Hadoop入門系列（一）Window環境下搭建hadoop和hdfs的基本操作

1.去官網下載hadoop。1>選擇映象網站，選清華的映象的網站。2>找個自己喜歡版本的hadoop，下載好將壓縮包解壓。 2.找對應版本的winutil。因為hadoop主要基於linux編寫，這個winutil.exe主要用於模擬linux下的目錄環境。因此h

最詳細的Hadoop+Hbase+Hive完全分散式環境搭建教程（二）

繼續上次的教程，這次安裝hbase與hive 一、hbase2.1.1安裝在master節點： $ tar -zxvf hbase-2.1.1-bin.tar.gz -C /opt $ cd /opt/hbase-2.1.1/conf/ $ vi hbase-

從零搭建生產Hadoop叢集（八）——上線與下線資料節點流程

一、概述 Hadoop叢集中，經常需要在不重啟叢集的前提下，動態地上線與下線資料節點，而使用Cloudera Manager管理的叢集，可以很方便地做到這一點，本文將介紹其相關流程。二、節點上線流程 1. 伺服器初始化新節點的硬體配置最好能夠跟原叢集伺服器

CentOs7搭建hadoop叢集（偽分散式）下

在yarn-site.xml新增 ` <property> <name>yarn.nodemanager.vmem-check-enabled</name&

Hadoop實戰（1）_阿里雲搭建Hadoop2.x的偽分散式環境

環境：阿里雲伺服器 CentOS 7 x86_64 安裝介質：jdk-7u75-linux-i586.tar.gz，hadoop-2.4.1.tar.gz 安裝jdk tar -zxvf jdk-7u75-linux-i586.tar.gz 配置

Hadoop 系列（八）—— 基於 ZooKeeper 搭建 Hadoop 高可用叢集

一、高可用簡介 Hadoop 高可用 (High Availability) 分為 HDFS 高可用和 YARN 高可用，兩者的實現基本類似，但 HDFS NameNode 對資料儲存及其一致性的要求比 YARN ResourceManger 高得多，所以它的實現也更加複雜，故下面先進行講解： 1.1 高可用

設計模式學習總結（八）策略模式(Strategy)

isp 筆記本 override div ont 角色 write stat 通過　　策略模式，主要是針對不同的情況采用不同的處理方式。如商場的打折季，不同種類的商品的打折幅度不一，所以針對不同的商品我們就要采用不同的計算方式即策略來進行處理。　　一、示例展示：　　以

《Android源代碼設計模式解析與實戰》讀書筆記（八）

code androi nal clas 函數轉發類和對象 cti comment 第八章、狀態模式 1.定義狀態模式中的行為是由狀態來決定，不同的狀態下有不同的行為。當一個對象的內在狀態改變時同意改變其行為，這個對象看起來像是改變了其類。

設計模式（十八）---模板方法模式

strac string package style prim res 不同的好的 clas 1、簡介　　模板方法模式是類的行為模式。準備一個抽象類，將部分邏輯以具體方法以及具體構造函數的形式實現，然後聲明一些抽象方法來迫使子類實現剩余的邏輯。　　不同的子類可以以不同

設計模式（十八）——職責鏈模式

設計模式職責鏈模式設計模式（十八）——職責鏈模式一、職責鏈模式簡介1、職責鏈模式簡介職責鏈模式（Chain Of Responsibility）使多個對象都有機會處理請求，從而避免請求的發送者和接收者之間的耦合。將可能處理請求的對象連成一條鏈，並沿著這條鏈傳遞請求，直到有一個對象處理請求為止。2、職責連模式

（八）完全分散式模式搭建Hadoop叢集

1、搭建方案

2、環境準備

3、zookeeper叢集搭建

4、hadoop叢集搭建

5、啟動

5.1、先啟動zookeeper叢集

5.2、格式化zookeeper

5.3、啟動分散式檔案系統

5.4、啟動MapReduce

6、訪問

相關推薦