搭建完全分散式hadoop叢集

阿新 • • 發佈：2019-02-02

1. 建立master和3個slave

建立4個host，分別定義hostname為master、slave1、slave2、slave3，檢查4個host的ip地址，確保所有主機均處於1個閘道器，在hosts中配置4個主機的ip地址和hostname，並確保能夠相互ping通

127.0.0.1       localhost

192.168.1.100   master
192.168.1.101   slave1
192.168.1.102   slave2
192.168.1.103   slave3

2. 關閉防火牆

關閉防火牆

sudo systemctl stop firewalld.service

禁用防火牆

sudo systemctl disable firewalld.service

檢視防火牆狀態

firewall-cmd --state

重啟主機

3. 定義ssh免密登入

在root使用者下修改 /etc/ssh/sshd_config，設定以下三項後執行 service sshd restart

RSAAuthentication yes
PubkeyAuthentication yes
AuthorizedKeysFile      .ssh/authorized_keys

確保每臺主機均安裝並啟動了ssh服務，在master主機上生成ssh祕鑰對，並將其的公鑰匯入到每臺主機的authorized_keys中。並且在centos下，需要將authorized_keys檔案的許可權改為644。

4. 3臺主機均建立haddoop使用者，並給這個使用者新增sudo許可權

sudo su
useradd -m hadoop
passwd hadoop
#新增sudo許可權
visudo
#在改行root ALL=(ALL)ALL下新增hadoop ALL=(ALL)ALL 儲存並退出，並且換到hadoop使用者
su hadoop

5. jdk及hadoop安裝

安裝步驟及環境變數配置同偽分散式，每臺主機均需執行

6. 配置hadoop檔案

先在master上配置，配置完成後再拷貝至其他主機

core-site.xml 不配置埠時預設為8020

<configuration>
　　<property>
　　　　<name>fs.default.name</name>
　　　　<value>hdfs://master:9000</value>
　　</property>
　　<property>
　　　　<name>hadoop.tmp.dir</name>
　　　　<value>file:/home/hadoop/hadoop/tmp</value>
　　</property>
</configuration>

hdfs-site.xml

注意配置的路徑是否擁有讀寫許可權，當路徑配置在根目錄下的資料夾時(如 /usr)，需要更改該資料夾的讀寫許可權

sudo chmod -R a+w /usr

<configuration>
　　<property>
　　　　<name>dfs.replication</name>
　　　　<value>2</value>
　　</property>
　　<property>
　　　　<name>dfs.namenode.name.dir</name>
　　　　<value>file:/home/hadoop/hadoop/tmp/dfs/name</value>
　　</property>
　　<property>
　　　　<name>dfs.datanode.data.dir</name>
　　　　<value>file:/home/hadoop/hadoop/tmp/dfs/data</value>
　　</property>
　　<property>
　　　　<name>dfs.namenode.secondary.http-address</name>
　　　　<value>master:9001</value>
　　</property>
</configuration>

mapred-site.xml

<configuration>
　　<property>
　　　　<name>mapreduce.framework.name</name>
　　　　<value>yarn</value>
　　</property>
</configuration>

yarn-site.xml

<configuration>
　　<property>
　　　　<name>yarn.resourcemanager.hostname</name>
　　　　<value>master</value>
　　</property>
　　<property>
　　　　<name>yarn.nodemanager.aux-services</name>
　　　　<value>mapreduce_shuffle</value>
　　</property>
　　<property>
　　　　<name>yarn.log-aggregation-enable</name>
　　　　<value>true</value>
　　</property>
　　<property>
　　　　<name>yarn.log-aggregation.retain-seconds</name>
　　　　<value>604800</value>
　　</property>
</configuration>

配置slaves

slave1
slave2

7. hadoop啟動

同偽分散式操作

hadoop namenode -format
start-dfs.sh
start-yarn.sh

如果報permission denied，將hadoop目錄許可權改為 a+w

sudo chmod -R a+w /soft/hadoop

如果出現ssh連線慢或警告

Are you sure you want to continue connecting (yes/no)? The authenticity of host 's204 (192.168.242.131)' can't be established.

可以在master上對每臺主機執行

ssh -o "StrictHostKeyChecking no" [email protected]

並修改配置檔案 /etc/ssh/ssh_config

Host *
   StrictHostKeyChecking no
   UserKnownHostsFile=/dev/null

8. hadoop叢集測試

執行wordcount測試hadoop叢集

在當前目錄下建立檔案README.txt，在其中隨意貼上一段英文。

在hdfs中建立一個工作目錄

hdfs dfs -mkdir -p /data/input

將當前目錄下的README.txt推送到hdfs檔案系統中

hdfs dfs -put README.txt /data/input

檢視是否推送成功

hdfs dfs -ls /data/input

執行hadoop自帶的例子

hadoop jar /soft/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar wordcount /data/input /data/output/result

檢視執行結果

hdfs dfs -cat /data/output/result/part-r-00000

三臺阿里雲伺服器搭建完全分散式hadoop叢集並實現sparkstreaming詳細步驟

本文基於三臺阿里雲ECS例項搭建完全分散式hadoop叢集，並整合flume + kafka + sparkstreaming實現實時流處理。詳細步驟會在本文後續一一寫出，包括在搭建叢集過程中遇到的坑以及應對辦法。前言三臺ECS主機的規劃如下：外網ip

阿里雲三臺節點，搭建完全分散式hadoop叢集,超簡單

完全分散式的安裝 1、叢集規劃角色分配 NODE-47 NODE-101 NODE-106 HDFS Namenode Datanode Secondary

搭建完全分散式hadoop叢集

1. 建立master和3個slave 建立4個host，分別定義hostname為master、slave1、slave2、slave3，檢查4個host的ip地址，確保所有主機均處於1個閘道器，在hosts中配置4個主機的ip地址和hostname，並確保能夠相互pin

完全分散式Hadoop叢集的安裝搭建和配置（4節點）

Hadoop版本：hadoop-2.5.1-x64.tar.gz 學習參考了給力星http://www.powerxing.com/install-hadoop-cluster/的兩個節點的hadoo

ubuntu 虛擬機器完全分散式 hadoop叢集搭建 hive搭建 ha搭建

針對分散式hadoop叢集搭建，已經在四臺虛擬機器上，完全搭建好，這裡針對整個搭建過程以及遇到的問題做個總結，按照下面的做法應該能夠比較順暢的搭建一套高可用的分散式hadoop叢集。這一系列分散式元件的安裝過程中，大體可以分為以下幾步：第一步.配置機器互信機器互

大資料之（1）Centos7上搭建全分散式Hadoop叢集

本文介紹搭建一個Namenode兩個DataNode的Hadoop全分散式叢集的全部步驟及方法。具體環境如下：一、環境準備 3個Centos7虛擬機器或者3個在一個區域網內的實際Centos7機器，機器上已安裝JDK1.8，至於不會安裝Centos7或者JDK1.8的同

【大資料】安裝完全分散式Hadoop叢集

修改主機名和網路 master： #hostnamectl set-hostname master #vi /etc/sysconfig/network-scripts/ifcfg-ens33 TYPE=Ethernet PROXY_METHOD=none BR

搭建完全分散式redis叢集

這裡用三臺伺服器搭建一個完全分散式redis叢集，用來做爬蟲請求url的共享佇列.每臺伺服器建立兩個節點（一個master 一個slave），當mater掛了的時候slave會頂上去，這樣就構成了一個三主三從的叢集。三臺伺服器：host1 host2 host3 6379

三臺阿里雲伺服器搭建完全分散式hadoop

1.準備工作：jdk安裝（個人選擇的1.8版本） 2.ssh免密登陸：關閉放火牆（可以將要開放的埠加入防火牆的開發埠中，學習用就直接關閉防火牆了）： 1）關閉firewall： systemctl stop firewalld.service #停止firewa

VirtualBox+Centos7+(jdk1.7.0_71+Hadoop-2.6.0)/(jdk1.10+Hadoop-2.9.1)搭建完全分散式叢集平臺

VirtualBox+Centos7+(jdk1.7.0_71+Hadoop-2.6.0)/(jdk1.10+Hadoop-2.9.1)搭建完全分散式叢集平臺本文有很多是自定義的，可以根據自己的實際情況和需求修改，儘量會用紅色標註出來，當然按照步驟，一步一步應該也能成功，不

【完全分散式Hadoop】（三）叢集設定SSH無密碼登陸

之前的文章已經有SSH免密部分，這裡單獨列出來只是為了方便查詢打通SSH，設定ssh無密碼登陸（所有節點）組建了三個節點的叢集hadoop000、hadoop001、hadoop002 在所有節點上執行 ssh-keygen -t rsa 一路回車，生成無密碼的金鑰對。將各個節點的公鑰

基於偽分散式hadoop搭建完全分散式

上篇部落格中，我們搭建了單機版和偽分散式版的hadoop。但是在真正的開發中都是用的完全分散式hadoop環境。因此今天我們就來搭建一下完全分散式hadoop環境。前提:有四臺解壓了hadoop和javajdk，且其中一臺作為namenode需要已經搭建成了偽分散式，其他三臺作為data

Hadoop之搭建完全分散式執行模式

一、過程分析　　1、準備3臺客戶機（關閉防火牆、修改靜態ip、主機名稱）　　2、安裝JDK 　　3、配置環境變數　　4、安裝Hadoop 　　5、配置叢集　　6、單點啟動　　7、配置ssh免密登入　　8、群起並測試叢集二、編寫叢集分發指令碼 xsync 1、s

搭建偽分散式和叢集hadoop

親測了幾位博主的部落格，有效。感謝博主分享偽分散式：http://www.powerxing.com/install-hadoop/ #叢集式： https://blog.csdn.net/weixin_42490528/article/details/80752351 http://

8.Hadoop的學習(Hadoop的配置--搭建完全分散式)

搭建偽分散式請檢視本部落格https://blog.csdn.net/wei18791957243 裡面的三個搭建偽分散式的部落格前提是偽分散式可以正常啟動。點開虛擬機器上邊的選單欄中的虛擬機器內的快照功能。（快照：可以及時儲存當前操

Hadoop搭建完全分散式環境

在搭建叢集中，常見的錯誤 1)格式化首先要記住，不要頻繁的格式化namenode, 如果非要格式化namenode,先刪除tmp目錄中的內容，清空之前，最好把所有的程序jps 中的殘存的服務關掉，如果不關閉的話會存在遺留的程序，就有可能佔用之前的埠號。 2）埠可能被佔用 3）避免多使

完全分散式HDFS叢集搭建

完全分散式HDFS叢集，是一個真正的分散式叢集，主要角色有NameNode，SecondaryNameNode，DataNode 叢集規劃： NN SNN DN node01 * node02 * * node03 * n

利用hadoop-2.5.0-cdh5.3.6版本，搭建完全分散式HA詳細記錄（怕忘）

我就按照自己的思路寫，可能步驟不一定正確1、在搭建完全分散式叢集時，首先要保證我們的三臺機子的時間同步，所以我們需要同步一臺時間伺服器，我的三臺虛擬機器分別為如下hostname-->make.hadoop.com 第一臺-->make.hadoo

【完全分散式Hadoop】（四）新建hadoop使用者以及使用者組，並賦予sudo免密碼許可權

搭建hadoop叢集環境不僅master和slaves安裝的hadoop路徑要完全一樣，也要求使用者和組也要完全一致。因此第一步就是新建使用者以及使用者組。對於新手來言，新建使用者使用者組，並賦予適當的許可權無疑是最大的問題。下面請跟隨我來新建使用者以及使用者組並賦予root許可權。

【完全分散式Hadoop】（二）HDFS、YARN以及HA高可用概念介紹

一、HDFS-Hadoop分散式檔案系統 HDFS 採用Master/Slave的架構來儲存資料，這種架構主要由四個部分組成，分別為HDFS Client、NameNode、DataNode和Secondary NameNode。下面我們分別介紹這四個組成部分 1、Client：就

搭建完全分散式hadoop叢集

1. 建立master和3個slave

2. 關閉防火牆

3. 定義ssh免密登入

4. 3臺主機均建立haddoop使用者，並給這個使用者新增sudo許可權

5. jdk及hadoop安裝

6. 配置hadoop檔案

7. hadoop啟動

8. hadoop叢集測試

相關推薦