1. 程式人生 > >我的Hadoop大資料叢集搭建經歷 (Hadoop 2.6.0 & VMWare WorkStation 11)

我的Hadoop大資料叢集搭建經歷 (Hadoop 2.6.0 & VMWare WorkStation 11)

centos 6.6 i386 dvd ; basic server installation ; not enable static ip ; not disable ipv6

vmware net model is NAT , subNet Ip : 192.168.5.0 , ip begin with 192.168.5.141

hostname : vmhost-1  ;  root password : 123456

rm ~/* -f ; delete some logs in home dir

vi /boot/grub/grub.conf ; delete 'rhgb quiet' two words

vi /etc/sysconfig/network-scripts/ifcfg-eth0 ; ONBOOT=yes

service network start

yum install -y ntpdate

ntpdate cn.pool.ntp.org

rpm -qa | grep java

rpm -qa | grep java | awk '{print system{"rpm -e"$1}}'

useradd hadopp

passwd hadoop ; hadoop hadoop

logout

login : hadoop ; password : hadoop

mkdir download software ; in home dir

su - root ; 123456

vi /etc/sudoers ; /root yy p root-->hadoop ; wq!

vi /etc/hosts ; depends on real ip
192.168.5.141    vmhost-1
192.168.5.142    vmhost-2
192.168.5.143    vmhost-3
192.168.5.144    vmhost-4

exit

sudo /etc/init.d/sshd start ; hadoop

cd /etc/yum.repos.d/

sudo wget http://download.opensuse.org/repositories/home:Strahlex/CentOS_CentOS-6/home:Strahlex.repo

sudo yum install -y sshpass

securecrt ; connect SFTP session ; cd download ; put path/to/hadoop,jdk,zookeeper

sudo rpm -i jdk-7u71-linux-i586.rpm ; hadoop

tar -zxvf ~/download/hadoop-2.6.0.tar.gz -C ~/software

tar -zxvf ~/download/zookeeper-3.4.6.tar.gz -C ~/software

cp /usr/share/vim/vim72/vimrc_example.vim ~/.vimrc

vi ~/.vimrc ; set nu ; set tabstop=4 ; set nobackup

rm ~/.vimrc~

vi ~/.bashrc
export JAVA_HOME=/usr/java/jdk1.7.0_71
export HADOOP_HOME=/home/hadoop/software/hadoop-2.6.0
export ZOOKEEPER_HOME=/home/hadoop/software/zookeeper-3.4.6

source ~/.bashrc

mkdir zookeeper-data ; in home dir

cd ~/zookeeper-data ; mkdir data ; mkdir log

mkdir hadoop-data ; in home dir

cd ~/hadoop-data ; mkdir tmp ; mkdir hdfs ; cd hdfs ; mkdir name data journal

cd ~/software/zookeeper-3.4.6/conf

cp zoo_sample.cfg zoo.cfg
dataLogDir=/home/hadoop/zookeeper-data/log
server.1=vmhost-1:2888:3888
server.2=vmhost-2:2888:3888
server.3=vmhost-3:2888:3888

vi ~/zookeeper-data/data/myid ; i 1 :wq

cd ~/software/hadoop-2.6.0/etc/hadoop

vi slaves
vmhost-1
vmhost-2
vmhost-3
vmhost-4

cp core-site.xml core-site.xml-bak

cp hdfs-site.xml hdfs-site.xml-bak

cp yarn-site.xml yarn-site.xml-bak

securecrt ; connect SFTP session ; cd software/hadoop-2.6.0/etc/hadoop/

put /path/to/xmls/*.xml

vi core-site.xml ; config tmp.dir zookeeper.quorum

vi hdfs-site.xml ; config hostname dirs ; !!! Note : host-3 host-4 enable cluster2 after cloned VMs.

vi yarn-site.xml ; config hostname

clone the virtual machine 1 to 2,3,4

start VM 1, 2, 3, 4 must in order at anytime

# 2, 3, 4 every , must in order
sudo vi /etc/sysconfig/network ;  modify hostname
sudo vi /etc/udev/rules.d/70-persistent-net.rules ; modify eth0
sudo vi /etc/sysconfig/network-scripts/ifcfg-eth0 ; modify HWaddr
vi ~/zookeeper-data/data/myid ; r 2 | 3 | 4 :wq
reboot

have not set static ip , must start up machines in order.

# 1, 2, 3, 4 every , must in order
ssh-keygen -t rsa -C mail-(1,2,3,4)@dean.org ; enter ; enter ; enter
all done in 1, 2, 3, 4 then
ssh-copy-id -i ~/.ssh/id_rsa.pub
[email protected]


# 1
scp ~/.ssh/authorized_keys [email protected]:/home/hadoop/.ssh/
scp ~/.ssh/authorized_keys [email protected]:/home/hadoop/.ssh/
scp ~/.ssh/authorized_keys [email protected]:/home/hadoop/.ssh/

# 1, 2, 3, 4 every ; ssh access another every machine
ssh vmhost-(1,2,3,4)
ssh 192.168.5.14(1,2,3,4)

# 1, 2, 3, 4 every
sudo iptables -F
sudo chkconfig --level 35 iptables off

# blow all in home dir executes
# 1, 2, 3 ; zookeeper.out will be in home dir
zkServer.sh start
zkServer.sh status

# 1
zkCli.sh or zkCli.sh -server vmhost-1:2181

# 1, 3
hdfs zkfc -formatZK

# 1
zkCli.sh -server vmhost-1:2181 ; ls /

# 2, 3, 4
hadoop-daemon.sh start journalnode
or on 2 | 3 | 4 hadoop-daemons.sh --hosts allnodehosts start journalnode

# 1
hdfs namenode -format -clusterId Federation
hadoop-daemon.sh start namenode

# 2
hdfs namenode -bootstrapStandby
hadoop-daemon.sh start namenode

# 3
hdfs namenode -format -clusterId Federation
hadoop-daemon.sh start namenode

# 4
hdfs namenode -bootstrapStandby
hadoop-daemon.sh start namenode

# 1, 2, 3, 4
hadoop-daemon.sh start datanode
or on 1 | 2 | 3 | 4 hadoop-daemons.sh start datanode

# 1, 2, 3, 4
hadoop-daemon.sh start zkfc

# 1, 3
start-yarn.sh

-----------------------some useful link show status------------------------------

http://192.168.5.141:50070/dfshealth.html
http://192.168.5.142:50070/dfshealth.html
http://192.168.5.143:50070/dfshealth.html
http://192.168.5.144:50070/dfshealth.html
http://192.168.5.141:8042/node
http://192.168.5.143:8042/node
http://192.168.5.143:8088/cluster

-------------------------------administration command-----------------------------------------------

hadoop fs -ls /

hdfs haadmin -ns hadoop-cluster1 -transitionToActive nn1 ??

hdfs dfsadmin -printTopology ??

hadoop fs -mkdir hdfs://192.168.1.201:9000/cluster-01 \
hadoop fs -mkdir hdfs://192.168.1.203:9000/cluster-02  | ??
hadoop fs -mkdir hdfs://192.168.1.201:9000/user       /

------------------not do yet-----------------!!!----------------

yarn-daemon.sh start nodemanager
yarn-daemon.sh start resourcemanager
yarn-daemon.sh start proxyserver
mr-jobhistory-daemon.sh start historyserver

$ hostname   #檢視host名字
cluster1
$ sbin/hadoop-daemon.sh --script hdfs start namenode  # 啟動namenode
$ sbin/hadoop-daemon.sh --script hdfs start datanode  # 啟動datanode
$ sbin/yarn-daemon.sh start nodemanager  #啟動nodemanager
$ sbin/yarn-daemon.sh start resourcemanager # 啟動resourcemanager
$ sbin/yarn-daemon.sh start proxyserver  #啟動web App proxy, 作用類似jobtracker,若yarn-site.xml裡沒有設定yarn.web-proxy.address的host和埠,或者設定了和resourcemanager相同的host和埠,則hadoop預設proxyserver和resourcemanager共享host:port
$ sbin/mr-jobhistory-daemon.sh start historyserver  #你懂得
$ ssh cluster2  #登入cluster2
$ hostname  #檢視host名字cluster2
$ sbin/yarndaemon.sh start nodemanager  # 啟動nodemanager
$ sbin/hadoop-daemon.sh  --script hdfs start datanode  # 啟動datanode
$ ssh cluster3  #登入cluster3...# cluster2, cluster3, cluster4啟動方式和cluster2一樣。

--
$ sbin/hadoop-daemons.sh--hosts namenodehosts --script  hdfsstart  namenode
$ sbin/hadoop-daemons.sh--hosts datanodehosts --script  hdfsstart  datanode
$ sbin/yarn-daemons.sh--hostnames cluster1 start resourcemanager
$ sbin/yarn-daemons.sh--hosts allnodehosts start nodemanager
$ sbin/yarn-daemons.sh--hostnames cluster1 start proxyserver
$ sbin/mr-jobhistory-daemon.sh   start  historyserver

---------------clean up when zookeeper start failed------------------------------------

# clean up ; $PWD is home dir
rm zookeeper.out \
rm zookeeper-data/data/version-2/ zookeeper-data/data/zookeeper_server.pid -rf \
rm zookeeper-data/log/version-2 -rf

----------compile hadoop from src------can do before clone VMs--------------------------------------

sudo yum install -y gcc-c++ ; protobuf compile

sudo yum install -y gcc cmake zlib-devel openssl-devel ; hadoop compile

get maven.tar.gz , put it in ~/download dir

tar -zxvf ~/download/maven.tar.gz -C ~/software

vi ~/.bashrc ; add M2_HOME ; add M2_HOME/bin to PATH ; source ~/.bashrc

get protobuf.tar.gz , put it in ~/download dir

tar -zxvf ~/download/protobuf-xxx.tar.gz -C ~/software

cd ~/software/protobuf-xxx

./configure ; make ; make check ; sudo make install

get hadoop-xx.src.tar.gz , put it in ~/download dir

mkdir ~/sourceCode

tar -zxvf ~/download/hadoop-xx.src.tar.gz -C ~/sourceCode

cd ~/sourceCode/hadoop-xxx-src

mvn package -Pdist,native -DskipTests -Dtar

cd hadoop-dist/target/hadoop-2.6.0/lib/native/

cp -f * /home/hadoop/software/hadoop-2.6.0/lib/native/

scp *
[email protected]
(2,3,4):/home/hadoop/software/hadoop-2.6.0/lib/native/

!! result : the warning of 'execstack -c <lib path>' never appear , but some command becomes slowly

-------------------some common software package-----------------

sudo yum install -y tree

--------------------some stastics information , daemon threads of four virtual machines--------------------------
1:|QuorumPeerMain|ResourceManager   |DFSZKFailoverController  |DataNode  |NameNode  |NodeManager  |
2:|QuorumPeerMain        |                                     |DFSZKFailoverController  |DataNode  |NameNode  |NodeManager  |JournalNode
3:|QuorumPeerMain        |ResourceManager   |DFSZKFailoverController  |DataNode  |NameNode  |NodeManager  |JournalNode

4:|                                        |                                     |DFSZKFailoverController  |DataNode  |NameNode  |NodeManager  |JournalNode

修改過vmhost-1上的配置檔案,建議備份 一份。

Hadoop的Demo配置檔案在這裡

後續後新增文字詳細描述搭建過程,見諒

相關推薦

Hadoop資料叢集搭建經歷 (Hadoop 2.6.0 & VMWare WorkStation 11)

centos 6.6 i386 dvd ; basic server installation ; not enable static ip ; not disable ipv6 vmware net model is NAT , subNet Ip : 192.168.5

從零開始的Hadoop資料叢集(偽)搭建,全免費VirtualBox虛擬機器Ubuntu版,學習向,超詳細---(一)

     在公司工作了一段時間了,大資料平臺都是公司的運維人員搭建維護的,自己也想親自搭建一套,純粹為了學習和提高自己,也為了以後自己研究用。公司的環境不太適合亂來,自己的就可以隨意玩了。     寫這個也是為了記錄自己學習的過程,同時給大家提供一個參考,想要學習大資料的也

記一次hadoop資料叢集生產事故

陸續對原有的hadoop、hbase叢集做了擴容,增加了幾個節點,中間沒有重啟過,今天早上發現一個hregionserver服務停止了,就先啟動服務,沒想到啟動之後一直有訪問資料的出錯,嘗試對整個hbase叢集進行重啟出現了下面的錯誤: $ start-hbase.sh master running

資料平臺搭建hadoop+spark)

一.基本資訊 1. 伺服器基本資訊 主機名 ip地址 安裝服務 spark-master 172.16.200.81 jdk、hadoop、spark、scala spark-slave01 172.16.200.82 jd

Spark、Hadoop資料平臺搭建

下載安裝包 Spark 分散式計算 spark-2.3.2-bin-hadoop2.7,安裝包大小:220M 支援Hadoop 2.7以後的版本 Scala Scala環境,Spark的開發語言 scala-2.12.8.tgz,安裝包大小:20M Hadoo

雲端計算與資料 叢集搭建 學習筆記

雲集群的搭建 一、虛擬機器設定:   1.開啟ESXI虛擬機器;(本人所用)   2.網路設定為橋接模式   3.按F2設定系統,輸入密碼   4.Restart Manangement Network   5.esc 退出 加硬碟:   1.開啟虛擬機器給出的ip地址,檢視VWware ES

資料叢集搭建之節點的網路配置過程(二)

緊接著上一章來設定windows的vmnet8的ip地址和虛擬機器中centos的ip地址。 NAT虛擬網路的配置圖如下圖所示: 1、這裡根據VMware中得到的閘道器地址去設定vmnet8的ip地址。 閘道器地址檢視: 2、得到的閘道器地址後去

資料叢集搭建之環境準備(虛擬機器)

以虛擬機器環境測試的 物理機不一定適用 系統是Centos7的 1、配置靜態ip vim /etc/sysconfig/network-scripts/ifcfg-ens33 ONBOOT=yes BOOTPROTO=static IPADDR=192.168.

資料叢集搭建基本配置說明

大資料發展愈演愈烈,為了快速跟上技術發展的步伐,最近在學習大資料的相關技術,當然第一步,還是要學習大資料叢集的搭建,將自己的一些小經驗分享給大家,希望對你們有幫助,當然也感謝在我學習的過程,提供資料和幫助的科多大資料的餘老師,話不多說,先上圖偽分佈:只有一臺主要用搭建偽分散式

資料叢集搭建伺服器配置

剛接觸大資料的時候,首先是想辦法搭叢集,而是在伺服器配置上,總會出現很多問題,今天我將我將我在科多大資料配置伺服器的經驗分享給大家,希望對你們有幫助1、準備四臺主機ip地址  主機名192.168.200.151    kd01 2G192.168.200.152    kd

資料叢集搭建和使用之八——kafka配置和使用

這個系列指南使用真實叢集搭建環境,不是偽叢集,用了三臺騰訊雲伺服器 或者訪問我的個人部落格站點,連結 Kafka 配置 kafka依賴zookeeper,所以先確保叢集已經安裝zookeeper並且能夠正常啟動。 浪費了一整天的時間deb

資料入門(14)hadoop+yarn+zookeeper叢集搭建

1、右鍵clone虛擬機器,進入圖形介面,修改虛擬機器ip即可,相關環境變數配置都存在 2、叢集規劃:(必須設定主機名,配置主機名和ip的對映關係,每個檔案都需要配置對映關係)     主機名       &

資料Hadoop學習(環境配置)——Hadoop偽分散式叢集搭建

title: Hadoop偽分散式叢集搭建 date: 2018-11-14 15:17:20 tags: Hadoop categories: 大資料 點選檢視我的部落格: Josonlee’s Blog 文章目錄 前言準備 偽分

資料技術】1.hadoop叢集搭建

近年來,大資料技術越來越吃香,也是追求高薪的必備技能之一。 近些日子,打算技術轉型,開始研究大資料技術,基於對JAVA、LINUX系統有一定的基礎,完成hadoop叢集搭建(1個master和1個slave)。 一、準備工具 VMvare、centOS6.3、SSH Secure客戶端(

資料面試題之Hadoop叢集搭建步驟

一、開啟需要搭建Hadoop叢集的主從節點伺服器 ,配置好靜態IP、主機名hostname、主機IP對映檔案hosts、關掉防火牆二、通過遠端登入工具(我用的是SecureSRT) 登入到Linux系統,登入前需要在Windows系統中C:\Windows\System32\

hadoop spark 資料叢集環境搭建(一)

大資料雲端計算現在比較熱門,未來的一個發展方向,在此分享下技術,有不對的地方歡迎指出 1、軟體環境(會分享到網盤) centos6.5 jdk1.7 hadoop2.4.1(這裡只用到hdfs,namenode不走ha) zookeeper3.4.5 spark1.3.0

docker部署分散式資料叢集hadoop、spark、hive、jdk、scala、

(一)1 用docker建立映象並搭建三個節點容器的hadoop及spark服務 包括:mysql,hadoop,jdk,spark,hive,scala,sqoop docker已經安裝並且啟動 #搜尋centos映象: docker search centos #拉取

資料學習系列之一 ----- Hadoop環境搭建(單機)

一、環境選擇 1,伺服器選擇 阿里雲伺服器:入門型(按量付費) 作業系統:linux CentOS 6.8 Cpu:1核 記憶體:1G 硬碟:40G ip:39.108.77.250 2,配置選擇 JDK:1.8 (jdk-8u144-linux-x64.tar.gz

0基礎搭建Hadoop資料處理-程式設計

Hadoop的程式設計可以是在Linux環境或Winows環境中,在此以Windows環境為示例,以Eclipse工具為主(也可以用IDEA)。網上也有很多開發的文章,在此也參考他們的內容只作簡單的介紹和要點總結。 Hadoop是一個強大的並行框架,它允許任務在

資料入門——搭建Hadoop處理環境

由於Hadoop需要執行在Linux環境中,而且是分散式的,因此個人學習只能裝虛擬機器,本文都以VMware Workstation為準,安裝CentOS7,具體的安裝此處不作過多介紹,只作需要用到的知識介紹。 VMware的安裝,裝好一個虛擬機器後利用複製虛擬機器的方式建立後面幾個虛擬機器,省時省力,需要