hadoop-2.6.0-cdh5.4.5.tar.gz(CDH)的3節點叢集搭建(含zookeeper叢集安裝）

前言

附連結如下：

　　http://blog.csdn.net/u010270403/article/details/51446674

關於幾個疑問和幾處心得！

a.用NAT，還是橋接，還是only-host模式？

b.用static的ip，還是dhcp的？

答：static

c.別認為快照和克隆不重要，小技巧，比別人靈活用，會很節省時間和大大減少錯誤。

d.重用起來指令碼語言的程式設計，如paython或shell程式設計。

　對於用scp -r命令或deploy.conf（配置檔案），deploy.sh（實現檔案複製的shell指令碼檔案），runRemoteCdm.sh(在遠端節點上執行命令的shell指令碼檔案)。

e.重要Vmare Tools增強工具，或者，rz上傳、sz下載。

f.大多數人常用

　用到的所需：

　　1、VMware-workstation-full-11.1.2.61471.1437365244.exe

　　2、CentOS-6.5-x86_64-bin-DVD1.iso

　　3、jdk-7u69-linux-x64.tar.gz

　　4、hadoop-2.6.0-cdh5.4.5.tar

　　5、apache-cassandra-2.2.1-bin.tar.gz

　　6、apache-flume-1.6.0-bin.tar.gz

　　7、apache-tomcat-7.0.65.tar.gz

　　8、flume-ng-1.5.0-cdh5.4.5.tar.gz

　　9、hbase-1.0.0-cdh5.4.5.tar.gz

　　10、hive-1.1.0-cdh5.4.5.tar.gz

　　11、protobuf-2.5.0.tar.gz

　　12、sqoop-1.4.5-cdh5.4.5.tar.gz

　　13、zookeeper-3.4.5-cdh5.4.5.tar.gz

　機器規劃：

　　192.168.80.11 ---------------- CDHNode1

　　192.168.80.12 ---------------- CDHNode2

　　192.168.80.13 ---------------- CDHNode3

目錄規劃：

　1、安裝目錄：

　　　　　　/home/hadoop/app/

　2、資料存放目錄：

　　　　　　dfs.namenode.name.dir ---file:/home/hadoop/data/name //存放元資料

　　　　　　dfs.datanode.data.dir ---file:/home/hadoop/data/datanode //datanode資料存放目錄

　　　　　　dfs.namenode.edits.dir---file:/home/hadoop/data/hdfs/edits //存放編輯日誌

　　　　　　dfs.journalnode.edits.dir--/home/hadoop/data/journaldata/jn //存放編輯日誌同步資料

　　　　　　dfs.hosts.exclude--/home/hadoop/app/hadoop-2.6.0-cdh5.4.5/etc/hadoop/excludes //它是一個檔案排除host

3、程序pid:

　　　　　　export HADOOP_PID_DIR=/home/hadoop/data/pid //儲存hadoop 常駐程序pid

　　　　　　export HADOOP_SECURE_DN_PID_DIR=/home/hadoop/data/pid //datanode程序 pid

4、臨時目錄：

　　　　　　/home/hadoop/data/tmp

　　第一步：安裝VMware-workstation虛擬機器，我這裡是VMware-workstation11版本。

　　詳細見 ->

　　第二步：安裝CentOS系統，我這裡是6.6版本。推薦（生產環境中常用）

　　　　詳細見 ->　　

第三步：VMware Tools增強工具安裝

　　　　詳細見 ->

　　第四步：準備小修改（學會用快照和克隆，根據自身要求情況，合理位置快照）　

　　　　詳細見 ->　　　

　　　　1、ssh的安裝（SSH安裝完之後的免密碼配置，放在後面）

　　　　2、靜態IP的設定

　　　　3、hostname和/etc/hosts

　　　　4、永久關閉防火牆

　　　　5、時間同步

1 軟體環境準備

2 主機規劃

由於我要安裝3個節點的叢集環境，所以我們分配好ip地址和主機功能

CDHNode1 /192.168.80.11	CDHNode2 /192.168.80.12	CDHNode3 /192.168.80.13
namenode	是	是	否
datanode	否	是	是
resourcemanager	是	是	否
journalnode	是	是	是
zookeeper	是	是	是
日誌採集伺服器	是	是	否
採集伺服器負載均衡	是	是	是
目標網站（web）程式	是	否	是

注意：Journalnode和ZooKeeper保持奇數個，最少不少於 3 個節點。

3 CDHNode1、CDHNode2、CDHNode3的靜態IP、網路配置、主機名、使用者名稱和使用者組

1、 CDHNode1、CDHNode2、CDHNode3的Linux安裝省略，不再贅述。

2、 CDHNode1、CDHNode2、CDHNode3的靜態IP、網路配置、主機名、使用者名稱、使用者組

groupadd hadoop 建立hadoop使用者組

useradd -m -g hadoop hadoop 新建hadoop使用者並增加到hadoop使用者組中

passwd hadoop hadoop使用者密碼，為hadoop

‘’

4 、目錄規劃、下載必備軟體

目錄規劃

1、安裝目錄：

/home/hadoop/app/

2、資料存放目錄：

dfs.namenode.name.dir ---file:/home/hadoop/data/name //存放元資料

dfs.datanode.data.dir ---file:/home/hadoop/data/datanode //datanode資料存放目錄

dfs.namenode.edits.dir---file:/home/hadoop/data/hdfs/edits //存放編輯日誌

dfs.journalnode.edits.dir--/home/hadoop/data/journaldata/jn //存放編輯日誌同步資料

dfs.hosts.exclude--/home/hadoop/app/hadoop-2.6.0-cdh5.4.5/etc/hadoop/excludes //它是一個檔案排除host

3、程序pid:

export HADOOP_PID_DIR=/home/hadoop/data/pid //儲存hadoop 常駐程序pid

export HADOOP_SECURE_DN_PID_DIR=/home/hadoop/data/pid //datanode程序 pid

4、臨時目錄：

/home/hadoop/data/tmp

1、安裝目錄：

/home/hadoop/app/

2、資料存放目錄：

dfs.namenode.name.dir ---file:/home/hadoop/data/name //存放元資料

dfs.datanode.data.dir ---file:/home/hadoop/data/datanode //datanode資料存放目錄

dfs.namenode.edits.dir---file:/home/hadoop/data/hdfs/edits //存放編輯日誌

dfs.journalnode.edits.dir--/home/hadoop/data/journaldata/jn //存放編輯日誌同步資料

dfs.hosts.exclude--/home/hadoop/app/hadoop-2.6.0-cdh5.4.5/etc/hadoop/excludes //它是一個檔案排除host

等到後面，解壓了hadoop-2.6.0-cdh5.4.5的安裝包後，再新建。

3、程序pid:

export HADOOP_PID_DIR=/home/hadoop/data/pid //儲存hadoop 常駐程序pid

export HADOOP_SECURE_DN_PID_DIR=/home/hadoop/data/pid //datanode程序 pid

4、臨時目錄：

/home/hadoop/data/tmp

下載必備軟體

注：1、在CDHNode1節點上安裝，使用yum命令 ,引數-y表示，下載過程中的自動回答yes,有興趣的話，可以試試不加的情況；install表示從網上下載安裝。

2、使用yum命令安裝軟體必須是root使用者。

1、安裝lrzsz，可以方便在Xshell上，上傳和下載檔案，輸入rz命令，可以上傳檔案，sz命令可以從遠端主機上下載檔案到本地。

2、安裝ssh伺服器。

3、安裝ssh客戶端。

5、永久關閉防火牆、時間同步

只有在關機重啟後，生效。

關機後，重啟。再檢視下

時間同步

1、我們先使用date命令檢視當前系統時間

如果系統時間與當前時間不一致，可以按照如下方式修改。

2、檢視時區設定是否正確。我們設定的統一時區為Asia/Shanghai，如果時區設定不正確，可以按照如下步驟把當前時區修改為上海。

cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime

3、下面我們使用ntp(網路時間協議)同步時間。如果ntp命令不存在，則需要線上安裝ntp

4、安裝ntp後，我們可以使用ntpdate命令進行聯網時間同步。

ntpdate pool.ntp.org

ntpdate pool.ntp.org

5、最後我們在使用date命令檢視，時間是否同步成功。

由此可見，我們的時鐘同步，完成。

方便操作

1、首先點選新建按鈕，如下；在新建會話屬性對話方塊中輸入名稱和需要連線的主機ip地址。

2、接下來點選左側的使用者身份驗證，輸入要登入主機的使用者名稱和密碼，點選確定，此時建立成功。

3、在開啟會話對話方塊中選中剛建立的CDHNode1，然後點選連線

4、此時連線成功，即可進行遠端操作

5、為了以後方便開啟遠端主機，我們可以把當前連線的主機新增到連結欄中，只需點選新增到連結欄按鈕即可新增

這樣以後，就很方便啦。

6、上傳hadoop-2.6.0-cdh5.4.5.tar.gz安裝包和SSH免密碼登入

在master上啟動start-dfs.sh，master上啟動namenode，在slave1和2上啟動datanode。

那這是如何做到的呢？有興趣，可以看看。這就是要做免密碼登入的必要!

這裡，三處都回車。

現在，來進入SSH免密碼登入的設定。

總的來說：

1、叢集裡的每臺機器自己本身的無密碼訪問設定

CDHNode1本身、CDHNode2本身、CDHNode3本身

CDHNode1本身

CDHNode2本身

CDHNode3本身

1、叢集裡的每臺機器自己本身的無密碼訪問設定

CDHNode2與 CDHNode1、CDHNode3與CDHNode1、然後CDHNode1分發~/.ssh/ authorized_keys

CDHNode2與 CDHNode1

CDHNode3與 CDHNode1

cat ~/.ssh/id_rsa.pub | ssh [email protected] 'cat >> ~/.ssh/authorized_keys'

將CDHNode1的~/.ssh/ authorized_keys，分發給CDHNode2

知識點：用自己寫好的指令碼，也可以，或者，用scp命令

scp -r authorized_keys [email protected]:~/.ssh/

將CDHNode1的~/.ssh/ authorized_keys，分發給CDHNode3

至此，叢集間機器完成SSH免密碼登入。

7、上傳jdk-7u79-linux-x64.tar安裝包和jdk環境變數配置

若是有自帶的java，一定將其解除安裝。

rpm -qa|grep java命令查出沒有

注意：

一般在生產上，部署一個叢集時候，我們的使用者是很多的，比如有hadoop使用者、hbase使用者、hive使用者、zookeeper使用者等。。。

這樣，我們若將jdk安裝到hadoop使用者的主目錄下，則出現其他的使用者無法使用，很麻煩，

強烈建議，安裝在/usr/local 或 /usr/share

實際上，jdk自帶的它預設就是安裝在這個目錄底下，嘿嘿

而我這裡，沒自帶，所以，沒對應的java目錄。

好，現在開始上傳jdk-7u79-linux-x64.tar.gz

在生產環境裡，一般jdk安裝在/usr/local或/usr/share。這裡，我們選擇/usr/share

這裡要注意，知識點，必須是root使用者才可以。

改下，uucp。並刪除，jdk壓縮包

退回到hadoop使用者

總結，在實驗裡，就沒分那麼多使用者了，hadoop使用者、hive使用者、zookeeper使用者、、、

配置在這個檔案~/.bash_profile，或者也可以，配置在那個全域性的檔案裡，也可以喲。/etc/profile。

#java

export JAVA_HOME=/usr/local/jdk/jdk1.8.0_60

export JRE_HOME=$JAVA_HOME/jre

export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib

export PATH=$PATH:$JAVA_HOME/bin

為了偷懶，

scp -r .bash_profile [email protected]:~

8、HDFS核心配置檔案的配置和exclueds檔案創立

學會技巧，一般，先在NotePad++裡寫好，

直接傳上去。

刪除壓縮包，留下壓縮後的資料夾。

其他兩個一樣

cd hadoop-2.6.0-cdh5.4.5/etc/Hadoop

rm core-site.xml

rm hadoop-env.sh

rm hdfs-site.xml

rm slaves

rm yarn-env.sh

rm yarn-site.xml

hadoop-2.6.0-cdh5.4.5.tar.gz(CDH)的3節點叢集搭建(含zookeeper叢集安裝）

前言附連結如下：　　http://blog.csdn.net/u010270403/article/details/51446674 關於幾個疑問和幾處心得！ a.用NAT，還是橋接，還是only-host模式？ b.用static的ip，還是dhcp的？答：stat

apache hadoop-2.6.0-CDH5.4.1 安裝

apache hadoop-2.6.0-CDH5.4.1 安裝 1.安裝Oracle Java 8 sudo add-apt-repository ppa:webupd8team/java sudo apt-get update sudo apt-get install or

Centos單機安裝hadoop-2.6.0-cdh5.8.5 jdk1.8.0_131

一，安裝JDK 安裝JDK1.6或者以上版本。這裡安裝jdk1.6.0_45。下載地址：http://www.oracle.com/technetwork/java/javase/downloads/index.html 1，下載jdk1.6.0_45-linux-

Mac 安裝Hadoop-2.6.0-cdh5.7.0偽分散式

下載Hadoop-2.6.0-cdh5.7.0 單機下載自己需要的版本，我下載的是hadoop-2.6.0-cdh5.7.0 一. 解壓 tar -zxvf hadoop-2.6.0-cdh5.7.0.

hadoop-2.6.0-cdh5.7.0偽分散式搭建

1，這個我們是直接在linux中下載hadoop-2.6.0-cdh5.7.0，（當然你也可以在本地下載後再上傳，這步就可以忽略）首先確保你的虛擬機器有網路，可以先ping百度測試有網沒，如下程式碼就是有網路的情況。 [[email protected

Spark 2.3.2原始碼編譯，支援hadoop-2.6.0-cdh5.15.0

前置準備&軟體安裝 spark2.3.2原始碼官方Apache下載地址： http://spark.apache.org/downloads.html 編譯spark原始碼的官方Apache參考文件 http://spark.apache.org/docs/2.3.2/b

阿里雲虛擬機器搭建Hadoop-2.6.0-cdh5.7.1安裝詳解（偽分散式環境）

首先先搭配安全組開啟映象後輸入以下內容：重要： yum -y install lrzsz HOSTNAME=（自己的主機名字） hostname $HOSTNAME echo "$(grep -E '127|::1' /etc/host

Spark 2.2原始碼編譯 & 支援hadoop-2.6.0-cdh5.7.0

JDK & Maven & Scala & Git軟體安裝 & 前置準備編譯Spark原始碼的前置要求： Maven 3.3.9 or newer Java 8+ Scala Git(後文會通過分析make-d

hadoop-2.6.0.tar.gz + spark-1.5.2-bin-hadoop2.6.tgz的叢集搭建（單節點）（Ubuntu系統）

前言關於幾個疑問和幾處心得！ a.用NAT，還是橋接，還是only-host模式？ b.用static的ip，還是dhcp的？答：static c.別認為快照和克隆不重要，小技巧，比別人靈活用，會很節省時間和大大減少錯誤。 d.重用起來指令碼語言的程式設計，如paython

Hadoop-2.6.0+Zookeeper-3.4.6+Spark-1.5.0+Hbase-1.1.2+Hive-1.2.0叢集搭建

前言本部落格目的在於跟大家分享大資料平臺搭建過程，是筆者半年的結晶。在大資料搭建過程中,希望能給大家提過一些幫助，這也是本部落格的

CentOS 6.5下搭建hadoop 2.6.0叢集（二）：網路配置

以Master機器為例，即主機名為”Master.hadoop”，IP為”192.168.2.30”進行一些主機名配置的相關操作。其他的Slave機器以此為依據進行修改。檢視當前機器名稱用下面命令進行顯示機器名稱，如果跟規劃的不一致，要按照下面進行修

Spark on YARN模式的安裝（spark-1.6.1-bin-hadoop2.6.tgz + hadoop-2.6.0.tar.gz）（master、slave1和slave2）（博主推薦）

說白了　　Spark on YARN模式的安裝，它是非常的簡單，只需要下載編譯好Spark安裝包，在一臺帶有Hadoop YARN客戶端的的機器上執行即可。　　Spark on YARN分為兩種： YARN cluster（YARN standalone，0.9版本以前）和 YA

hadoop-2.6.0.tar.gz + spark-1.6.1-bin-hadoop2.6.tgz的叢集搭建（單節點）（CentOS系統）

前言關於幾個疑問和幾處心得！ a.用NAT，還是橋接，還是only-host模式？ b.用static的ip，還是dhcp的？答：static c.別認為快照和克隆不重要，小技巧，比別人靈活用，會很節省時間和大大減少錯誤。 d.重用起來指令碼語言

hadoop-2.6.0.tar.gz的叢集搭建（3節點）（不含zookeeper叢集安裝）

前言關於幾個疑問和幾處心得！ a.用NAT，還是橋接，還是only-host模式？ b.用static的ip，還是dhcp的？答：static c.別認為快照和克隆不重要，小技巧，比別人靈活用，會很節省時間和大大減少錯誤。 d.重用起來指令碼語言的程式設計，如paython或s

Centos 6.5 X64 環境下編譯 hadoop 2.6.0 --已驗證

詳細參照原始碼路徑下的BUILDING.txt檔案 Centos 6.5 x64 hadoop 2.6.0 jdk 1.7 protobuf-2.5.0 maven-3.0.5 set environment export JAVA_HOME=/home/linux/jdk export

hadoop 2.6.0 LightWeightGSet源碼分析

lar therefore name ref implement urn round runtime info LightWeightGSet的作用用一個數組來存儲元素，而且用鏈表來解決沖突。不能rehash。所以內部數組永遠不用改變大小。此類不支持空元素。此類也不是線

centos 6下編譯安裝rrdtool-1.4.5.tar.gz 過不去

centos 6下編譯安裝rrdtool-1.4.5.tar.gz 過不去#tar zxvf rrdtool-1.4.5.tar.gz#cd rrdtool-1.4.5#./configure --prefix=/usr/local/rrdtool出現： configure: e

hadoop window下安裝 hadoop-2.6.0

all art ice dfs- win 技術 per atan 分享圖片一、官網下載hadoop http://hadoop.apache.orghttps://archive.apache.org/dist/hadoop/common/hadoop-2.6.0 管理員

spark-2.2.0-bin-2.6.0-cdh5.12.1.tgz 編譯方法總結！

菜雞一隻，如果有說錯的地方，還請見諒和指出批評！！事情是這樣的，想在自己本地部署一個hadoop2.6.0-cdh5.12.1，hive1.1.0-cdh5.12.1，spark-2.2.0-bin-2.6.0-cdh5.12.1的環境，前兩個還是很好找到哪裡下載和部署的！ c

6、Hadoop 2.6.0 執行

執行方式 Local (Standalone) Mode Pseudo-Distributed Mode Fully-Distributed Mode Standalone Operation $ sudo mkdir input $ sudo cp etc/hadoop/

hadoop-2.6.0-cdh5.4.5.tar.gz(CDH)的3節點叢集搭建(含zookeeper叢集安裝）

相關推薦