大資料，hadoop,spark,hive,ZooKeeper,kafka,flume等元件環境搭建

阿新 • • 發佈：2019-01-25

大資料環境搭建

1、Virtual Box 4.1
2、CentOS 6.5
3、JDK 1.7
4、SecureCRT（自己下載）
5、WinSCP（自己下載）
6、Hadoop 2.4.1
7、Hive 0.13
8、ZooKeeper 3.4.5
9、kafka_2.9.2-0.8.1
10、Spark 1.3.0
11、Spark 1.5
12、flume-ng-1.5.0-cdh5.3.6

Virtual Box 4.1安裝
1、使用Virtual Box安裝包，一步一步安裝即可。
Oracle_VM_VirtualBox_Extension_Pack-4.1.40-101594.vbox-extpack。
2、之所以選用Virtual Box是因為它比VMWare更加穩定。使用VMWare執行hadoop叢集或者spark叢集時，有時會出現休眠後重啟時，某些程序莫名掛掉的問題。而Virtual Box沒有這種情況。
3、之所以選擇Virtual Box 4.1版本，是因為更高的版本就不相容win7了。
CentOS 6.5安裝

1、使用CentOS 6.5映象即可，CentOS-6.5-i386-minimal.iso。
2、建立虛擬機器：開啟Virtual Box，點選“新建”按鈕，點選“下一步”，輸入虛擬機器名稱為spark1，選擇作業系統為Linux，選擇版本為Red Hat，分配1024MB記憶體，後面的選項全部用預設，在Virtual Disk File location and size中，一定要自己選擇一個目錄來存放虛擬機器檔案，最後點選“create”按鈕，開始建立虛擬機器。
3、設定虛擬機器網絡卡：選擇建立好的spark1虛擬機器，點選“設定”按鈕，在網路一欄中，連線方式中，選擇“Bridged Adapter”。
4、安裝虛擬機器中的CentOS 6.5作業系統：選擇建立好的虛擬機器spark1，點選“開始”按鈕，選擇安裝介質（即本地的CentOS 6.5映象檔案），選擇第一項開始安裝-Skip-歡迎介面Next-選擇預設語言-Baisc Storage Devices-Yes, discard any data-主機名:spark1-選擇時區-設定初始密碼為hadoop-Replace Existing Linux System-Write changes to disk-CentOS 6.5自己開始安裝。
5、安裝完以後，CentOS會提醒你要重啟一下，就是reboot，你就reboot就可以了。

CentOS 6.5網路配置
1、先臨時性設定虛擬機器ip地址：ifconfig eth0 192.168.1.107，在/etc/hosts檔案中配置本地ip（192.168.1.107）到host（spark1）的對映
2、配置windows主機上的hosts檔案：C:\Windows\System32\drivers\etc\hosts，192.168.1.107 spark1
3、使用SecureCRT從windows上連線虛擬機器，自己可以上網下一個SecureCRT的綠色版，網上很多。
4、永久性配置CentOS網路
vi /etc/sysconfig/network-scripts/ifcfg-eth0
DEVICE=eth0
TYPE=Ethernet
ONBOOT=yes
BOOTPROTO=static
IPADDR=192.168.1.107
NETMASK=255.255.255.0
GATEWAY=192.168.1.1
5、重啟網絡卡
service network restart
6、即使更換了ip地址，重啟網絡卡，可能還是聯不通網。那麼可以先將IPADDR、NETMASK、GATEWAY給刪除，將BOOTPROTO改成dhcp。然後用service network restart重啟網絡卡。此時linux會自動給分配一個ip地址，用ifconfig檢視分配的ip地址。然後再次按照之前說的，配置網絡卡，將ip改成自動分配的ip地址。最後再重啟一次網絡卡。

CentOS 6.5防火牆和DNS配置
1、關閉防火牆

service iptables stop
chkconfig iptables off
vi /etc/selinux/config
SELINUX=disabled

自己在win7的控制面板中，關閉windows的防火牆！

2、配置dns伺服器

vi /etc/resolv.conf
nameserver 61.139.2.69
ping www.baidu.com

安裝之前先安裝rz軟體，提供上傳和下載檔案
linux yum rz 軟體安裝
yum install lrzsz -y
自動下載的包如下：
Downloading Packages:
lrzsz-0.12.20-27.1.el6.x86_64.rpm

CentOS 6.5 yum配置
1、修改repo
使用WinSCP（網上很多，自己下一個），將CentOS6-Base-163.repo上傳到CentOS中的/usr/local目錄下

cd /etc/yum.repos.d/
rm -rf *
mv 自己的repo檔案移動到/etc/yum.repos.d/目錄中：cp /usr/local/CentOS6-Base-163.repo .
修改repo檔案，把所有gpgcheck屬性修改為0

2、配置yum

yum clean all
yum makecache
yum install telnet

JDK 1.7安裝
1、將jdk-7u60-linux-i586.rpm通過WinSCP上傳到虛擬機器中
2、安裝JDK：rpm -ivh jdk-7u65-linux-i586.rpm
3、配置jdk相關的環境變數

vi ~/.bashrc  或者 vi /etc/profile
export JAVA_HOME=/usr/java/latest
export PATH=$PATH:$JAVA_HOME/bin
source .bashrc   或者  source /etc/profile

4、測試jdk安裝是否成功：java -version
5、rm -f /etc/udev/rules.d/70-persistent-net.rules

安裝第二臺和第三臺虛擬機器
1、安裝上述步驟，再安裝兩臺一模一樣環境的虛擬機器，因為後面hadoop和spark都是要搭建叢集的。
2、叢集的最小環境就是三臺。因為後面要搭建ZooKeeper、kafka等叢集。
3、另外兩臺機器的hostname分別設定為spark2和spark3即可，ip分別為192.168.1.108和192.168.1.109
4、在安裝的時候，另外兩臺虛擬機器的centos映象檔案必須重新拷貝一份，放在新的目錄裡，使用各自自己的映象檔案。
5、虛擬機器的硬碟檔案也必須重新選擇一個新的目錄，以更好的區分。
6、安裝好之後，記得要在三臺機器的/etc/hosts檔案中，配置全三臺機器的ip地址到hostname的對映，而不能只配置本機，這個很重要！
7、在windows的hosts檔案中也要配置全三臺機器的ip地址到hostname的對映。

配置叢集ssh免密碼登入
1、首先在三臺機器上配置對本機的ssh免密碼登入
生成本機的公鑰，過程中不斷敲回車即可，ssh-keygen命令預設會將公鑰放在/root/.ssh目錄下

ssh-keygen -t rsa

將公鑰複製為authorized_keys檔案，此時使用ssh連線本機就不需要輸入密碼了

cd /root/.ssh
cp id_rsa.pub authorized_keys

2、接著配置三臺機器互相之間的ssh免密碼登入
使用ssh-copy-id -i spark命令將本機的公鑰拷貝到指定機器的authorized_keys檔案中（方便好用）
這裡寫圖片描述

Hadoop 2.4.1叢集搭建
安裝hadoop包

1、使用hadoop-2.4.1.tar.gz，使用WinSCP上傳到CentOS的/usr/local目錄下。
2、將hadoop包進行解壓縮：tar -zxvf hadoop-2.4.1.tar.gz
3、對hadoop目錄進行重新命名：mv hadoop-2.4.1 hadoop
4、配置hadoop相關環境變數
vi .bashrc  或者 vi/etc/profile
export HADOOP_HOME=/usr/local/hadoop
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source .bashrc

修改hadoop相關的配置檔案
進入/usr/local/hadoop/etc/hadoop 目錄下
修改core-site.xml

<property>
  <name>fs.default.name</name>
  <value>hdfs://spark1:9000</value>  //設定hdfs叢集對外提供的目錄
</property>

修改hdfs-site.xml //設定hdfs的一些目錄，放在/usr/local/data的目錄下面


<property>
  <name>dfs.name.dir</name>
  <value>/usr/local/data/namenode</value>
</property>
<property>
  <name>dfs.data.dir</name>
  <value>/usr/local/data/datanode</value>
</property>
<property>
  <name>dfs.tmp.dir</name>
  <value>/usr/local/data/tmp</value>
</property>
<property>
  <name>dfs.replication</name>  
  <value>3</value>  //設定副本數
</property>

修改mapred-site.xml //mapreduce的框架設定為yarn

<property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
</property>

修改yarn-site.xml

<property>
  <name>yarn.resourcemanager.hostname</name>
  <value>spark1</value>
</property>
<property>
  <name>yarn.nodemanager.aux-services</name>
  <value>mapreduce_shuffle</value>
</property>

修改slaves檔案

spark1
spark2
spark3

在另外兩臺機器上搭建hadoop

1、使用如上配置在另外兩臺機器上搭建hadoop，可以使用scp命令將spark1上面的hadoop安裝包和.bashrc或者/etc/profile 配置檔案都拷貝過去。
scp -r hadoop root@spark1:/usr/local/    
scp -r hadoop root@spark2:/usr/local/  

scp -r /etc/profile root@spark1:/etc/
scp -r /etc/profile root@spark2:/etc/
2、要記得對.bashrc檔案或者/etc/profile進行source，以讓它生效。
3、記得在spark2和spark3的/usr/local目錄下建立data目錄。

啟動hdfs叢集

1、格式化namenode：在spark1上執行以下命令，
hdfs namenode -format
2、啟動hdfs叢集：start-dfs.sh
3、驗證啟動是否成功：jps、50070埠檢視是否啟動成功
spark1：namenode、datanode、secondarynamenode
spark2：datanode
spark3：datanode

啟動yarn叢集

1、啟動yarn叢集：start-yarn.sh
2、驗證啟動是否成功：jps、8088埠
spark1：resourcemanager、nodemanager
spark2：nodemanager
spark3：nodemanager

Hive 0.13搭建
安裝hive包
1、將的apache-hive-0.13.1-bin.tar.gz使用WinSCP上傳到spark1的/usr/local目錄下。
2、解壓縮hive安裝包：tar -zxvf apache-hive-0.13.1-bin.tar.gz。
3、重新命名hive目錄：mv apache-hive-0.13.1-bin hive
4、配置hive相關的環境變數，下面以.bashrc檔案操作

vi .bashrc
export HIVE_HOME=/usr/local/hive
export PATH=$HIVE_HOME/bin
source .bashrc

安裝mysql
1、在spark1上安裝mysql。
2、使用yum安裝mysql server。

yum install -y mysql-server
service mysqld start
chkconfig mysqld on

3、使用yum安裝mysql connector

yum install -y mysql-connector-java

4、將mysql connector拷貝到hive的lib包中

cp /usr/share/java/mysql-connector-java-5.1.17.jar /usr/local/hive/lib

5、在mysql上建立hive元資料庫，並對hive進行授權

create database if not exists hive_metadata;

grant all privileges on hive_metadata.* to 'hive'@'%' identified by 'hive';

grant all privileges on hive_metadata.* to 'hive'@'localhost' identified by 'hive';

grant all privileges on hive_metadata.* to 'hive'@'spark1' identified by 'hive';

flush privileges;    //重新整理授權

use hive_metadata;

配置hive-site.xml

mv hive-default.xml.template hive-site.xml
vi hive-site.xml
<property>
  <name>javax.jdo.option.ConnectionURL</name>
  <value>jdbc:mysql://spark1:3306/hive_metadata?createDatabaseIfNotExist=true</value>
</property>
<property>
  <name>javax.jdo.option.ConnectionDriverName</name>
  <value>com.mysql.jdbc.Driver</value>
</property>
<property>
  <name>javax.jdo.option.ConnectionUserName</name>
  <value>hive</value>
</property>
<property>
  <name>javax.jdo.option.ConnectionPassword</name>
  <value>hive</value>
</property>
<property>
  <name>hive.metastore.warehouse.dir</name>
  <value>/user/hive/warehouse</value>
</property>

配置hive-env.sh和hive-config.sh

mv hive-env.sh.template hive-env.sh

vi /usr/local/hive/bin/hive-config.sh
export JAVA_HOME=/usr/java/latest
export HIVE_HOME=/usr/local/hive
export HADOOP_HOME=/usr/local/hadoop

驗證hive是否安裝成功
直接輸入hive命令，可以進入hive命令列

ZooKeeper 3.4.5叢集搭建
安裝ZooKeeper包
1、將zookeeper-3.4.5.tar.gz使用WinSCP拷貝到spark1的/usr/local目錄下。
2、對zookeeper-3.4.5.tar.gz進行解壓縮：tar -zxvf zookeeper-3.4.5.tar.gz。
3、對zookeeper目錄進行重新命名：mv zookeeper-3.4.5 zk。
4、配置zookeeper相關的環境變數

vi .bashrc   或者  vi /etc/profile
export ZOOKEEPER_HOME=/usr/local/zk
export PATH=$ZOOKEEPER_HOME/bin
source .bashrc

配置zoo.cfg  在/usr/local/zk/conf目錄下
vi zoo.cfg
修改：dataDir=/usr/local/zk/data
新增：
server.0=spark1:2888:3888   
server.1=spark2:2888:3888
server.2=spark3:2888:3888

設定zk節點標識

cd zk
mkdir data
cd data

vi myid
0

搭建zk叢集
1、在另外兩個節點上按照上述步驟配置ZooKeeper，使用scp將zk和.bashrc拷貝到spark2和spark3上即可。
scp -r zk [email protected]:/usr/local/

2、唯一的區別是spark2和spark3的標識號分別設定為1和2。及myid 中的值修改為1 和2

啟動ZooKeeper叢集

1、分別在三臺機器上執行：zkServer.sh start。
2、檢查ZooKeeper狀態：zkServer.sh status。

kafka_2.9.2-0.8.1叢集搭建
安裝scala 2.11.4
1、將scala-2.11.4.tgz使用WinSCP拷貝到spark1的/usr/local目錄下。
2、對scala-2.11.4.tgz進行解壓縮：tar -zxvf scala-2.11.4.tgz。
3、對scala目錄進行重新命名：mv scala-2.11.4 scala
4、配置scala相關的環境變數

vi .bashrc
export SCALA_HOME=/usr/local/scala
export PATH=$SCALA_HOME/bin
source .bashrc

5、檢視scala是否安裝成功：scala -version
6、按照上述步驟在spark2和spark3機器上都安裝好scala。使用scp將scala和.bashrc拷貝到spark2和spark3上即可。

安裝Kafka包
1、將kafka_2.9.2-0.8.1.tgz使用WinSCP拷貝到spark1的/usr/local目錄下。
2、對kafka_2.9.2-0.8.1.tgz進行解壓縮：tar -zxvf kafka_2.9.2-0.8.1.tgz。
3、對kafka目錄進行改名：mv kafka_2.9.2-0.8.1 kafka
4、配置kafka

vi /usr/local/kafka/config/server.properties
broker.id：依次增長的整數，0、1、2、3、4，叢集中Broker的唯一id
zookeeper.connect=192.168.1.107:2181,192.168.1.108:2181,192.168.1.109:2181

5、安裝slf4j
將slf4j-1.7.6.zip上傳到/usr/local目錄下
unzip slf4j-1.7.6.zip
把slf4j中的slf4j-nop-1.7.6.jar複製到kafka的libs目錄下面

搭建kafka叢集
1、按照上述步驟在spark2和spark3分別安裝kafka。用scp把kafka拷貝到spark2和spark3行即可。

2、唯一區別的，就是server.properties中的broker.id，要設定為1和2

啟動kafka叢集
1、在三臺機器上分別執行以下命令：nohup bin/kafka-server-start.sh config/server.properties & （必須在kafka的主目錄下執行 cd /kafka）

2、解決kafka Unrecognized VM option ‘UseCompressedOops’問題

vi bin/kafka-run-class.sh 
if [ -z "$KAFKA_JVM_PERFORMANCE_OPTS" ]; then
  KAFKA_JVM_PERFORMANCE_OPTS="-server  -XX:+UseCompressedOops -XX:+UseParNewGC -XX:+UseConcMarkSweepGC -XX:+CMSClassUnloadingEnabled -XX:+CMSScavengeBeforeRemark -XX:+DisableExplicitGC -Djava.awt.headless=true"
fi
去掉-XX:+UseCompressedOops即可

3、使用jps檢查啟動是否成功

測試kafka叢集
使用基本命令檢查kafka是否搭建成功

bin/kafka-topics.sh --zookeeper 192.168.0.110:2181,192.168.0.111:2181,192.168.0.112:2181 --topic TestTopic --replication-factor 1 --partitions 1 --create


在spark1 上執行
bin/kafka-console-producer.sh --broker-list 192.168.1.107:9092,192.168.1.108:9092,192.168.1.109:9092 --topic TestTopic


在spark2 上執行
bin/kafka-console-consumer.sh --zookeeper 192.168.1.107:2181,192.168.1.108:2181,192.168.1.109:2181 --topic TestTopic --from-beginning

Spark 1.3.0叢集搭建
安裝spark包
1、將spark-1.3.0-bin-hadoop2.4.tgz使用WinSCP上傳到/usr/local目錄下。
2、解壓縮spark包：tar zxvf spark-1.3.0-bin-hadoop2.4.tgz。
3、更改spark目錄名：mv spark-1.3.0-bin-hadoop2.4 spark
4、設定spark環境變數

vi .bashrc
export SPARK_HOME=/usr/local/spark
export PATH=$SPARK_HOME/bin
export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
source .bashrc

修改spark-env.sh檔案
1、cd /usr/local/spark/conf
2、cp spark-env.sh.template spark-env.sh
3、vi spark-env.sh
export JAVA_HOME=/usr/java/latest
export SCALA_HOME=/usr/local/scala
export SPARK_MASTER_IP=192.168.1.107
export SPARK_WORKER_MEMORY=1g
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop

修改slaves檔案
spark2
spark3

安裝spark叢集
在另外兩個節點進行一模一樣的配置，使用scp將spark和.bashrc拷貝到spark2和spark3即可。

啟動spark叢集
1、在spark目錄下的sbin目錄
2、執行 ./start-all.sh
3、使用jsp和8080埠可以檢查叢集是否啟動成功
4、進入spark-shell檢視是否正常

Spark1.3.0升級1.5
安裝spark包
1、停止Spark 1.3.0叢集：SPARK_HOME/sbin/stop-all.sh
2、將spark-1.5.1-bin-hadoop2.4.tgz使用WinSCP上傳到/usr/local目錄下。
3、解壓縮spark包：tar zxvf spark-1.5.1-bin-hadoop2.4.tgz。
4、修改spark環境變數

vi .bashrc
export SPARK_HOME=/usr/local/spark-1.5.1-bin-hadoop2.4
export PATH=$SPARK_HOME/bin
export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
source .bashrc

修改spark-env.sh檔案
1、cd /usr/local/spark/conf
2、cp spark-env.sh.template spark-env.sh
3、vi spark-env.sh
export JAVA_HOME=/usr/java/latest
export SCALA_HOME=/usr/local/scala
export SPARK_MASTER_IP=192.168.1.107
export SPARK_WORKER_MEMORY=1g
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop

修改slaves檔案
spark2
spark3

安裝spark叢集
在另外兩個節點進行一模一樣的配置，使用scp將spark和.bashrc拷貝到spark2和spark3即可。
scp -r spark-1.5.1-bin-hadoop2.4 [email protected]:/usr/local/

啟動spark叢集
1、在spark目錄下的sbin目錄
2、執行./start-all.sh
3、使用jsp和8080埠可以檢查叢集是否啟動成功
4、進入spark-shell檢視是否正常

hadoop fs -put spark.txt /
val lines = sc.textFile("hdfs://spark1:9000/spark.txt")
val words = lines.flatMap(line => line.split(" "))
val pairs = words.map(word => (word, 1))
val counts = pairs.reduceByKey(_ + _)
counts.foreach(count => println(count._1 +":"+ count._2))

flume-ng-1.5.0-cdh5.3.6安裝
安裝flume
1、將flume-ng-1.5.0-cdh5.3.6.tar.gz使用WinSCP拷貝到sparkproject1的/usr/local目錄下。
2、對flume進行解壓縮：tar -zxvf flume-ng-1.5.0-cdh5.3.6.tar.gz
3、對flume目錄進行重新命名：mv apache-flume-1.5.0-cdh5.3.6-bin flume
4、配置scala相關的環境變數

vi ~/.bashrc
export FLUME_HOME=/usr/local/flume
export FLUME_CONF_DIR=$FLUME_HOME/conf
export PATH=$FLUME_HOME/bin
source ~/.bashrc

修改flume配置檔案
vi /usr/local/flume/conf/flume-conf.properties

agent1表示代理名稱
agent1.sources=source1
agent1.sinks=sink1
agent1.channels=channel1

配置source1
agent1.sources.source1.type=spooldir
agent1.sources.source1.spoolDir=/usr/local/logs
agent1.sources.source1.channels=channel1
agent1.sources.source1.fileHeader = false
agent1.sources.source1.interceptors = i1
agent1.sources.source1.interceptors.i1.type = timestamp
配置channel1
agent1.channels.channel1.type=file
agent1.channels.channel1.checkpointDir=/usr/local/logs_tmp_cp
agent1.channels.channel1.dataDirs=/usr/local/logs_tmp

配置sink1
agent1.sinks.sink1.type=hdfs
agent1.sinks.sink1.hdfs.path=hdfs://sparkproject1:9000/logs
agent1.sinks.sink1.hdfs.fileType=DataStream
agent1.sinks.sink1.hdfs.writeFormat=TEXT
agent1.sinks.sink1.hdfs.rollInterval=1
agent1.sinks.sink1.channel=channel1
agent1.sinks.sink1.hdfs.filePrefix=%Y-%m-%d

建立需要的資料夾
本地資料夾：mkdir /usr/local/logs
HDFS資料夾：hdfs dfs -mkdir /logs

啟動flume-agent

flume-ng agent -n agent1 -c conf -f /usr/local/flume/conf/flume-conf.properties -Dflume.root.logger=DEBUG,console

測試flume
新建一份檔案，移動到/usr/local/logs目錄下，flume就會自動上傳到HDFS的/logs目錄中

大資料，hadoop,spark,hive,ZooKeeper,kafka,flume等元件環境搭建

大資料環境搭建

大資料，hadoop,spark,hive,ZooKeeper,kafka,flume等元件環境搭建

大資料實時計算Spark學習筆記（2）—— Spak 叢集搭建

大資料學習-Hadoop生態章---HDFS完全分散式(1.X版本)搭建及eclipse外掛整合

38套大資料，雲端計算，架構，資料分析師，Hadoop，Spark，Storm，Kafka，人工智慧，機器學習，深度學習，專案實戰視訊教程

首頁 Hadoop Spark Hive Kafka Flume 大資料平臺 Kylin 專題文章 Spark運算元一起學Hive Hive儲存過程 Hive分析函式 Spark On Yarn 資料

docker部署分散式大資料叢集hadoop、spark、hive、jdk、scala、

【經典】一篇文章初識大資料，及大資料相關框架Hadoop、spark、flink等

大資料學習之路98-Zookeeper管理Kafka的OffSet

大資料之hadoop / hive / hbase 的區別是什麼？有什麼應用場景？

大資料之hadoop對比spark------資料儲存

大資料中的Spark和Hadoop的區別

大資料平臺Hadoop的分散式叢集環境搭建，官網推薦

《資料演算法-Hadoop/Spark大資料處理技巧》讀書筆記（一）——二次排序

《資料演算法-Hadoop/Spark大資料處理技巧》讀書筆記（四）——移動平均

大資料入門之Spark快速入門及匯入資料，求平均值

大資料－hadoop　安裝 spark前奏

保姆級教程，帶你認識大資料，從0到1搭建 Hadoop 叢集

大數據學習資料，Hadoop技術的優缺點

大資料基礎（1）zookeeper原始碼解析

雲端計算，大資料，人工智慧三者有何關係？【轉】

大資料，hadoop,spark,hive,ZooKeeper,kafka,flume等元件環境搭建

大資料環境搭建

相關推薦