hadoop 叢集安裝與部署（大資料系列）

阿新 • • 發佈：2019-01-15

什麼是大資料

基本概念

《資料處理》
在網際網路技術發展到現今階段，大量日常、工作等事務產生的資料都已經資訊化，人類產生的資料量相比以前有了爆炸式的增長，以前的傳統的資料處理技術已經無法勝任，需求催生技術，一套用來處理海量資料的軟體工具應運而生，這就是大資料！

處理海量資料的核心技術：
海量資料儲存：分散式
海量資料運算：分散式

這些核心技術的實現是不需要使用者從零開始造輪子的
儲存和運算，都已經有大量的成熟的框架來用

儲存框架：
HDFS——分散式檔案儲存系統（HADOOP中的儲存框架）
HBASE——分散式資料庫系統
KAFKA——分散式訊息快取系統(實時流式資料處理場景中應用廣泛)

運算框架：（要解決的核心問題就是幫使用者將處理邏輯在很多機器上並行）
MAPREDUCE—— 離線批處理/HADOOP中的運算框架
SPARK —— 離線批處理/實時流式計算
STORM —— 實時流式計算

輔助類的工具（解放大資料工程師的一些繁瑣工作）：
HIVE —— 資料倉庫工具：可以接收sql，翻譯成mapreduce或者spark程式執行
FLUME——資料採集
SQOOP——資料遷移
ELASTIC SEARCH —— 分散式的搜尋引擎
…

換個角度說，大資料是：
1、有海量的資料
2、有對海量資料進行挖掘的需求
3、有對海量資料進行挖掘的軟體工具（hadoop、spark、storm、flink、tez、impala…）

大資料在現實生活中的具體應用

資料處理的最典型應用：公司的產品運營情況分析

電商推薦系統：基於海量的瀏覽行為、購物行為資料，進行大量的演算法模型的運算，得出各類推薦結論，以供電商網站頁面來為使用者進行商品推薦

精準廣告推送系統：基於海量的網際網路使用者的各類資料，統計分析，進行使用者畫像（得到使用者的各種屬性標籤），然後可以為廣告主進行有針對性的精準的廣告投放

什麼是hadoop

hadoop中有3個核心元件：
分散式檔案系統：HDFS —— 實現將檔案分散式儲存在很多的伺服器上
分散式運算程式設計框架：MAPREDUCE —— 實現在很多機器上分散式並行運算
分散式資源排程平臺：YARN —— 幫使用者排程大量的mapreduce程式，併合理分配運算資源

hdfs整體執行機制

hdfs：分散式檔案系統
hdfs有著檔案系統共同的特徵：
1、有目錄結構，頂層目錄是： /
2、系統中存放的就是檔案
3、系統可以提供對檔案的：建立、刪除、修改、檢視、移動等功能

hdfs跟普通的單機檔案系統有區別：
1、單機檔案系統中存放的檔案，是在一臺機器的作業系統中
2、hdfs的檔案系統會橫跨N多的機器
3、單機檔案系統中存放的檔案，是在一臺機器的磁碟上
4、hdfs檔案系統中存放的檔案，是落在n多機器的本地單機檔案系統中（hdfs是一個基於linux本地檔案系統之上的檔案系統）

hdfs的工作機制：
1、客戶把一個檔案存入hdfs，其實hdfs會把這個檔案切塊後，分散儲存在N臺linux機器系統中（負責儲存檔案塊的角色：data node）<準確來說：切塊的行為是由客戶端決定的>

2、一旦檔案被切塊儲存，那麼，hdfs中就必須有一個機制，來記錄使用者的每一個檔案的切塊資訊，及每一塊的具體儲存機器（負責記錄塊資訊的角色是：name node）

3、為了保證資料的安全性，hdfs可以將每一個檔案塊在叢集中存放多個副本（到底存幾個副本，是由當時存入該檔案的客戶端指定的）

綜述：一個hdfs系統，由一臺運行了namenode的伺服器，和N臺運行了datanode的伺服器組成！

搭建hdfs分散式叢集

hdfs叢集組成結構：

這裡寫圖片描述

安裝hdfs叢集的具體步驟：

一、首先需要準備N臺linux伺服器
學習階段，用虛擬機器即可！
先準備4臺虛擬機器：1個namenode節點 + 3 個datanode 節點

二、修改各臺機器的主機名和ip地址
主機名：hdp-01 對應的ip地址：192.168.33.61
主機名：hdp-02 對應的ip地址：192.168.33.62
主機名：hdp-03 對應的ip地址：192.168.33.63
主機名：hdp-04 對應的ip地址：192.168.33.64
這裡寫圖片描述

三、從windows中用CRT軟體進行遠端連線
在windows中將各臺linux機器的主機名配置到的windows的本地域名對映檔案中：
c:/windows/system32/drivers/etc/hosts
192.168.33.61 hdp-01
192.168.33.62 hdp-02
192.168.33.63 hdp-03
192.168.33.64 hdp-04

用crt連線上後，修改一下crt的顯示配置（字號，編碼集改為UTF-8）：
這裡寫圖片描述

四、配置linux伺服器的基礎軟體環境

1.防火牆
關閉防火牆：service iptables stop
關閉防火牆自啟： chkconfig iptables off

2.安裝jdk：（hadoop體系中的各軟體都是java開發的）
1)利用alt+p 開啟sftp視窗，然後將jdk壓縮包拖入sftp視窗
2)然後在linux中將jdk壓縮包解壓到/root/apps 下
3)配置環境變數：JAVA_HOME PATH
vi /etc/profile 在檔案的最後，加入：
export JAVA_HOME=/root/apps/jdk1.8.0_60
export PATH= $PATH:$ JAVA_HOME/bin
4)修改完成後，記得 source /etc/profile使配置生效
5)檢驗：在任意目錄下輸入命令： java -version 看是否成功執行
6)將安裝好的jdk目錄用scp命令拷貝到其他機器
7)將/etc/profile配置檔案也用scp命令拷貝到其他機器並分別執行source命令

3.叢集內主機的域名對映配置
在hdp-01上，vi /etc/hosts
127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4
::1 localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.33.61 hdp-01
192.168.33.62 hdp-02
192.168.33.63 hdp-03
192.168.33.64 hdp-04
然後，將hosts檔案拷貝到叢集中的所有其他機器上
scp /etc/hosts hdp-02:/etc/
scp /etc/hosts hdp-03:/etc/
scp /etc/hosts hdp-04:/etc/

補充
提示: 如果在執行scp命令的時候，提示沒有scp命令，則可以配置一個本地yum源來安裝
1、先在虛擬機器中配置cdrom為一個centos的安裝映象iso檔案
2、在linux系統中將光碟機掛在到檔案系統中（某個目錄）
3、mkdir /mnt/cdrom
4、mount -t iso9660 -o loop /dev/cdrom /mnt/cdrom
5、檢驗掛載是否成功： ls /mnt/cdrom
6、3、配置yum的倉庫地址配置檔案
7、yum的倉庫地址配置檔案目錄： /etc/yum.repos.d
8、先將自帶的倉庫地址配置檔案批量更名：
這裡寫圖片描述

9、然後，拷貝一個出來進行修改
這裡寫圖片描述

10、修改完配置檔案後，再安裝scp命令：
11、yum install openssh-clients -y

安裝hdfs叢集

1、上傳hadoop安裝包到hdp-01

2、修改配置檔案
要點提示核心配置引數：
1)指定hadoop的預設檔案系統為：hdfs
2)指定hdfs的namenode節點為哪臺機器
3)指定namenode軟體儲存元資料的本地目錄
4)指定datanode軟體存放檔案塊的本地目錄

hadoop的配置檔案在：/root/apps/hadoop安裝目錄/etc/hadoop/

修改hadoop-env.sh
export JAVA_HOME=/root/apps/jdk1.8.0_60
修改core-site.xml

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://hdp-01:9000</value>
</property>
</configuration>

修改hdfs-site.xml

<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>/root/hdpdata/name/</value>
</property>

<property>
<name>dfs.datanode.data.dir</name>
<value>/root/hdpdata/data</value>
</property>

<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hdp-02:50090</value>
</property>

</configuration>

拷貝整個hadoop安裝目錄到其他機器
scp -r /root/apps/hadoop-2.8.1 hdp-02:/root/apps/
scp -r /root/apps/hadoop-2.8.1 hdp-03:/root/apps/
scp -r /root/apps/hadoop-2.8.1 hdp-04:/root/apps/
啟動HDFS

所謂的啟動HDFS，就是在對的機器上啟動對的軟體
要點
提示：要執行hadoop的命令，需要在linux環境中配置HADOOP_HOME和PATH環境變數
vi /etc/profile
export JAVA_HOME=/root/apps/jdk1.8.0_60
export HADOOP_HOME=/root/apps/hadoop-2.8.1
export PATH= $PATH:$ JAVA_HOME/bin: $HADOOP_HOME/bin:$ HADOOP_HOME/sbin

首先，初始化namenode的元資料目錄
要在hdp-01上執行hadoop的一個命令來初始化namenode的元資料儲存目錄
hadoop namenode -format
1.建立一個全新的元資料儲存目錄
2.生成記錄元資料的檔案fsimage
3.生成叢集的相關標識：如：叢集id——clusterID

然後，啟動namenode程序（在hdp-01上）
hadoop-daemon.sh start namenode
啟動完後，首先用jps檢視一下namenode的程序是否存在

然後，在windows中用瀏覽器訪問namenode提供的web埠：50070
http://hdp-01:50070

然後，啟動眾datanode們（在任意地方）
hadoop-daemon.sh start datanode

用自動批量啟動指令碼來啟動HDFS
1)先配置hdp-01到叢集中所有機器（包含自己）的免密登陸
2)配完免密後，可以執行一次 ssh 0.0.0.0
3)修改hadoop安裝目錄中/etc/hadoop/slaves（把需要啟動datanode程序的節點列入）
hdp-01
hdp-02
hdp-03
hdp-04

4)在hdp-01上用指令碼：start-dfs.sh 來自動啟動整個叢集
5)如果要停止，則用指令碼：stop-dfs.sh
#hdfs的客戶端操作
##客戶端的理解
hdfs的客戶端有多種形式：
1、網頁形式
2、命令列形式
3、客戶端在哪裡執行，沒有約束，只要執行客戶端的機器能夠跟hdfs叢集聯網

檔案的切塊大小和儲存的副本數量，都是由客戶端決定！
所謂的由客戶端決定，是通過配置引數來定的
hdfs的客戶端會讀以下兩個引數，來決定切塊大小、副本數量：
切塊大小的引數： dfs.blocksize
副本數量的引數： dfs.replication

上面兩個引數應該配置在客戶端機器的hadoop目錄中的hdfs-site.xml中配置

<property>
<name>dfs.blocksize</name>
<value>64m</value>
</property>

<property>
<name>dfs.replication</name>
<value>2</value>
</property>

hdfs客戶端的常用操作命令

0、檢視hdfs中的目錄資訊
hadoop fs -ls /hdfs路徑

1、上傳檔案到hdfs中
hadoop fs -put /本地檔案 /aaa
hadoop fs -copyFromLocal /本地檔案 /hdfs路徑 ## copyFromLocal等價於 put

hadoop fs -moveFromLocal /本地檔案 /hdfs路徑 ## 跟copyFromLocal的區別是：從本地移動到hdfs中

2、下載檔案到客戶端本地磁碟
hadoop fs -get /hdfs中的路徑 /本地磁碟目錄
hadoop fs -copyToLocal /hdfs中的路徑 /本地磁碟路徑 ## 跟get等價
hadoop fs -moveToLocal /hdfs路徑 /本地路徑 ## 從hdfs中移動到本地

3、在hdfs中建立資料夾
hadoop fs -mkdir -p /aaa/xxx

4、移動hdfs中的檔案（更名）
hadoop fs -mv /hdfs的路徑 /hdfs的另一個路徑

5、刪除hdfs中的檔案或資料夾
hadoop fs -rm -r /aaa

6、修改檔案的許可權
hadoop fs -chown user:group /aaa
hadoop fs -chmod 700 /aaa

7、追加內容到已存在的檔案
hadoop fs -appendToFile /本地檔案 /hdfs中的檔案

8、顯示文字檔案的內容
hadoop fs -cat /hdfs中的檔案
hadoop fs -tail /hdfs中的檔案

補充：hdfs命令列客戶端的所有命令列表

Usage: hadoop fs [generic options]
        [-appendToFile <localsrc> ... <dst>]
        [-cat [-ignoreCrc] <src> ...]
        [-checksum <src> ...]
        [-chgrp [-R] GROUP PATH...]
        [-chmod [-R]  <MODE[,MODE]... | OCTALMODE> PATH...]
        [-chown [-R] [OWNER][:[GROUP]] PATH...]
        [-copyFromLocal [-f] [-p] [-l] [-d] <localsrc> ... <dst>]
        [-copyToLocal [-f] [-p] [-ignoreCrc] [-crc] <src> ... <localdst>]
        [-count [-q] [-h] [-v] [-t [<storage type>]] [-u] [-x] <path> ...]
        [-cp [-f] [-p | -p[topax]] [-d] <src> ... <dst>]
        [-createSnapshot <snapshotDir> [<snapshotName>]]
        [-deleteSnapshot <snapshotDir> <snapshotName>]
        [-df [-h] [<path> ...]]
        [-du [-s] [-h] [-x] <path> ...]
        [-expunge]
        [-find <path> ... <expression> ...]
        [-get [-f] [-p] [-ignoreCrc] [-crc] <src> ... <localdst>]
        [-getfacl [-R] <path>]
        [-getfattr [-R] {-n name | -d} [-e en] <path>]
        [-getmerge [-nl] [-skip-empty-file] <src> <localdst>]
        [-help [cmd ...]]
        [-ls [-C] [-d] [-h] [-q] [-R] [-t] [-S] [-r] [-u] [<path> ...]]
        [-mkdir [-p] <path> ...]
        [-moveFromLocal <localsrc> ... <dst>]
        [-moveToLocal <src> <localdst>]
        [-mv <src> ... <dst>]
        [-put [-f] [-p] [-l] [-d] <localsrc> ... <dst>]
        [-renameSnapshot <snapshotDir> <oldName> <newName>]
        [-rm [-f] [-r|-R] [-skipTrash] [-safely] <src> ...]
        [-rmdir [--ignore-fail-on-non-empty] <dir> ...]
        [-setfacl [-R] [{-b|-k} {-m|-x <acl_spec>} <path>]|[--set <acl_spec> <path>]]
        [-setfattr {-n name [-v value] | -x name} <path>]
        [-setrep [-R] [-w] <rep> <path> ...]
        [-stat [format] <path> ...]
        [-tail [-f] <file>]
        [-test -[defsz] <path>]
        [-text [-ignoreCrc] <src> ...]
        [-touchz <path> ...]
        [-truncate [-w] <length> <path> ...]
        [-usage [cmd ...]]

hdfs的核心工作原理

namenode元資料管理要點

1、什麼是元資料？
hdfs的目錄結構及每一個檔案的塊資訊（塊的id，塊的副本數量，塊的存放位置）

2、元資料由誰負責管理？
namenode

3、namenode把元資料記錄在哪裡？
namenode的實時的完整的元資料儲存在記憶體中；
namenode還會在磁碟中（dfs.namenode.name.dir）儲存記憶體元資料在某個時間點上的映象檔案；
namenode會把引起元資料變化的客戶端操作記錄在edits日誌檔案中；

secondarynamenode會定期從namenode上下載fsimage映象和新生成的edits日誌，然後載入fsimage映象到記憶體中，然後順序解析edits檔案，對記憶體中的元資料物件進行修改（整合）
整合完成後，將記憶體元資料序列化成一個新的fsimage，並將這個fsimage映象檔案上傳給namenode

上述過程叫做：checkpoint操作
提示：secondary namenode每次做checkpoint操作時，都需要從namenode上下載上次的fsimage映象檔案嗎？
第一次checkpoint需要下載，以後就不用下載了，因為自己的機器上就已經有了。
這裡寫圖片描述
補充：secondary namenode啟動位置的配置
預設值

<property>
  <name>dfs.namenode.secondary.http-address</name>
  <value>0.0.0.0:50090</value>
</property>

把預設值改成你想要的機器主機名即可

secondarynamenode儲存元資料檔案的目錄配置：
預設值

<property>
  <name>dfs.namenode.checkpoint.dir</name>
  <value>file://${hadoop.tmp.dir}/dfs/namesecondary</value>
</property>

改成自己想要的路徑即可：/root/dfs/namesecondary

mapreduce執行平臺YARN

mapreduce程式應該是在很多機器上並行啟動，而且先執行map task，當眾多的maptask都處理完自己的資料後，還需要啟動眾多的reduce task，這個過程如果用使用者自己手動排程不太現實，需要一個自動化的排程平臺——hadoop中就為執行mapreduce之類的分散式運算程式開發了一個自動化排程平臺——YARN

安裝yarn叢集
yarn叢集中有兩個角色：
主節點：Resource Manager 1臺
從節點：Node Manager N臺

Resource Manager一般安裝在一臺專門的機器上
Node Manager應該與HDFS中的data node重疊在一起

修改配置檔案：
yarn-site.xml

<property>
<name>yarn.resourcemanager.hostname</name>
<value>hdp-04</value>
</property>

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

然後複製到每一臺機器上

然後在hdp-04上，修改hadoop的slaves檔案，列入要啟動nodemanager的機器
然後將hdp-04到所有機器的免密登陸配置好
然後，就可以用指令碼啟動yarn叢集：
sbin/start-yarn.sh
停止：
sbin/stop-yarn.sh

啟動完成後，可以在windows上用瀏覽器訪問resourcemanager的web埠：
http://hdp-04:8088
看resource mananger是否認出了所有的node manager節點

執行mapreduce程式

首先，為你的mapreduce程式開發一個提交job到yarn的客戶端類（模板程式碼）：
1.描述你的mapreduce程式執行時所需要的一些資訊(比如用哪個mapper、reducer、map和reduce輸出的kv型別、jar包所在路徑、reduce task的數量、輸入輸出資料的路徑)
2.將資訊和整個工程的jar包一起交給yarn
然後，將整個工程（yarn客戶端類+ mapreduce所有jar和自定義類）打成jar包
然後，將jar包上傳到hadoop叢集中的任意一臺機器上
最後，執行jar包中的（YARN客戶端類）

[[email protected] ~]# hadoop jar wc.jar cn.edu360.hadoop.mr.wc.JobSubmitter

#安裝yarn叢集
yarn叢集中有兩個角色：
主節點：Resource Manager 1臺
從節點：Node Manager N臺

Resource Manager一般安裝在一臺專門的機器上
Node Manager應該與HDFS中的data node重疊在一起

修改配置檔案：
yarn-site.xml

<property>
<name>yarn.resourcemanager.hostname</name>
<value>hdp-04</value>
</property>

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>2048</value>
</property>

<property>
<name>yarn.nodemanager.resource.cpu-vcores</name>
<value>2</value>
</property>

然後複製到每一臺機器上

啟動完成後，可以在windows上用瀏覽器訪問resourcemanager的web埠：
http://hdp-04:8088
看resource mananger是否認出了所有的node manager節點

zookeeper 叢集搭建

1.上傳安裝包，解壓
2.修改conf/zoo.cfg

# The number of milliseconds of each tick
tickTime=2000
# The number of ticks that the initial
# synchronization phase can take
initLimit=10
# The number of ticks that can pass between
# sending a request and getting an acknowledgement
syncLimit=5
# the directory where the snapshot is stored.
# do not use /tmp for storage, /tmp here is just
# example sakes.
dataDir=/root/zkdata
# the port at which the clients will connect
clientPort=2181
# Set to "0" to disable auto purge feature
#autopurge.purgeInterval=1
server.1=hdp-01:2888:3888
server.2=hdp-02:2888:3888
server.3=hdp-03:2888:3888

配置檔案修改完後，將安裝包拷貝給hdp-02 和 hdp-03

接著，到hdp-01上，新建資料目錄/root/zkdata，並在目錄中生成一個檔案myid，內容為1
接著，到hdp-02上，新建資料目錄/root/zkdata，並在目錄中生成一個檔案myid，內容為2
接著，到hdp-03上，新建資料目錄/root/zkdata，並在目錄中生成一個檔案myid，內容為3

指令碼批量啟動zookeeper叢集：

#!/usr/bin/env bash
for host in hdp-01 hdp-02 hdp-03
do
echo ${host}:${1}ing....
ssh $host " source /etc/profile;/usr/zookeeper-3.4.6/bin/zkServer.sh ${1}"
done

hadoop 叢集安裝與部署（大資料系列）

什麼是大資料

基本概念

大資料在現實生活中的具體應用

什麼是hadoop

hdfs整體執行機制

搭建hdfs分散式叢集

hdfs叢集組成結構：

安裝hdfs叢集的具體步驟：

安裝hdfs叢集

hdfs客戶端的常用操作命令

hdfs的核心工作原理

namenode元資料管理要點

mapreduce執行平臺YARN

執行mapreduce程式

zookeeper 叢集搭建

hadoop 叢集安裝與部署（大資料系列）

Python的安裝與應用（大資料實驗一）

ZooKeeper叢集安裝與配置（ZooKeeper3.4.6）

Ubuntu16.04 下 hadoop的安裝與配置（偽分散式環境）

Hbase的安裝與部署（叢集版）

Hadoop本地模式、偽分散式和全分散式叢集安裝與部署

Tomcat--安裝與部署（一）

war包的安裝與部署（以兩個Tomcat為例，詳細）

將Maven工程匯出war包（匯出可執行檔案） war包的安裝與部署（以兩個Tomcat為例，詳細）請到：

Centos7 實現Hadoop-2.9.1分散式叢集搭建和部署（三臺機器）

presto的安裝與部署（對接kafka）

Kafka 安裝與部署（單機版）與kafkaDemo除錯測試(包含JAVA Demo)

superset之安裝與部署（Ubuntu16.10)

centos7：Jumpserver安裝與部署（二）

kafka+zookeeper叢集安裝與配置（CENTOS7環境）及開發中遇到的問題解決

Linux與Windows共享資料夾之samba的安裝與使用（Ubuntu為例）

ActiveMQ在Windows下的安裝與啟動（懶人專屬）

高性能HTTP加速器Varnish安裝與配置（包含常見錯誤）

wenbao與數論（大白書）

Docker安裝與使用（從無到有開始二）

hadoop 叢集安裝與部署（大資料系列）

什麼是大資料

基本概念

大資料在現實生活中的具體應用

什麼是hadoop

hdfs整體執行機制

搭建hdfs分散式叢集

hdfs叢集組成結構：

安裝hdfs叢集的具體步驟：

安裝hdfs叢集

hdfs客戶端的常用操作命令

hdfs的核心工作原理

namenode元資料管理要點

mapreduce執行平臺YARN

執行mapreduce程式

zookeeper 叢集搭建

相關推薦