1. 程式人生 > >hadoop教學視訊總結(1)

hadoop教學視訊總結(1)

1、hadoop3(聽說比spark快10倍),基於jdk1.8以上,至少3臺機器

 更加支援spark,

 增加classpath isolation   防止一些不同的jar包版本 

支援hdfs的擦除編碼

DataNode 儲存資料新增負載均衡

MapReduce優化

2、hadoop --- hdfs架構

NameNode  DataNode  secondaryNameNode 主要三種節點,不建議NN 和SNN在一臺機器上,防止磁碟IO

(1)NameNode(NN)節點

上傳下載檔案都需要請求這個節點(提供客戶端的上傳下載功能)

存放元資料(metadata除了檔名,內容以外的所有東西都是元資料,比如大小,檔案格式等等) ,在叢集中只能有一個在工作

(2)DataNode (DN)節點

儲存內容的節點

怎麼存?切成資料塊(block),均勻存放在DataNode上

每個塊都有三個副本(防止資料丟失),不允許一臺機器出現block 的ID,所以三個副本在三個機器

(3)SecondaryNameNode(SNN)節點

元資料存放在記憶體中的(並不穩定,關機即丟失),所以一段時間持久化一次,將資料寫入磁碟中(fsimage(磁碟檔名),edit(操作日誌 增刪改的操作)---實時持久化),

不存放資料,SNN是合併元資料的作用,使記憶體中的資料儲存穩定

根據edit來更新fsimage(3600s(1小時) 間隔)

叢集啟動時候,首先更新一次fsimage,執行時一小時更新一次

3、啟動條件

啟動一個節點,訪問另外一個節點,配置主機名,vim /etc/sysconfig/network

配置hosts對映檔案   vim  /etc/hosts

以一臺機器為中心,設定到其他機器免密碼ssh

(1)建立祕鑰

ssh -keygen

cd .ssh/

id_rsa私鑰   id_rsa.pub公鑰

將公鑰copy到其他機器中 ssh-copy-id  -i ./id_rsa.pub [email protected]

tar -xvf hadoop....

(3)在/etc/hadoop下配置hadoop-env.sh檔案

(4)NameNode配置,在core-site.xml中新增

(5)SecondaryDataNode配置,在hdfs-site.xml中新增

(6)DataNode配置 ,在worker.xml中配置,直接寫域名即可

(7)將hadoop copy上其他機器中

4、啟動hdfs

(1)格式化(第一次安裝的時候)

(2)啟動

檢視程序