hadoop教學視訊總結(1)
1、hadoop3(聽說比spark快10倍),基於jdk1.8以上,至少3臺機器
更加支援spark,
增加classpath isolation 防止一些不同的jar包版本
支援hdfs的擦除編碼
DataNode 儲存資料新增負載均衡
MapReduce優化
2、hadoop --- hdfs架構
NameNode DataNode secondaryNameNode 主要三種節點,不建議NN 和SNN在一臺機器上,防止磁碟IO
(1)NameNode(NN)節點
上傳下載檔案都需要請求這個節點(提供客戶端的上傳下載功能)
存放元資料(metadata除了檔名,內容以外的所有東西都是元資料,比如大小,檔案格式等等) ,在叢集中只能有一個在工作
(2)DataNode (DN)節點
儲存內容的節點
怎麼存?切成資料塊(block),均勻存放在DataNode上
每個塊都有三個副本(防止資料丟失),不允許一臺機器出現block 的ID,所以三個副本在三個機器
(3)SecondaryNameNode(SNN)節點
元資料存放在記憶體中的(並不穩定,關機即丟失),所以一段時間持久化一次,將資料寫入磁碟中(fsimage(磁碟檔名),edit(操作日誌 增刪改的操作)---實時持久化),
不存放資料,SNN是合併元資料的作用,使記憶體中的資料儲存穩定
根據edit來更新fsimage(3600s(1小時) 間隔)
叢集啟動時候,首先更新一次fsimage,執行時一小時更新一次
3、啟動條件
啟動一個節點,訪問另外一個節點,配置主機名,vim /etc/sysconfig/network
配置hosts對映檔案 vim /etc/hosts
以一臺機器為中心,設定到其他機器免密碼ssh
(1)建立祕鑰
ssh -keygen
cd .ssh/
id_rsa私鑰 id_rsa.pub公鑰
將公鑰copy到其他機器中 ssh-copy-id -i ./id_rsa.pub [email protected]
tar -xvf hadoop....
(3)在/etc/hadoop下配置hadoop-env.sh檔案
(4)NameNode配置,在core-site.xml中新增
(5)SecondaryDataNode配置,在hdfs-site.xml中新增
(6)DataNode配置 ,在worker.xml中配置,直接寫域名即可
(7)將hadoop copy上其他機器中
4、啟動hdfs
(1)格式化(第一次安裝的時候)
(2)啟動
檢視程序