視訊地址:http://pan.baidu.com/s/1dDEgKwD
著重介紹了HDFS
運行了示例程式wordcount,自己也試了一遍(用的偽分散式)
1.建立資料(和講師的操作有些不一樣,不過我相信自己)
2.執行wordcount程式
3.檢視結果
(可以看出來,只要沒空格,它都看作是一個單詞)
接下來介紹了50030和50070檢視任務和HDFS狀態
......
其中如果想看日誌的話除了命令列也可以直接輸入
檢視堆疊資訊
關閉,再也不能修改,說的很絕對,但是是正確的,因為之後的修改是刪除重寫
其中機架策略看著比較神奇,我知道機架感知的結果,但是不知道以什麼策略感知的,或許是上下文、頻寬,講師也不知道,留著後面探索
回收站,跟windows的機理一樣,刪除了的檔案不會馬上完全刪除。當到一定的容量的時候會自動刪除
快照機制,講師說0.20.2還沒實現,以後會實現,也沒講。
介紹了HDFS檔案操作包括命令列和API(API是給如Java程式碼用的)
幾個命令列命令
... ...
檢視統計資訊 hadoop dfsadmin -report
接下來講了新增新節點方式,不過我覺得他講的不對或者不全,我查了一下網上,隨後詳細實驗一把再寫出來
負載均衡(hdfs儲存)
講師給的截圖有點忽悠人
他是在沒執行hadoop的情況下執行的這個指令碼,真實的情況應該是這樣的
剛開始的時候可以把Log4J的日誌級別降到Info或者DEBUG,這樣顯示的資訊更多
為什麼日誌成了hadoop專案中最多的一種?
一次寫入,不再改變,只能用於分析
Linux下統計目錄下有多少檔案命令
ls|wc -l
shuffle過程的作用
1.壓縮檔案,提高檔案傳輸效率;
2.分擔了reduce的一部分工作。
像split、sort這樣的工作很多MR程式都要做,所以hadoop把他們分離出來,封裝成了一個元件
不必在每個MR程式中自己編寫
MR程式的提交或者說任務的提交可以在任何一臺叢集機器上,不是非得在namenode上
就是說client端可以是datanode、namenode。
啟動JVM很浪費時間和資源,所以有了JVM重用
為什麼namenode需要格式?
格式化不同於磁碟檔案系統的格式化。是初始化元檔案系統資訊,在相應目錄建立current等目錄等
hadoop的資料不修改那還要in_use.lock幹什麼?
給目錄上鎖,防止目錄中內容的併發寫衝突