視訊地址:http://pan.baidu.com/s/1dDEgKwD


著重介紹了HDFS

運行了示例程式wordcount,自己也試了一遍(用的偽分散式)

1.建立資料(和講師的操作有些不一樣,不過我相信自己)

2.執行wordcount程式

3.檢視結果

(可以看出來,只要沒空格,它都看作是一個單詞)


接下來介紹了50030和50070檢視任務和HDFS狀態

......

其中如果想看日誌的話除了命令列也可以直接輸入

http://localhost:50070/logs/

http://localhost:50030/logs/

檢視堆疊資訊

http://localhost:50030/stacks


關閉,再也不能修改,說的很絕對,但是是正確的,因為之後的修改是刪除重寫


其中機架策略看著比較神奇,我知道機架感知的結果,但是不知道以什麼策略感知的,或許是上下文、頻寬,講師也不知道,留著後面探索

回收站,跟windows的機理一樣,刪除了的檔案不會馬上完全刪除。當到一定的容量的時候會自動刪除

快照機制,講師說0.20.2還沒實現,以後會實現,也沒講。


介紹了HDFS檔案操作包括命令列和API(API是給如Java程式碼用的)

幾個命令列命令

... ...

檢視統計資訊 hadoop dfsadmin -report


接下來講了新增新節點方式,不過我覺得他講的不對或者不全,我查了一下網上,隨後詳細實驗一把再寫出來


負載均衡(hdfs儲存)

講師給的截圖有點忽悠人

他是在沒執行hadoop的情況下執行的這個指令碼,真實的情況應該是這樣的


剛開始的時候可以把Log4J的日誌級別降到Info或者DEBUG,這樣顯示的資訊更多


為什麼日誌成了hadoop專案中最多的一種?

一次寫入,不再改變,只能用於分析


Linux下統計目錄下有多少檔案命令

ls|wc -l


shuffle過程的作用

1.壓縮檔案,提高檔案傳輸效率;

2.分擔了reduce的一部分工作。


像split、sort這樣的工作很多MR程式都要做,所以hadoop把他們分離出來,封裝成了一個元件

不必在每個MR程式中自己編寫


MR程式的提交或者說任務的提交可以在任何一臺叢集機器上,不是非得在namenode上

就是說client端可以是datanode、namenode。


啟動JVM很浪費時間和資源,所以有了JVM重用


為什麼namenode需要格式?

格式化不同於磁碟檔案系統的格式化。是初始化元檔案系統資訊,在相應目錄建立current等目錄等


hadoop的資料不修改那還要in_use.lock幹什麼?

給目錄上鎖,防止目錄中內容的併發寫衝突