煉數成金hadoop視訊乾貨03

著重介紹了HDFS

運行了示例程式wordcount，自己也試了一遍（用的偽分散式）

1.建立資料（和講師的操作有些不一樣，不過我相信自己）

2.執行wordcount程式

3.檢視結果

（可以看出來，只要沒空格，它都看作是一個單詞）

接下來介紹了50030和50070檢視任務和HDFS狀態

......

其中如果想看日誌的話除了命令列也可以直接輸入

檢視堆疊資訊

關閉，再也不能修改，說的很絕對，但是是正確的，因為之後的修改是刪除重寫

其中機架策略看著比較神奇，我知道機架感知的結果，但是不知道以什麼策略感知的，或許是上下文、頻寬，講師也不知道，留著後面探索

回收站，跟windows的機理一樣，刪除了的檔案不會馬上完全刪除。當到一定的容量的時候會自動刪除

快照機制，講師說0.20.2還沒實現，以後會實現，也沒講。

介紹了HDFS檔案操作包括命令列和API（API是給如Java程式碼用的）

幾個命令列命令

... ...

檢視統計資訊 hadoop dfsadmin -report

接下來講了新增新節點方式，不過我覺得他講的不對或者不全，我查了一下網上，隨後詳細實驗一把再寫出來

負載均衡（hdfs儲存）

講師給的截圖有點忽悠人

他是在沒執行hadoop的情況下執行的這個指令碼，真實的情況應該是這樣的

剛開始的時候可以把Log4J的日誌級別降到Info或者DEBUG，這樣顯示的資訊更多

為什麼日誌成了hadoop專案中最多的一種？

一次寫入，不再改變，只能用於分析

Linux下統計目錄下有多少檔案命令

ls|wc -l

shuffle過程的作用

1.壓縮檔案，提高檔案傳輸效率；

2.分擔了reduce的一部分工作。

像split、sort這樣的工作很多MR程式都要做，所以hadoop把他們分離出來，封裝成了一個元件

不必在每個MR程式中自己編寫

MR程式的提交或者說任務的提交可以在任何一臺叢集機器上，不是非得在namenode上

就是說client端可以是datanode、namenode。

啟動JVM很浪費時間和資源，所以有了JVM重用

為什麼namenode需要格式?

格式化不同於磁碟檔案系統的格式化。是初始化元檔案系統資訊，在相應目錄建立current等目錄等

hadoop的資料不修改那還要in_use.lock幹什麼？

最新文章