1. 程式人生 > >學習Hadoop——HDFS 檔案系統簡介

學習Hadoop——HDFS 檔案系統簡介

HDFS (Hadoop分散式檔案系統)採用master/slave 架構。一個HDFS叢集由一個Namenode和一定數目的Datanodes 組成。

Namenode 是一箇中心伺服器,負責管理檔案系統的名稱(namespace) 以及客戶端對檔案的訪問。叢集的Datanode 一般是

一個節點一個,負責管理它所在的節點上的儲存。

HDFS 提供檔案系統的名稱空間,使用者可以以檔案的形式在其上儲存資料。從內部來看,一個HDFS 檔案其實被分為一個或者

多個數據塊,這些儲存在一組的Datanode 上。Namenode 執行檔案系統的名稱空間操作,比如開啟,關閉,重新命名或者目錄,

也負責確定資料塊到具體的Datanode 節點對映。Datanode 負責處理檔案系統的客戶端讀寫請求。

在Namenode 的統一排程下進行資料塊的建立,刪除和複製等操作。

block:HDFS 中最小的資料儲存單元,最小預設64MB

split:Mapreduce 中最小的計算單元,預設與Block 一一對應