Hadoop教程:HDFS概述
Hadoop檔案系統採用分散式檔案系統設計開發。它在普通硬體上執行。與其他分散式系統不同,HDFS具有很高的容錯性,並且使用低成本的硬體進行設計。
HDFS儲存大量資料並提供更容易的訪問。為了儲存如此巨大的資料,檔案被儲存在多臺機器上。這些檔案以冗餘的方式儲存,以便在發生故障時將系統從可能的資料損失中拯救出來。HDFS還使應用程式可用於並行處理。
HDFS的特點
- 適用於分散式儲存和處理。
- Hadoop提供了一個與HDFS互動的命令介面。
- namenode和datanode的內建伺服器可以方便地檢查叢集的狀態。
- 對檔案系統資料的流訪問。
- HDFS提供檔案許可權和身份驗證。
HDFS架構
下面給出Hadoop檔案系統的架構。

hdfs_architecture.jpg
HDFS遵循主從體系結構,它具有以下元素。
Namenode
namenode是包含GNU/Linux作業系統和namenode軟體的商品硬體。它是一種可以在普通硬體上執行的軟體。具有namenode的系統充當主伺服器,它執行以下任務:
- 管理檔案系統名稱空間。
- 管理客戶對檔案的訪問。
- 它還執行檔案系統操作,如重新命名、關閉和開啟檔案和目錄。
Datanode
datanode是一種具有GNU/Linux作業系統和datanode軟體的普通硬體。對於叢集中的每個節點(商品硬體/系統),都將有一個datanode。這些節點管理其系統的資料儲存。
- 資料節點根據客戶端請求在檔案系統上執行讀寫操作。
- 它們還根據namenode的指令執行塊建立、刪除和複製等操作。
Block
使用者資料一般儲存在HDFS檔案中。檔案系統中的檔案將被分成一個或多個段和/或儲存在單個數據節點中。這些檔案段稱為塊。換句話說,HDFS可以讀寫的最小資料量稱為塊。預設塊大小為64MB,但是可以根據需要在HDFS配置中進行更改而增加。
HDFS的目標
- 故障檢測與恢復: 由於HDFS包含大量的商用硬體,部件故障頻繁。因此,HDFS應該具有快速、自動的故障檢測和恢復機制。
- 海量的資料集: HDFS每個叢集應該有數百個節點,以管理擁有龐大資料集的應用程式。
- 硬體在資料上 當計算髮生在資料附近時,可以有效地完成請求的任務。特別是在涉及到大量資料集的情況下,它會減少網路流量並增加吞吐量。
原文連結: ofollow,noindex">https://www.tutorialspoint.com/...