HDFS檔案寫入與讀取

阿新 • • 發佈：2019-01-21

HDFS檔案寫入與讀寫

副本（3個）選擇策略說明：

1. 若client為DataNode節點，那儲存block時，規則為：副本1，同client的節點上；副本2，不同機架節點上；副本3，同第二個副本機架的另一個節點上；其他副本隨機挑選。

2. 若client不為DataNode節點，那儲存block時，規則為：副本1，隨機選擇一個節點上；副本2，不同副本1，機架上；副本3，同副本2相同的另一個節點上；其他副本隨機挑選。

將一個100M的檔案上傳到HDFS中，Hadoop叢集如上圖所示的三個Rack，8個DataNode節點，叢集配置採用預設配置。HDFS資料塊的預設大小為64M，則該檔案被分為兩個BLOCK進行寫入：Block1（64M）和Block2（36M）。

① Hadoop的Client向叢集中的NameNode請求檔案的寫入（圖中紅色實線）

② NameNode節點接收到寫入請求，記錄block資訊，並返回可用的DataNode節點。比如： Block1 ： DataNode1——DataNode2——DataNode5

Block2 ： DataNode4——DataNode3——DataNode6

需要說明的是：

（1） 如果上傳本機不是一個datanode，而是一個客戶端，那麼就從所有slave機器中隨機選擇一臺datanode作為第一個塊的寫入機器(datanode1)。

而此時如果上傳機器本身就是一個datanode（例如mapreduce作業中task通過DFSClient向hdfs寫入資料的時候），那麼就將該datanode本身作為第一個塊寫入機器(datanode1)。

（2） 隨後在datanode1所屬的機架以外的另外的機架上，隨機的選擇一臺，作為第二個block的寫入datanode機器(datanode2)。

　（3） 在寫第三個block前，先判斷前兩個datanode是否是在同一個機架上，如果是在同一個機架，那麼就嘗試在另外一個機架上選擇第三個datanode作為寫入機器(datanode3)。而如果datanode1和datanode2沒有在同一個機架上，則在datanode2所在的機架上選擇一臺datanode作為datanode3。

③Client接受到NameNode傳送的可用DataNode列表(各個DataNode有排序，後面說明

)之後，開始用流式的方式傳送檔案的Block，過程如下：

1 > 將block1（64M）劃分為64k的packet;

2 > 然後Client將第一個64k的packet傳送給DataNode1;

3 > DataNode1接收完後，將第一個packet傳送給DataNode2，同時client向DataNode1傳送第二個64k的packet；

4 > DataNode2接收完第一個packet後，傳送給DataNode5，同時接收DataNode1發來的第二個packet；

5 > 以此類推，直到將block1傳送完畢；

6 > DataNode1，DataNode2，DataNode5向NameNode傳送“已完成”訊息，DataNode1同時向Client傳送完成通知；

7 > client收到DataNode1發來的訊息後，向NameNode傳送訊息，表示已完成寫入。

8 > 傳送完block1後，再向DataNode4、DataNode3、DataNode6傳送Block2，以此類推。

對③的說明：

NameNode根據Client的寫入請求選取可用的DataNode節點，在NameNode返回該DataNode列表到客戶端Client之前，會在NameNode端根據該寫入客戶端跟 DataNode列表中每個DataNode之間的“距離”由近到遠進行一個排序。如果此時寫入端不是DataNode，則選擇DataNode列表中的第一個排在第一位。客戶端根據這個順序有近到遠的進行資料塊的寫入。在此，判斷兩個DataNode之間“距離”的演算法就比較關鍵，hadoop目前距離計算如下：

每個DataNode都會對應自己在叢集中的位置和層次，如n1的位置資訊為“/r1/n1”,那麼它所處的層次就為2，其餘類推。得到兩個node的層次後，會沿著每個node所處的拓樸樹中的位置向上查詢，如“/r1/n1”的上一級就是“ /r1”，此時兩個節點之間的距離加1，兩個node分別同上向上查詢，直到找到共同的祖先節點位置，此時所得的距離數就用來代表兩個節點之間的距離。如上圖所示，n2與藍色所示DataNode（命名為node）之間的距離就為2（因為node：/r1/node，而n2：/r1/n2，，為了找到相同的祖先節點，二者需要各自向上級查詢1位，即找到共同祖先節點為r1，則1+1=2），而n3則為4（同理）。

如下圖所示為從原始碼角度對HDFS檔案寫入的程式控制流程的描述：

（1）客戶端通過呼叫DistributedFileSystem的create方法建立新檔案。
（2）DistributedFileSystem通過RPC呼叫namenode去建立一個沒有blocks關聯的新檔案，建立前，namenode會做各種校驗，比如檔案是否存在，客戶端有無許可權去建立等。如果校驗通過，namenode就會記錄下新檔案，否則就會丟擲IO異常。
（3）前兩步結束後會返回FSDataOutputStream的物件，和讀檔案的時候相似，FSDataOutputStream被封裝成DFSOutputStream，DFSOutputStream可以協調namenode和datanode。客戶端開始寫資料到DFSOutputStream，DFSOutputStream會把資料切成一個個小packet，然後排成佇列data quene。
（4）DataStreamer會去處理接受data quene，他先問詢namenode這個新的block最適合儲存的在哪幾個datanode裡，比如重複數是3，那麼就找到3個最適合的datanode，把他們排成一個pipeline。DataStreamer把packet按佇列輸出到管道的第一個datanode中，第一個datanode又把packet輸出到第二個datanode中，以此類推。
（5）DFSOutputStream還有一個對列叫ack quene，也是有packet組成，等待datanode的收到響應，當pipeline中的所有datanode都表示已經收到的時候，這時akc quene才會把對應的packet包移除掉。
（6）客戶端完成寫資料後呼叫close方法關閉寫入流
（7）DataStreamer把剩餘得包都刷到pipeline裡然後等待ack資訊，收到最後一個ack後，通知datanode把檔案標示為已完成。

補充：讀取資料

　當對某個檔案的某個block進行讀取的時候，hadoop採取的策略也是一樣：

　　1.首先得到這個block所在的datanode的列表，有幾個副本數該列表就有幾個datanode。

　　2.根據列表中datanode距離讀取端的距離進行從小到大的排序：

　　a)首先查詢本地是否存在該block的副本，如果存在，則將本地datanode作為第一個讀取該block的datanode

　　b)然後查詢本地的同一個rack下是否有儲存了該block副本的datanode

　　c)最後如果都沒有找到，或者讀取資料的node本身不是datanode節點，則返回datanode列表的一個隨機順序。

HDFS檔案寫入與讀取

HDFS檔案寫入與讀取

Unity 簡單的檔案寫入與讀取

C# 記憶體檔案寫入與讀取示例

java Properties配置檔案寫入與讀取

node 操作檔案流 fs 同步與非同步流式檔案的寫入與讀取

文件日誌寫入與讀取

自動化測試-17.selenium數據的分離之txt文本的寫入與讀取

簡單的檔案寫入與儲存 python小效果

C#對文字的寫入與讀取操作

java對excel寫入與讀取

HDFS檔案寫入

簡單的檔案寫入與儲存 python小效果

java無格式int檔案寫入和讀取

android檔案寫入和讀取

PHP 檔案寫入和讀取(必看篇)

Unity C# TXT檔案寫入和讀取以及Split()的用法

NSIS 檢測程式版本號、登錄檔的寫入與讀取例項（學習二）

hdfs 檔案提交與mr作業提交流程分析

iOS plist檔案寫入和讀取

TensorFlow的檔案儲存與讀取——variables_to_restore函式

HDFS檔案寫入與讀取

相關推薦