HDFS無法高效儲存大量小檔案，如何處理好小檔案？

阿新 • • 發佈：2018-11-07

一、HAR檔案方案

為了緩解大量小檔案帶給namenode記憶體的壓力，Hadoop 0.18.0引入了Hadoop Archives(HAR files)，其本質就是在HDFS之上構建一個分層檔案系統。通過執行hadoop archive 命令就可以建立一個HAR檔案。在命令列下，使用者可使用一個以har://開頭的URL就可以訪問HAR檔案中的小檔案。使用HAR files可以減少HDFS中的檔案數量。

下圖為HAR檔案的檔案結構，可以看出來訪問一個指定的小檔案需要訪問兩層索引檔案才能獲取小檔案在HAR檔案中的儲存位置，因此，訪問一個HAR檔案的效率可能會比直接訪問HDFS檔案要低。對於一個mapreduce任務來說，如果使用HAR檔案作為其輸入，仍舊是其中每個小檔案對應一個map task，效率低下。所以，HAR files最好是用於檔案歸檔。

二、Sequence Files方案

除了HAR files，另一種可選是SequenceFile，其核心是以檔名為key，檔案內容為value組織小檔案。10000個100KBde 小檔案，可以編寫程式將這些檔案放到一個SequenceFile檔案，然後就以資料流的方式處理這些檔案，也可以使用MapReduce進行處理。一個SequenceFile是可分割的，所以MapReduce可將檔案切分成塊，每一塊獨立操作。不像HAR，SequenceFile支援壓縮。在大多數情況下，以block為單位進行壓縮是最好的選擇，因為一個block包含多條記錄，壓縮作用在block智商，比reduce壓縮方式（一條一條記錄進行壓縮）的壓縮比高。

把已有的資料轉存為SequenceFile比較慢。比起先寫小檔案，再將小檔案寫入SequenceFile，一個更好的選擇是直接將資料寫入一個SequenceFile檔案，省去小檔案作為中間媒介。

下圖為SequenceFile的檔案結構。HAR files可以列出所有keys，但是SequenceFile是做不到的，因此，在訪問時，只能從檔案頭順序訪問

HDFS無法高效儲存大量小檔案，如何處理好小檔案？

HDFS無法高效儲存大量小檔案，如何處理好小檔案？

C#:讀取html模板檔案，並替換修改檔案中指定值，儲存為修改後的檔案

pandas 讀取本地csv檔案，處理，儲存

Qt中QDomDocument，讀取txt檔案和xml檔案，並且修改xml檔案和儲存修改後的檔案

將tensorflow網路模型（圖+權值）儲存為.pb檔案，並從.pb檔案中還原網路模型

opencv讀取視訊檔案，並將視訊檔案儲存為圖片

Mongo在儲存大量資料時，有資料儲存不上的情況？

商家怎麽玩轉小程序，如何利用小程序留住客戶？極限工坊告訴你

提醒，處理字串和檔案的時候一定要注意編碼

關於原始檔，標頭檔案,靜態連結庫檔案，動態連結庫檔案的的理解

CAD怎麼轉PDF檔案，CAD轉PDF檔案的方法

利用socket技術實現用java實現客戶端向服務端傳送檔案，伺服器端接收檔案並給出一個響應。

我的小抄，您的小抄 cheat：騰圖小抄

ajax 上傳檔案，post上傳檔案，ajax 提交 JSON 格式的資料

如何使用objective c上傳檔案，用flask接收檔案

讀取Excel檔案，並對Excel檔案進行描述性分析

這周擼了兩款小程式，分享下小經驗。

原始檔，標頭檔案,靜態連結庫檔案，動態連結庫檔案的的理解

點選按鈕，自動瀏覽檔案，選好檔案之後自動上傳

Unity動態建立的Mesh，匯出為Obj模型檔案，並生成Prefab檔案

HDFS無法高效儲存大量小檔案，如何處理好小檔案？

相關推薦