大量小檔案的儲存場景，有什麼優化辦法

阿新 • • 發佈：2019-01-19

可以參考Google的GFS以及變種HDFS、淘寶TFS以及騰訊TencentFS的設計。這些都是處理大量小檔案的典範。

大家知道傳統的檔案系統下，每個檔案都要被建立對應的inode之類元資料，但是在海量檔案場景下，傳統FS已經無法承載如此多的元資料IO量以及如此龐大的元資料搜尋計算量了，唯一的做法就是降低元資料量，那麼勢必就要降低檔案實體的數量，所以這些檔案系統無一例外的都是用了這樣一種變通的方法，即在檔案中再建立檔案，比如一個64MB的大檔案，比如其中可以包含16384個4KB的小檔案，但是這個64MB的大檔案只佔用了1個inode，而如果存放4KB的檔案的話，就需要16384個inode了。

那麼如何定址這個大檔案中的小檔案呢？方法就是利用一個旁路資料庫來記錄每個小檔案在這個大檔案中的起始位置和長度等資訊，也就是說將傳統檔案系統的大部分元資料剝離了開來，拿到了單獨的資料庫中存放，這樣通過查詢外部資料庫先找到小檔案具體對應在哪個大檔案中的從哪開始的多長，然後直接發起對這個大檔案的對應地址段的讀寫操作即可。另外還可以建立索引以加速檔案查詢動作。

在一個海量分散式檔案系統中，元資料就像上面的思想一樣是分級的，中控節點，也就是MDS，儲存一級元資料，也就是大檔案與底層塊的對應關係，而資料節點則存放二級元資料，也就是最終的使用者檔案在這些一級大塊中的儲存位置對應關係，經過兩級定址從而讀寫資料。其實這些一級大檔案，就可以認為它們是捲了，也就是在卷管理層之上再存放檔案，這樣就降低了單一空間下的檔案總數量從而提高效能。

作者：張冬
連結：https://www.zhihu.com/question/26504749/answer/33012474

大量小檔案的儲存場景，有什麼優化辦法

大量小檔案的儲存場景，有什麼優化辦法

HDFS無法高效儲存大量小檔案，如何處理好小檔案？

Cocos creator製作微信小遊戲儲存圖片，音訊檔案到本地（手機，瀏覽器）

揭祕淘寶286億海量圖片儲存與處理架構，海量小檔案儲存的解決方案

對海量小檔案儲存優化的一些理解和TFS介紹

[Hadoop]大量小檔案問題及解決方案

mybatis逆向工程，生成的xml檔案重複ResultMap，有上千行程式碼問題。org.apache.ibatis.exceptions.PersistenceException

Hadoop上小檔案儲存處理

linux大量小檔案複製

解決Flume採集資料時在HDFS上產生大量小檔案的問題

在大量資料中進行查詢，有無索引查詢的速度效果測試

spark批量讀取大量小檔案的辦法

Linux下快速刪除大量小檔案的方法探索

物件儲存Object，分散式檔案儲存NAS，分散式塊儲存（ServerSAN）

用Hadoop AVRO進行大量小檔案的處理

解壓檔案和合並大量小檔案的shell指令碼

MySQL（邏輯分層，儲存引擎，sql優化，索引優化以及底層實現(B+Tree)）

讀取一個文件，裡面是字典，到了程式裡面成字串了，有什麼辦法轉回來？

微信公眾號助手如何吸粉，有什麼辦法？

python2.7在使用reload(sys)後，再使用print語句無輸出，有解決辦法嗎?

大量小檔案的儲存場景，有什麼優化辦法

相關推薦