1. 程式人生 > >HDFS小檔案優化方法

HDFS小檔案優化方法

1 HDFS小檔案弊端

HDFS上每個檔案都要在NameNode上建立一個索引,這個索引的大小約為150byte,這樣當小檔案比較多的時候,就會產生很多的索引檔案,一方面會大量佔用NameNode的記憶體空間另一方面就是索引檔案過大使得索引速度變慢。

2 HDFS小檔案解決方案

小檔案的優化無非以下幾種方式:

(1)在資料採集的時候,就將小檔案或小批資料合成大檔案再上傳HDFS。

(2)在業務處理之前,在HDFS上使用MapReduce程式對小檔案進行合併。

(3)在MapReduce處理時,可採用CombineTextInputFormat提高效率。 

3.HDFS小檔案解決方案