1. 程式人生 > >hadoop筆記之切片大小控制

hadoop筆記之切片大小控制

       HDFS的block是邏輯上的資料塊.Hadoop2.0中每一塊預設大小128MB,實際儲存過程中block大小小於等128MB,它是以檔案為儲存物件.如一200MB大小檔案,分兩個資料塊128MB+72MB  這裡的兩個塊大實際小分別是128MB和72MB

演算法分析:

max(minSize, min(maxSize,blockSize))

min(maxSize,blockSize)取maxSize,blockSize之間的最小值

max(minSize, min())minSize, min()之間的最大值

blockSize=128MB

所以增加切片大小有要調整 min(maxSize,blockSize)中maxSize值

減小切片大小調整minSize值.

具體兩個方法如下:

FileInputFormat.setMaxInputSplitSize(job, size);

FileInputFormat.setMinInputSplitSize(job, size);