1. 程式人生 > >GDI+下Bitmap逐像素快速讀寫性能測試

GDI+下Bitmap逐像素快速讀寫性能測試

public 技術 技巧

寫在前面的話:

本文針對GDI+下Bitmap操作(Get/SetPixel)進行測試,而非尋求最快速的位圖處理方式。如果你需要速度上的提升,請使用GDI+以外的技術,如並行計算、調用MMX/SSE指令、CUDA等。

這是一個古老的技巧:
使用Bitmap類時經常會用到GetPixel和SetPixel,但是這兩個方法直接使用都比較慢,所以一般都會使用LockBits/UnlockBits將位圖在內存中鎖定,以加快操作速度。
MSDN上的標準參考是這樣的:

技術分享MSDN示例:鎖定內存後拷貝

用指針法會更快,所以你看到的實際代碼,一般是類似這樣的:

技術分享

 1 unsafe public Color GetPixel(int x, int y) 2 { 3     if (this.bmpData.PixelFormat == PixelFormat.Format32bppArgb) 4     { 5         byte* numPtr = (byte*) ((((void*) this.bmpData.Scan0) + (y * this.bmpData.Stride)) + (x * 4)); 6         return Color.FromArgb(numPtr[3], numPtr[2], numPtr[1], numPtr[0]); 7     } 8     if (this.bmpData.PixelFormat == PixelFormat.Format24bppRgb) 9     {10         byte* numPtr2 = (byte*) ((((void*) this.bmpData.Scan0) + (y * this.bmpData.Stride)) + (x * 3));11         return Color.FromArgb(numPtr2[2], numPtr2[1], numPtr2[0]);12     }13     return Color.Empty;14 }

技術分享

因為我比較閑,所以我在想這樣的問題:加快之後到底有多快?

為此,我稍微調整了下之前用過的BitmapEx類(記得應該是人臉識別還是什麽代碼裏用過),改成FastBitmap,然後創建了測試程序,搜集了一系列測試用例。(點擊左上圖片框打開圖片文件,無異常處理)

技術分享

測試機配置如下:

技術分享

測試用例如下:

技術分享

為了保證不受文件格式影響,統一使用24bpp的bmp格式。(感謝科技發展,內存白菜價,不然單個文件將近200MB可真要讓我麻煩一番。)

技術分享

考察分為GetPixel和SetPixel兩個部分,把讀寫分開。測試代碼(以GetPixel為例)非常簡單,遍歷位圖上每個像素點,如下:

技術分享

1 for (int y = 0; y < h; y++)2 {3     for (int x = 0; x < w; x++)4     {5         tmp = bmp.GetPixel(x, y);6     }7 }

技術分享

其中bmp分別為Bitmap和FastBitmap。

為了專註於對比結果,雖然逐像素遍歷圖像非常耗費時間,但並沒有刻意使用並行計算,使用單個CPU內核完成。所以如果你打算用這個程序對特別巨大的圖片(10000×10000數量級以上)進行測試,還請慎重。

技術分享

最後,得到了這樣的測試記錄:

技術分享

從測試結果來看,使用指針後,平均提升效率在90%~95%,也就說性能提高了10~20倍。

這個結果,雖然還不算很快,但我覺得基本到了GDI+的極限了(剩下的就是機器性能的提升了),如果再要提升,可以試試並行計算、C++ native、直接調用MMX/SSE指令、CUDA之類的技術。

我不知道現在技術發展下還有多少用到Bitmap的場合,只是覺得:追求開發效率和性能平衡的時候,Bitmap也能成為一個不錯的選擇。(總比絞盡腦汁寫Win32 ASM來得輕松)

測試程序:點擊下載


後記

有朋友指出:

GDI+這種 LockBits是臨時性的把圖像的數據讀到內存,是不適合於做專業的圖像處理軟件的,專業做的話一個圖像加載後在內存中的格式應該是固定的,這樣做算法也就是直接訪問這段內存的數據。GetPixel之類的函數的存在也不是為了專業的圖像處理的,而是對類似於屏幕取色或DC取色這樣小批量數據時方便處理。

要玩速度,圖像處理方面的算法先是用普通語言寫出來,對算法的核心盡心優化,如果速度還不行,考慮用匯編進一步優化,越簡單的算法,用匯編優化的速度能提高的倍數越高,比如,最簡單的反色算法,3000*4000*24的圖像,一般的語言要100ms左右的處理時間,用匯編的話20ms夠了,不過復雜的算法,一般匯編能提升的檔次不會有這麽明顯。

盡管本文的目的並非追求速度,僅僅是「測試」速度,我還是嘗試著優化了一下代碼,就用上述「反色」操作為例進行了測試。

測試用例選擇#7(4096x4096 @ 24bpp),用時299ms,截圖如下:

技術分享

隨後再次改進算法,得到了52ms的速度提升(約17%)。

技術分享

這個結果,盡管較一般操作方式快了不少,但和「一般的語言100ms左右」比起來,還是「右」得多了一點(笑)。和匯編的「20ms」(無實驗數據)比,差得更遠了。

優化代碼似乎比較有趣,我就繼續試著優化一下。通過調整調用結構,改進算法,使用多線程並行計算,總算是進入50ms了。

仍舊基於Bitmap類的LockBits/UnlockBits。

語言:C#、C#指針

測試機:i3 380M @2.53GHz,2.92G DDR3-1333,Windows 7 32位

速度:約50ms

技術分享


網友測試結果對比

以下是部分熱心網友給出的測試結果數據,加以對比,供諸君參考。

測試項目統一為對規格為4096x4096x24bpp的位圖圖像進行反色處理。

測試1

ImageWizard(作者:laviewpbt)

實現:匯編+VB.NET

配置:i3 380M @2.53GHz,2.92G DDR3-1333,Windows 7 32位

用時:25ms

測試2

臨時測試(作者:蘭征鵬)

實現:VC++.NET調用SSE指令

配置:i7 [email protected],12G PC1333內存,Windows7 64位

用時:12~19ms

測試3

GebImage(作者:xiaotie)

實現:C#重寫全部圖像庫、unsafe指針

配置:優於測試1

用時:33ms

測試4

本文(作者:野比)

實現:GDI+、unsafe指針

配置:同測試1

用時:46ms

(完)


GDI+下Bitmap逐像素快速讀寫性能測試