-01-RGB彩色影象轉換為灰度影象【ARM NEON加速】

阿新 • • 發佈：2019-01-16

1. NEON簡介

NEON官方的簡介網址：NEON
NEON的主要特點就是single instruction, multiple data（SIMD），擁有專用的ALU和暫存器（d0-d32,q0-q16），基於這種結構很容易實現資料的平行計算，尤其是數學中的向量計算、音訊中雙聲道資料處理、影象中RGB或RGBA彩色影象處理。
SIMD的執行方式如下圖：
SIMD

2. NEON加速例項，RGB2GRAY

從攝像頭或圖片中讀取到的影象通常為彩色的，在進行處理之前需要將其轉換為灰度影象。也就是Matlab,OpenCV中常用到的rgb2gray函式。
在計算機顯示中彩色影象一般由RGB三色組成，若要將其轉換為灰度影象，各通道顏色因為人眼的原因，權值有所不同，公式為：
Gray = R*0.299 + G*0.587 + B*0.114
而在計算機中為了加快運算速度，可以將上面的公式轉化為整數運算，公式為：
Gray = (R * 77 + G * 151 + B * 28 ) / 256
用C語言來實現灰度轉換的程式碼如下：

void reference_convert (uint8_t * __restrict dest, uint8_t * __restrict src, int n)
{
  int i;
  for (i=0; i<n; i++)
  {
    int r = *src++; // load red
    int g = *src++; // load green
    int b = *src++; // load blue 

    // build weighted average:
    int y = (r*77)+(g*151)+(b*28);

    // undo the scale by 256 
 and write to memory:
    *dest++ = (y>>8);
  }
}

接下來就參照參考文件1裡面的設計對這個函式進NEON程式碼的編寫。大家可以自己去看一遍。
參考文件首先參照C程式碼的方式，使用編譯器行內函數（compiler intrinsics）在C語言中呼叫了NEON指令，實現了運算加速。接著又參考了編譯器生成的彙編程式碼，直接編寫了NEON程式碼。最終，彩色轉灰度運算實現了NEON加速，運算週期是直接使用C語言生成的7.5倍。下面是三種方式分別實現後，每個畫素需要處理的指令週期。

  C-version:       15.1 cycles per pixel. 

  NEON-version:     9.9 cycles per pixel.
  Assembler:        2.0 cycles per pixel.

該例子中NEON的加速是還沒有針對A8處理器中的dual-issue特性進行特別的優化、沒有使用資料預載入指令的效果，可見NEON的並行運算加速功能還是很強的。例子最後的彙編程式碼如下：

convert_asm_neon:
      # r0: Ptr to destination data
      # r1: Ptr to source data
      # r2: Iteration count:
      push        {r4-r5,lr}
      lsr         r2, r2, #3
      # build the three constants:
      mov         r3, #77
      mov         r4, #151
      mov         r5, #28
      vdup.8      d3, r3
      vdup.8      d4, r4
      vdup.8      d5, r5
  .loop:
      # load 8 pixels:
      vld3.8      {d0-d2}, [r1]!
      # do the weight average:
      vmull.u8    q3, d0, d3
      vmlal.u8    q3, d1, d4
      vmlal.u8    q3, d2, d5
      # shift and store:
      vshrn.u16   d6, q3, #8
      vst1.8      {d6}, [r0]!
      subs        r2, r2, #1
      bne         .loop
      pop         { r4-r5, pc }

與C語言中一次處理一個畫素的方式不同，彙編程式碼中是一次進行8個畫素點的灰度計算的。彙編程式碼中的迴圈，一次性從記憶體中讀取8個畫素點的RGB值共24個位元組（vld3.8），進行了1次乘法運算（vmull）、2次乘加運算（vmlal）以及1次移位運算（vshrn）得到8個畫素點的灰度值，並最終儲存到連續的8位元組記憶體當中（vst1.8）。
這中間的乘法、乘加、移位運算都是以向量方式並行運算的，一次能處理8個畫素的資料。這也就是NEON能夠實現程式加速的關鍵所在。

在前面也提到例子中的彙編程式碼還是有可以優化的空間的，主要包含兩個方面：dual-issue和預載入。

ARM彙編指南文件中包含了所有的NEON彙編指令格式及用法。
dual-issue在neon_tutorial 這個ppt裡面有說明，優化的基本原理就是連續兩條NEON彙編指令中，第一條指令目的運算元得到結果的指令週期與第二條指令的源運算元的準備週期相近或相同，就能夠提高指令、資料處理的並行性。每個NEON彙編指令具體的指令週期需要檢視文件（針對A9晶片） DDI0409G_cortex_a9_neon_mpe_r3p0_trm](http://101.96.8.165/infocenter.arm.com/help/topic/com.arm.doc.ddi0409g/DDI0409G_cortex_a9_neon_mpe_r3p0_trm.pdf)。
如PPT中的標記出了VEXT和VMLA的指令延時，VEXT得目的運算元結果延時為2，VMLA的源運算元準備延時為2，所以這兩個指令可以配對使用形成dual-issue。

當然，你的彙編程式碼中需要同時包含這兩個指令才能形成配對，而且在指令調整順序時不能夠影響計算結果才行。
pld預載入。前一篇轉載的文件也正是由於用到了PLD指令，在運算迴圈中提前載入了下一次迴圈中需要用到的資料到快取，才實現了很大程度上的資料處理加速。因此，在彙編迴圈程式碼中的合適位置增加PLD指令，能夠大大提高快取命中率，提高程式程式碼的處理速度的。

3. RGB2GRAY的NEON加速優化

雖然前面說到了dual-issue的優化可能性，但是在RGB2GRAY程式碼中，迴圈中的處理的指令僅僅有乘、乘加、移位幾條指令，並不能夠達成dual-issue優化的目的，所以在此不進行優化。
而PLD指令的預載入可以針對r1暫存器進行提前載入，提高快取命中率。
彙編指令格式為：

pld [r1, #24]
pld [r1, #48]

至於具體的預載入偏移，我還沒有詳細測試。但是可以肯定的一點是加入PLD指令後，每畫素的灰度化指令週期一定會更低。

-01-RGB彩色影象轉換為灰度影象【ARM NEON加速】

1. NEON簡介

2. NEON加速例項，RGB2GRAY

3. RGB2GRAY的NEON加速優化

-01-RGB彩色影象轉換為灰度影象【ARM NEON加速】

彩色影象轉換為灰度影象

BMP--24位真彩色轉換為灰度影象

彩色影象批量轉換為灰度影象

利用OpenCV的imread將RGB影象轉化為灰度影象!

將影象RGB值轉換為灰度值的四個方法

如何使用 python3 將RGB 圖片轉換為灰度圖

RGB轉換成灰度影象

60701BMP彩色影象轉化為灰度及二值影象

轉變為灰度影象的演算法優化及馬賽克實現程式碼

二值影象：B&W(黑白影象)、 Gray (灰度影象) 、單色影象//Color(彩色影象)

Matlab之索引影象轉化為灰度圖和真彩圖

BYTE[]陣列轉化為灰度影象CBitimage顯示到mfc視窗中（opencv結果在mfc中的顯示）

24位bmp影象轉成灰度影象

彩色影象RGB通道分別讀到三個灰度影象

在python中使用opencv將RGB影象轉換為HSV及YCrCb影象（附程式碼）

二進位制影象、灰度影象、RGB影象、索引影象

二值影象、灰度影象、彩色影象

NEON 指令集並行技術優化彩色影象轉灰度圖【Android】

img2txt - 將影象轉換為各種基於文字的彩色檔案

-01-RGB彩色影象轉換為灰度影象【ARM NEON加速】

1. NEON簡介

2. NEON加速例項，RGB2GRAY

3. RGB2GRAY的NEON加速優化

相關推薦