關於影象的二維卷積各種版本的實現（C++，Cuda和mex）

阿新 • • 發佈：2019-01-09

　　卷積的相關知識本文不再描述，網上大把的資源，本文給出二維卷積的各種版本的實現。
　　

C++版本

　　首先是最常用的C++版本的卷積實現，程式碼如下：

void Conv2(int** filter, int** arr, int** res, int filterW, int filterH, int arrW, int arrH)  
{  
    int temp;  

    for (int i=0; i<filterH+arrH-1; i++)  
    {  
        for (int j=0; j<filterW+arrW-1; j++)  
        {  
            temp = 0 
;  
            for (int m=0; m<filterH; m++)  
            {  
                for (int n=0; n<filterW; n++)  
                {  
                    if ((i-m)>=0 && (i-m)<arrH && (j-n)>=0 && (j-n)<arrW)  
                    {  
                        temp += filter 
[m][n]*arr[i-m][j-n];  
                    }  
                }  
            }  
            res[i][j] = temp;  
        }  
    }  
}

Matlab版本

quarters = single(imread('eight.tif'));
kernel = single([1 2 1; 0 0 0; -1 -2 -1]);
imagesc(quarters);
colormap(gray);

H = conv2(quarters, kernel, 'same'); 

imagesc(H);
colormap(gray);

Mex版本

　　如何編寫mex這裡就不再描述了，直接上程式碼：
　　

#include "mex.h"

void conv2Mex(float* src, float* dst, int numRows, int numCols, float* kernel)
{
    int boundCol = numCols - 1;
    int boundRow = numRows - 1;

    for (int c = 1; c < boundCol; c++)
    {
        for (int r = 1; r < boundRow - 1; r++)
        {
            int dstIndex = c * numRows + r;
            int kerIndex = 8;
            for (int kc = -1; kc < 2; kc++)
            {
                int srcIndex = (c + kc) * numRows + r;
                for (int kr = -1; kr < 2; kr++)
                    dst[dstIndex] += kernel[kerIndex--] * src[srcIndex + kr];
            }
        }
    }
}

void mexFunction(int nlhs, mxArray *plhs[], int nrhs, mxArray *prhs[])
{
    if (nrhs != 2)
        mexErrMsgTxt("Invaid number of input arguments");

    if (nlhs != 1)
        mexErrMsgTxt("Invalid number of outputs");

    if (!mxIsSingle(prhs[0]) && !mxIsSingle(prhs[1]))
        mexErrMsgTxt("input image and kernel type must be single");

    float* image = (float*)mxGetData(prhs[0]);
    float* kernel = (float*)mxGetData(prhs[1]);

    int numRows = mxGetM(prhs[0]);
    int numCols = mxGetN(prhs[0]);
    int numKRows = mxGetM(prhs[1]);
    int numKCols = mxGetN(prhs[1]);

    if (numKRows != 3 || numKCols != 3)
        mexErrMsgTxt("Invalid kernel size. It must be 3x3");

    plhs[0] = mxCreateNumericMatrix(numRows, numCols, mxSINGLE_CLASS, mxREAL);
    float* out = (float*)mxGetData(plhs[0]);

    conv2Mex(image, out, numRows, numCols, kernel);
}

Cuda版本

#ifndef __CONV2D3X3_H__
#define __CONV2D3X3_H__

extern void conv2Mex(float* in, float* out, int numRows, int numCols, float* kernel);

#endif // __CONV2D3X3_H__
#include "conv2Mex.h"

__global__ void conv2MexCuda(float* src,
                             float* dst,
                             int numRows,
                             int numCols,
                             float* kernel)
{
    int row = blockIdx.x;
    if (row < 1 || row > numRows - 1)
        return;

    int col = blockIdx.y;
    if (col < 1 || col > numCols - 1)
        return;

    int dstIndex = col * numRows + row;
    dst[dstIndex] = 0;
    int kerIndex = 3 * 3 - 1;
    for (int kc = -1; kc < 2; kc++)
    {
        int srcIndex = (col + kc) * numRows + row;
        for (int kr = -1; kr < 2; kr++)
        {
            dst[dstIndex] += kernel[kerIndex--] * src[srcIndex + kr];
        }
    }
}

void conv2Mex(float* src, float* dst, int numRows, int numCols, float* ker)
{
    int totalPixels = numRows * numCols;
    float *deviceSrc, *deviceKer, *deviceDst;

    cudaMalloc(&deviceSrc, sizeof(float) * totalPixels);
    cudaMalloc(&deviceDst, sizeof(float) * totalPixels);
    cudaMalloc(&deviceKer, sizeof(float) * 3 * 3);

    cudaMemcpy(deviceSrc, src, sizeof(float) * totalPixels, cudaMemcpyHostToDevice);
    cudaMemcpy(deviceKer, ker, sizeof(float) * 3 * 3, cudaMemcpyHostToDevice);
    cudaMemset(deviceDst, 0, sizeof(float) * totalPixels);

    dim3 gridSize(numRows, numCols);
    conv2MexCuda<<<gridSize, 1>>>(deviceSrc, deviceDst, numRows, numCols, deviceKer);

    cudaMemcpy(dst, deviceDst, sizeof(float) * totalPixels, cudaMemcpyDeviceToHost);

    cudaFree(deviceSrc);
    cudaFree(deviceDst);
    cudaFree(deviceKer);
}

關於影象的二維卷積各種版本的實現（C++，Cuda和mex）

　　卷積的相關知識本文不再描述，網上大把的資源，本文給出二維卷積的各種版本的實現。　　 C++版本　　首先是最常用的C++版本的卷積實現，程式碼如下： void Conv2(int**

python 影象二維卷積運算

如題，關於卷積的相關文章自行百度，以下連結是知乎相關知識 import numpy as np from scipy import signal,misc import matplotlib.pyplot as plt image=misc.ascent()#

圖像的二維卷積實現

rrh bsp 版本 filter conv2 class amp oid c++ 首先是最常用的C++版本的卷積實現： void Conv2(int** filter, int** arr, int** res, int filterW, int filterH,

二維卷積神經網路的結構理解

針對這個圖，我們對應著卷積的api函式來說： tf.nn.conv2d(input, filter, strides, padding, use_cudnn_on_gpu=None, name=None) 如上圖：第一列為一張輸入影象，大小為7*7*3，

卷積神經網路（CNN）之一維卷積、二維卷積、三維卷積詳解

由於計算機視覺的大紅大紫，二維卷積的用處範圍最廣。因此本文首先介紹二維卷積，之後再介紹一維卷積與三維卷積的具體流程，並描述其各自的具體應用。 1. 二維卷積圖中的輸入的資料維度為14×1414×14，過濾器大小為5×55×5，二者做卷積，輸出的資料維度為10×1

C++實現影象二維DFT離散傅立葉（FFT）程式碼——等效於opencv

這篇文章寫的不錯：首先是一個opencv的dft執行程式碼：進行一些簡單處理：（1）去掉using namespace std(會和dft函式實現過程中的自定義complex複數結構體衝突，導致結構體不明確，驗證發現後面並不需要std名稱空間，若需要自己

MATLAB做矩陣卷積時域做卷積，頻域相乘（時卷頻乘）二維卷積

function out = SJPC(A,B) % 時卷頻乘，可用於求矩陣卷積 [ra,ca] = size(A); [rb,cb] = size(B); r = ra+rb-1; % A，B兩個矩陣做卷積後其行數和列數分別為A，B矩陣的行列數相加減1 c = ca+c

【轉】python中的一維卷積conv1d和二維卷積conv2d

9.png article tail spa .com div exp ims csdn 轉自：https://blog.csdn.net/qq_26552071/article/details/81178932 二維卷積conv2d 給定4維的輸入張量和

在OpenCV環境下寫的灰度影象二維傅立葉換,幅值計算,頻譜平移和將數值歸一化到0到255區間的四個函式

影象處理開發資料、影象處理開發需求、影象處理接私活掙零花錢，可以搜尋公眾號"qxsf321"，並關注！影象處理開發資料、影象處理開發需求、影象處理接私活掙零花錢，可以搜尋公眾號"qxsf321"，並關注！影象處理開發資料、影象處理開發需求、影象處理接私活掙零花錢，可以搜尋

【python實現卷積神經網路】卷積層Conv2D實現（帶stride、padding）

關於卷積操作是如何進行的就不必多說了，結合程式碼一步一步來看卷積層是怎麼實現的。程式碼來源：https://github.com/eriklindernoren/ML-From-Scratch 先看一下其基本的元件函式，首先是determine_padding(filter_shape, ou

DeepLearning.ai作業:(4-2)-- 深度卷積網路例項探究（Deep convolutional models:case studies）

title: ‘DeepLearning.ai作業:(4-2)-- 深度卷積網路例項探究（Deep convolutional models:case studies）’ id: dl-ai-4-2h tags: dl.ai homework categories:

DeepLearning.ai筆記:(4-2)-- 深度卷積網路例項探究（Deep convolutional models:case studies）

title: ‘DeepLearning.ai筆記:(4-2)-- 深度卷積網路例項探究（Deep convolutional models:case studies）’ id: dl-ai-4-2 tags: dl.ai categories: AI Deep

深度學習 --- 卷積神經網路CNN（LeNet-5網路詳解）

卷積神經網路（Convolutional Neural Network，CNN）是一種前饋型的神經網路，其在大型影象處理方面有出色的表現，目前已經被大範圍使用到影象分類、定位等領域中。相比於其他神經網路結構，卷積神經網路需要的引數相對較少，使的其能夠廣泛應用。本節打算先介紹背景和簡單的基本

二維陣列右上左下遍歷（C程式設計進階第5周）

問題描述給定一個row行col列的整數陣列array，要求從array[0][0]元素開始，按從左上到右下的對角線順序遍歷整個陣列。輸入輸入的第一行上有兩個整數，依次為row和col。餘

二叉排序樹基本功能實現（C++）

二叉排序樹（Binary Sort Tree ）也稱二叉搜尋樹（Binary Search Tree），以下簡稱BST。它的特點是左小右大（左子樹小於根，右子樹大於根），令人困惑的是他不允許相等存在，一定要分個高低。這個特點與二叉堆排序有所不同，堆是允許存在相同關鍵字

二維陣列作為函式引數傳遞（C++）

有時候我們也許會不明白為什麼C++中的陣列宣告的時候下標是需要一個常數，而不能是一個變數吶？也許STL模板庫中的向量可以解決變數作為下標的陣列宣告方式，為了節約一些記憶體或者是提高一些效能，也為了功能不重複，故而陣列中的下標採取了常量的方式。 int a[

二叉查詢樹的簡單實現（C語言版）

老司機不多說，直接上程式碼標頭檔案： #ifndef BINARYTREE_FIND_H_INCLUDED #define BINARYTREE_FIND_H_INCLUDED struct TreeNode; typedef struct Tr

詳解二叉查詢樹演算法的實現（c語言）

樹（Tree）是n（n≥0）個結點的有限集。在任意一棵非空樹中：（1）有且僅有一個特定的被稱為根（Root）的結點；（2）當n>1時，其餘結點可分為m（m>0）個互不相交的有限集T1，T2，…，Tm，其中每一個集合本身又是一棵樹，並且稱為根的子樹（SubTre

單例模式的實現（餓漢式和懶漢式）

null cte get pri single singleton ins 安全 tin 1.懶漢模式。 class Singleton { private: static Singleton* m_instance; Singleton(

【視訊】特別適合新手的運維利器ansible入門教程手冊（附帶視訊演示和原始碼）

作者: 李佶澳轉載請保留：原文地址釋出時間：2018/03/12 15:43:00 說明一句話原理文件介紹下載素材兩個命令: ansible 與 ansible-playboo

關於影象的二維卷積各種版本的實現（C++，Cuda和mex）

C++版本

Matlab版本

Mex版本

Cuda版本

相關推薦