CUDA學習筆記（4）- 簡單的影象處理

阿新 • • 發佈：2018-12-11

使用GPU處理影象的速度比使用CPU處理影象的速度要快很多，下面是使用GPU與使用CPU做影象處理速度的對比，對同一個影象做簡單的黑色的混色。 BlendImage

可以看出使用GPU處理大約需要耗時10ms左右，而使用CPU處理大約需要耗時50毫秒左右，CUDA處理影象的速度大約是CPU處理的5倍。這裡使用的1維的紋理記憶體，建立並繫結紋理記憶體的步驟如下：

texture<unsigned char, cudaTextureType1D, cudaReadModeElementType> rT;
textureReference *texRefPtr = nullptr;
cudaGetTextureReference 
((const textureReference**)&texRefPtr, &rT);
cudaChannelFormatDesc channelDesc = cudaCreateChannelDesc<unsigned char>();
cudaBindTexture(0, &rT, pDevSrc, &channelDesc, size);

其中，pDevSrc為裝置記憶體指標，size為記憶體的大小。

完整程式碼如下：介面顯示相關，CUDAMainWindow.h

#ifndef CUDA_MAINWINDOW_H
#define CUDA_MAINWINDOW_H 


#include "UIBase/UIBaseWindow.h"
#include <QWidget>
#include <QLabel>
#include <QSlider>
class CUDAMainWindow : public UIBaseWindow
{
	Q_OBJECT

public:
	CUDAMainWindow(QWidget* parent = nullptr);
	~CUDAMainWindow();

private:
	QLabel *m_LeftImage = nullptr;
	QLabel *m_LeftTag = nullptr; 

	QLabel *m_RightImage = nullptr;
	QLabel *m_RightTag = nullptr;
	QSlider *m_Slider = nullptr;

	QImage m_MainImage;
	unsigned char* pCUDAImageData = nullptr;
	unsigned char* pCPUImageData = nullptr;

	// 使用CUDA修改透明度
	QImage cudaBlendImage(float alpha);
	// 使用CPU修改透明度
	QImage normalBlendImage(float alpha);

private slots:
	void onSliderValueChanged(int);
};
#endif

介面顯示相關，CUDAMainWindow.cpp

#include "CUDAMainWindow.h"
#include <QVBoxLayout>
#include <QHBoxLayout>
#include <QTime>
#include <QDebug>
#include "CUDACore/CUDAImageDispose.cuh"

CUDAMainWindow::CUDAMainWindow(QWidget* parent)
	:UIBaseWindow(parent)
{
	QVBoxLayout *mainLayout = new QVBoxLayout(this);
	mainLayout->addSpacing(30);

	QHBoxLayout *topLayout = new QHBoxLayout;
	m_LeftImage = new QLabel;

	// Image Display
	QImage image("./test.jpg");
	m_MainImage = image;
	qreal scaleValue = image.width() * 1.0 / 400;
	image = image.scaled(image.width() * 1.0 / scaleValue, image.height() * 1.0 / scaleValue);
	m_LeftImage->setPixmap(QPixmap::fromImage(image));

	m_RightImage = new QLabel;
	m_RightImage->setPixmap(QPixmap::fromImage(image));

	topLayout->addWidget(m_LeftImage);
	topLayout->addWidget(m_RightImage);

	// Speed Display
	m_LeftTag = new QLabel("CUDA Delay: ");
	m_RightTag = new QLabel("CPU Delay: ");
	QHBoxLayout *midLayout = new QHBoxLayout;
	midLayout->addWidget(m_LeftTag);
	midLayout->addWidget(m_RightTag);

	// Slider Display
	m_Slider = new QSlider(Qt::Horizontal);
	m_Slider->setMaximum(100);
	m_Slider->setMinimum(0);
	m_Slider->setValue(100);
	QObject::connect(m_Slider, SIGNAL(valueChanged(int)), this, SLOT(onSliderValueChanged(int)));

	mainLayout->addLayout(topLayout);
	mainLayout->addLayout(midLayout);
	mainLayout->addStretch();
	mainLayout->addWidget(m_Slider);
}

CUDAMainWindow::~CUDAMainWindow()
{

}

// 使用CUDA修改透明度
QImage CUDAMainWindow::cudaBlendImage(float alpha)
{
	if (pCUDAImageData == nullptr)
		pCUDAImageData = new unsigned char[m_MainImage.byteCount()];

	QTime time;
	time.start();
	blendCudaImage(pCUDAImageData, (unsigned char*)m_MainImage.constBits(), m_MainImage.byteCount(), alpha);

	// 計算時間
	QString str = "CUDA Delay: %1 ms";
	str = str.arg(time.elapsed());
	m_LeftTag->setText(str);

	QImage::Format format = m_MainImage.format();
	QImage image(pCUDAImageData, m_MainImage.width(), m_MainImage.height(), format);

	return image;
}

// 使用CPU修改透明度
QImage CUDAMainWindow::normalBlendImage(float alpha)
{
	if (pCPUImageData == nullptr)
		pCPUImageData = new unsigned char[m_MainImage.byteCount()];

	QTime time;
	time.start();
	for (int i = 0; i < m_MainImage.byteCount(); ++i)
		pCPUImageData[i] = m_MainImage.constBits()[i] * alpha;

	// 計算時間
	QString str = "CPU Delay: %1 ms";
	str = str.arg(time.elapsed());
	m_RightTag->setText(str);

	QImage::Format format = m_MainImage.format();
	QImage image(pCPUImageData, m_MainImage.width(), m_MainImage.height(), format);

	return image;
}

void CUDAMainWindow::onSliderValueChanged(int value)
{
	qreal alpha = value * 1.0 / 100;


	QImage image1 = cudaBlendImage(alpha);
	qreal scaleValue = image1.width() * 1.0 / 400;
	image1 = image1.scaled(image1.width() * 1.0 / scaleValue, image1.height() * 1.0 / scaleValue);
	m_LeftImage->setPixmap(QPixmap::fromImage(image1));

	QImage image2 = normalBlendImage(alpha);
	scaleValue = image2.width() * 1.0 / 400;
	image2 = image1.scaled(image2.width() * 1.0 / scaleValue, image2.height() * 1.0 / scaleValue);
	m_RightImage->setPixmap(QPixmap::fromImage(image2));
}

CUDA處理，CUDAImageDispose.cuh

#ifndef CUDA_IMAGE_DISPOSE_H
#define CUDA_IMAGE_DISPOSE_H

#include "cuda_runtime.h"
#include "stdio.h"
#include "device_launch_parameters.h"

extern "C" void blendCudaImage(unsigned char* pDest, unsigned char* pSrc, int size, float alpha);

#endif

#include "CUDACore/CUDAImageDispose.cuh"

#define BLOCK_DIM 512
texture<unsigned char, cudaTextureType1D, cudaReadModeElementType> rT;

__global__ void blendTexture(unsigned char* pDest, int size, float alpha)
{
	int index = blockIdx.x * blockDim.x + threadIdx.x;
	if (index < size)
		pDest[index] = tex1Dfetch(rT, index) * alpha;
}

void blendTextureFunction(unsigned char* pDest, unsigned char* pSrc, int size, float alpha)
{
	unsigned char *pDevSrc = nullptr;
	cudaMalloc(&pDevSrc, size);
	cudaMemcpy(pDevSrc, pSrc, size, cudaMemcpyHostToDevice);

	unsigned char *pDevDest = nullptr;
	cudaMalloc(&pDevDest, size);

	textureReference *texRefPtr = nullptr;
	cudaGetTextureReference((const textureReference**)&texRefPtr, &rT);
	cudaChannelFormatDesc channelDesc = cudaCreateChannelDesc<unsigned char>();
	cudaBindTexture(0, &rT, pDevSrc, &channelDesc, size);
	blendTexture << <ceil((float)size / BLOCK_DIM), BLOCK_DIM >> >(pDevDest, size, alpha);

	cudaThreadSynchronize();
	cudaMemcpy(pDest, pDevDest, size, cudaMemcpyDeviceToHost);

	cudaUnbindTexture(rT);
	cudaFree(pDevSrc);
	cudaFree(pDevDest);
}

void blendCudaImage(unsigned char* pDest, unsigned char* pSrc, int size, float alpha)
{
	blendTextureFunction(pDest, pSrc, size, alpha);
}

CUDA學習筆記（4）- 簡單的影象處理

使用GPU處理影象的速度比使用CPU處理影象的速度要快很多，下面是使用GPU與使用CPU做影象處理速度的對比，對同一個影象做簡單的黑色的混色。可以看出使用GPU處理大約需要耗時10ms左右，而使用CPU處理大約需要耗時50毫秒左右，CUDA處理影象的速度大約

MySQL學習筆記（4）-- jdbc異常處理和工具類抽取

一：異常處理在前面的學習中，所有的異常全部都是使用throws方法解決的，現在嘗試將異常在程式內部進行處理。為什麼要在程式內部處理異常？因為採用throws方法，一旦產生異常，程式會停止執行，並將異常丟擲，但是此時程式內的資源並沒有釋放出來，而Con

HTML 學習筆記（4）樣式- CSS，影象，表格，列表

轉載： HTML 簡介 CSS (Cascading 串聯 Style Sheets) 用於渲染HTML元素標籤的樣式. CSS 可以通過以下方式新增到HTML中: 內聯樣式- 在HTML元素中使用"style" 屬性 <a href="http://www.

Swift學習筆記（4）：字符串

min mes 不同的常用方法 dice 內存空間全部 there logs 目錄：初始化常用方法或屬性字符串索引初始化創建一個空字符串作為初始值: var emptyString = "" // 空字

oracle學習筆記（4）

linux系統 sta sys 配置默認搜索密碼多用戶登錄 4.oracle數據庫的啟動流程　　windows操作系統　　　　啟動監聽: lsnrctl start; 　　　　啟動數據庫實例:oradim-startup-sid 實例名　　linux系統

AngularJs學習筆記（4）——自定義指令

ref 告訴 ack 生命周期 .com bsp ctrl 參數變量 ng- 對指令的第一印象：它是一個自定義標簽！先來看一個簡單的指令： <!doctype html> <html ng-app="myApp"> <head>

ASP.NET學習筆記（4）——上傳圖片

bmi guid ted 介紹 dir filename content put ima 說明（2017-10-8 23:03:43）： 1. 後面的內容都是一些雜七雜八的，零零碎碎的，之前都直接略過了，不過其實還是挺重要的，這次重新學習要認認真真敲一遍。 2. 明天中午9

Scala語言學習筆記（4）

method point 強制轉換參數 logs https fun 強制 n) 高階函數 // 高階函數 map val salaries = Seq(20000, 70000, 40000) val doubleSalary = (x: Int) => x *

設計模式學習筆記（二）--簡單工廠模式和工廠模式

bsp bubuko rac oid nds gen body () pri 老生長談的兩個設計模式了，這裏把這兩個設計模式對比著來總結一下。什麽是簡單工廠模式？簡單工廠模式：根據傳入工廠類的參數動態決定要創建哪一個產品類的實例。 UML圖如下（以實現一個計算器為例）：

寒假學習筆記（4）

靜態成員限定計劃執行構造函數數據 mark 不能類定義 2018.2.11 類中的常成員關鍵字const，在類定義中聲明數據成員使用關鍵字限定，聲明時不能初始化。初始化列表，類中的任何函數都不能對常數據成員賦值，包括構造函數。為構造函數添加初始化列表是對常

shell學習筆記（4）

shell 基礎筆記雜記一、 1、利用系統函數模擬實現系統腳本啟動特殊顏色效果 1.1 查看系統函數庫 [root@master4 ~]# ll /etc/init.d/functions -rw-r--r--. 1 root root 13948 Sep 16 2015 /etc/init.d/f

1、spring-boot學習筆記（一）簡單入門

ava project nal run plugin mailto 5.4 安全 class a 一、新建普通Maven工程 pom.xml <parent> <groupId>org.springframework.boot</gr

python學習筆記（4）

python函數定義和調用函數就是最基本的一種代碼抽象的方式（python有許多內置函數）調用：要調用一個函數，需要知道函數的名稱和參數比較函數cmp(x,y)就需要兩個參數，如果x<y，就返回-1，如果x==y，就返回0，如果x>y就返回1數據類型轉換函數，不如int()函數可以把其他數據類型

go語言學習筆記（4）--容器與字符串的基本概念

都是 empty 知識 nil 來講 java nbsp unicode ... 一、 Slice(切片) package main import ( "fmt" ) //切片，slice func main() { arr := [...]int{1,2,

beego學習筆記（4）：開發文檔閱讀（3）

new github model div email true ews mail IV 通過運行 bee new quickstart 來創建新的項目，其結構如下： quickstart |-- conf | `-- app.conf |-- controllers

Rx 學習筆記（4）過濾數據流

element 筆記過濾操作 nta 數據 -o UNC ebo Filtering Observables 本文主題為過濾 Observable 的操作符。這裏的 Observable 實質上是可觀察的數據流。 Debounce Distinct ElementAt

Nodejs學習筆記（4）文件操作 fs 及 express 上傳

.cn 緩存單元填充 cep page imm idt mimetype 目錄參考資料 1. fs 模塊 1.1 讀取文件fs.readFile 1.2 寫入文件fs.writeFile 1.3 獲取文件信息fs.stat 1.4 刪除文件fs.unlink 1.5

莫煩大大TensorFlow學習筆記（4）----分類問題

rop entropy cti cross tensor mea orf code edi 1、分類的loss損失函數：可設為交叉熵 cross_entropy = tf.reduce_mean( -tf.reduce_sum ( ys * tf.log ( predic

Python學習筆記（4）：容器、叠代對象、叠代器、生成器、生成器表達式

iter 有一種 ref function 但是 tool 數列 edt 叠代器類型在了解Python的數據結構時，容器(container)、可叠代對象(iterable)、叠代器(iterator)、生成器(generator)、列表/集合/字典推導式(list,se

java暑期學習筆記（4）

earch acea val 註意自動 instance sta mount gree # 2018.7.12 # * 1.StringBuffer * A:StringBuffer的構造方法： * public StringBuffer():無參構造方法

CUDA學習筆記（4）- 簡單的影象處理

相關推薦