CUDA學習筆記（3）- 流並行和執行緒同步

阿新 • • 發佈：2019-02-18

文章目錄

1. 流並行

執行緒流中可以有多個執行緒塊，執行緒塊中可以有多個執行緒。執行緒塊和執行緒流只能處理單個函式，執行緒流可以處理多個函式和同一個函式的不同引數。

cudaStreamCreate(cudaStream_t *pStream) 建立一個執行緒流。

cudaStreamDestroy(cudaStream_t stream) 銷燬執行緒流。

下面是關於流並行的簡單示例，效果同上一節的執行緒並行和塊並行：

__global__ void addKernel(int *c, int *a, int *b)
{
	int i = threadIdx.x;
	c[i] = a[ 
i] + b[i];
}

// 流並行
void myTestCalcStream(void)
{
	int pDataA[5] = { 1, 2, 3, 4, 5 };
	int pDataB[5] = { 11, 22, 33, 44, 55 };
	int pDataC[5] = { 0 };

	// 申請A、B、C的記憶體
	int *pDevDataA = nullptr, *pDevDataB = nullptr, *pDevDataC = nullptr;
	cudaMalloc(&pDevDataA, sizeof(int) * 5);
	cudaMalloc(&pDevDataB, 
 sizeof(int) * 5);
	cudaMalloc(&pDevDataC, sizeof(int) * 5);

	// 記憶體拷貝
	cudaMemcpy(pDevDataA, pDataA, sizeof(int) * 5, cudaMemcpyHostToDevice);
	cudaMemcpy(pDevDataB, pDataB, sizeof(int) * 5, cudaMemcpyHostToDevice);

	cudaStream_t streams[5];
	for (int i = 0; i < 5; ++i)
		cudaStreamCreate(streams + 
 i);

	for (int i=0; i<5; ++i)
		addKernel <<<1, 1, 0, streams[i]>>>(pDevDataC + i, pDevDataA + i, pDevDataB + i);

	cudaDeviceSynchronize();
	cudaThreadSynchronize();
	cudaMemcpy(pDataC, pDevDataC, sizeof(int) * 5, cudaMemcpyDeviceToHost);

	printf("Stream Cala Result is: %d, %d, %d, %d, %d\n", pDataC[0], pDataC[1], pDataC[2], pDataC[3], pDataC[4]);

	for (int i = 0; i < 5; ++i)
		cudaStreamDestroy(streams[i]);

	cudaFree(pDevDataA);
	cudaFree(pDevDataB);
	cudaFree(pDevDataC);
}

函式呼叫比之前的多兩個引數addKernel << <1, 1, 0, streams[i]>> > , 前兩個還表示執行緒塊的數目和每個執行緒塊中執行緒的個數，第三個引數表示每個塊的共享記憶體的大小，第四個引數為流。

2. 執行緒同步

使用函式 __syncthreads()，實現執行緒的同步

__shared__ 表示共享記憶體

下面是關於執行緒同步的示例，示例中分別計算陣列的和、平方和、乘積

__global__ void addKernel2(int *src, int *dest)
{
	int threadIndex = threadIdx.x;
	extern __shared__ int sharedMemory[5];
	sharedMemory[threadIndex] = src[threadIndex];
	__syncthreads();

	if (threadIndex == 0)
	{
		src[threadIndex] = 0;
		for (int i = 0; i < 5; ++i)
			src[threadIndex] += sharedMemory[i];
	}
	else if (threadIndex == 1)
	{
		src[threadIndex] = 0;
		for (int i = 0; i < 5; ++i)
			src[threadIndex] += sharedMemory[i] * sharedMemory[i];
	}
	else if (threadIndex == 2)
	{
		src[threadIndex] = 1;
		for (int i = 0; i < 5; ++i)
			src[threadIndex] *= sharedMemory[i];
	}
}

void threadSyncTest(void)
{
	int srcArray[5] = { 1, 2, 3, 4, 5 };
	int *pDataSrc = nullptr;
	cudaMalloc(&pDataSrc, sizeof(int) * 5);
	cudaMemcpy(pDataSrc, srcArray, sizeof(int) * 5, cudaMemcpyHostToDevice);
	
	addKernel2<<<1, 5, sizeof(int) * 5, 0>>>(pDataSrc, pDataSrc);
	cudaThreadSynchronize();

	int destArray[3] = { 0 };
	cudaMemcpy(destArray, pDataSrc, sizeof(int) * 3, cudaMemcpyDeviceToHost);

	printf("The Thread is : %d, %d, %d\n", destArray[0], destArray[1], destArray[2]);
}

程式執行結果為：
The Thread is : 15, 55, 120

CUDA學習筆記（3）- 流並行和執行緒同步

文章目錄 1. 流並行執行緒流中可以有多個執行緒塊，執行緒塊中可以有多個執行緒。執行緒塊和執行緒流只能處理單個函式，執行緒流可以處理多個函式和同一個函式的不同引數。 cudaStreamCreate(cudaStream_t *pStream) 建立一個

React Native 學習筆記（一）--init 專案和執行專案

宣告：此篇blog是在Windows環境下開發Android專案的學習筆記，最近也是在網上翻找資料發現，網上的資源基本上都是Mac環境下的，而且大部分的資料都是關於React Native + Web / Service 的，關於android的學習資源不多，因此也就想通過

CUDA學習筆記（2）- 執行緒並行和塊並行

1. 獲取顯示卡裝置資訊有些顯示卡支援CUDA有些不支援，那麼如何確定主機的顯示卡裝置是否支援CUDA呢。可以使用下面的函式獲取顯示卡的相關資訊。 cudaError_t cudaGetDeviceCount(int *count) 獲取支援CUD

CUDA學習筆記（LESSON7）——常用優化策略&動態並行化

常用優化策略下面讓我們來看看一些常用的優化策略，這些策略我們之前已經談過，現在只是對它進行一個總結。資料佈局變換（Data layout transformation）第一部分就是我們之前所說的coalescing存取模式，當相鄰執行緒訪問記憶體的相鄰位置的時

Cuda學習筆記（一）——sm流處理器簇對blocks的排程策略

　　由於GPU目前在各行各業的廣泛應用，無論是深度學習、大資料、雲端計算等都離不開GPU的並行加速，前陣子自學了Cuda-c程式設計，希望將來的研究工作能夠用得上。　　Cuda系列總共有4篇，這裡主要用於記錄本人學習過程中的一些問題的思考和總結，及網上彙總摘

TCP/IP詳解學習筆記（3）IP協議ARP協議和RARP協議

out 處理機傳輸包含發送 res 這也進行默認把這三個協議放到一起學習是因為這三個協議處於同一層，ARP協議用來找到目標主機的Ethernet網卡Mac地址，IP則承載要發送的消息。數據鏈路層可以從ARP得到數據的傳送信息，而從IP得到要傳輸的數據信息。　　

spring學習筆記（3）——bean配置細節註意

collect 1.5 之前 ice ble person name return 引用 1. 一個bean引用另外一個bean 當Person類中有一個屬性是Car，那麽該如何配置呢 person： package com.zj.spring; public class

QT學習筆記（3）我的第一個程序

9.png har 中文 gets 有一個 setw 通過坐標關系今天，學習搭建一個空項目，了解程序是如何運行的。（1）新建一個空項目　　1、在創建完空項目之後，項目中只有一個空的項目文件（ .pro）　　　　　　2、然後需要在項目文件（.pro）中添加：

Hibernate學習筆記（3）---hibernate關聯關系映射

gen -m type foreign out eas ner 機制路徑一對一關聯假設有兩個持久化類（實體類）User與Address，它們之間存在一對一的關系 1，通過主鍵關聯（個人偏向另外一種） User.hbm.xml文件配置 <id name="u

C++深度解析教程學習筆記（3）函數的擴展

插入分享技術 lsp 預處理器 _for 返回忽略結合 1.內聯函數 1.1.常量與宏的回顧 (1)C++中的 const 常量可以替代宏常數定義,如: const int A = 3; //等價於 #define A 3 (2)C++中是否有解決方案,可以用來

shell學習筆記（3）

shell 基礎雜記if 一、if基礎 1、單分支 1.1 語法 if語句語法單分支結構語法： if [條件]; then 指令 fi 或 if [條件] then 指令 fi 1.2 例子 [roo

Python學習筆記（3）

python重要的數據類型Dict和Setdict通過key 查找value（key和value關聯）花括號{ }表示這是一個dict，然後按照key:value，寫出來即可。最後一個key:value的都好可以省略註意: 單元素的tuple必須在後面多家加一個逗號dict最後的逗號可以省略由於dict也是

莫煩大大TensorFlow學習筆記（3）----建立神經網絡

nbsp 定義數據學習筆記 variables ati 選擇 mea 有變 plus 1、def add_layer() 添加神經網絡層： import tensorflow as tf def add_layer( inputs, in_size, out_si

jQuery 學習筆記（3）（內容選擇器、attr方法、prop方法，類的操作）

節點 lec ddc 方法 pty 全部如果一個所有內容選擇器： 1、$("div:empty"): 空的div元素 2、$("div:parent"): 非空div元素 3、$("div:contains(text)"): 包含 text 文本（指定文本）的div

Java暑期學習筆記（3）

ring out 顯示字節數順序作用提示 string轉換 gbk # 2018.7.11 # * 1.匿名內部類(只針對重寫一個方法時候使用，不能向下轉型，因為沒有子類類名) * new Inter(){ public

VBA二次學習筆記（3）——批量合並單元格

false spl png next com src 了吧 merge 昨天說明（2018-9-16 22:17:49）： 1. 昨天運動會，100米八個人跑了第五，400米五個人跑了第三，得了個榨汁機。終於結束了哈哈哈！之前一個星期緊張的天天拉肚子，真是沒出息。。不過養

javaweb-servlet學習筆記（3）

tps 技術分享 tex 周期目錄 tom text let 垃圾 servlet的生命周期要經過：實例化，初始化，提供服務，銷毀，回收五個階段。 1.當用戶訪問一個路徑，該路徑對應的servlet被調用的時Servlet就會被實例化。且無論訪問多少次servlet，其

Spring入門學習筆記（3）——事件處理類

aware super 不能 href his 應用 odi eap app 目錄 Spring中的事件處理 Spring內建事件監聽Context事件 Example 自定義Spring事件 Spring中的事件處理 ApplicationContext 是Spr

TCP/IP學習筆記（3）----IP，ARP，RARP協議

ip地址讀取出現請求直接 ip學習筆記 mac height ttl 把這三個協議放到一起學習是因為這三個協議處於同一層（網絡層協議），ARP協議用來找到目標主機的Ethernet網卡Mac地址，IP則承載要發送的消息。數據鏈路層可以從ARP得到數據的傳送信息，而從

Linux學習筆記（3）linux服務管理與啟停

重啟禁用 multi etc 刪除服務 shel ive 系統運行級別一、LINUX 系統服務管理 1、RHEL/OEL 6.X及之前　　service命令用於對系統服務進行管理，比如啟動（start）、停止（stop）、重啟（restart）、查看狀態（statu

CUDA學習筆記（3）- 流並行和執行緒同步

文章目錄

1. 流並行

2. 執行緒同步

相關推薦