CUDA程式設計--實現並行矩陣乘法【80行程式碼】

阿新 • • 發佈：2018-12-23

簡述

這裡只寫了方陣之間的乘法，但是本質上都是一樣的。

我測試過100規模的方陣之間的乘法，沒有問題。

程式碼

讀取檔案data.txt
資料格式就是一個數值N，然後來連續的兩個N*N的矩陣。用空格隔開。

#include "cuda_runtime.h"
#include "device_launch_parameters.h"
#include <iostream>
#include <fstream>
#include <stdio.h>
// Kernal:
__global__ void MatrixMultiply 
(int *a, int * b, int *c, int N) {
	int tx = threadIdx.x + blockIdx.x * blockDim.x;
	int ty = threadIdx.y + blockIdx.y * blockDim.y;
	if (tx < N && ty < N) {
		int sum = 0;
		for (int k = 0; k < N; ++k) {
			int adata = a[tx * N + k];
			int bdata = b[k * N + ty];
			sum += adata * bdata; 

		}
		c[tx * N + ty] = sum;
	}
}

cudaError_t matrixMultiplyWithCuda(int *a, int *b, int *c, size_t size);

int main()
{
	std::ifstream in("data.txt");
	int N;
	in >> N;
	if (in.fail()) {
		printf("Something wrong\n");
	}
	else {
		printf("Success read\n");
	}
	// host initial
	int *a = new int 
[N * N];
	int *b = new int[N * N];
	int *c = new int[N * N];

	// read 
	for (int i = 0; i < N; ++i)
		for (int j = 0; j < N; ++j) in >> a[i * N + j];

	for (int i = 0; i < N; ++i)
		for (int j = 0; j < N; ++j) in >> b[i * N + j];

	cudaError_t cudaStatus = matrixMultiplyWithCuda(a, b, c, N);

	for (int i = 0; i < N; ++i) {
		for (int j = 0; j < N; ++j) std::cout << c[i * N + j]<<" ";
		std::cout << std::endl;
	}
	cudaStatus = cudaThreadExit();

	// host free 
	delete[] a;
	delete[] b;
	delete[] c;
	return 0;
}
cudaError_t matrixMultiplyWithCuda(int *a, int *b, int *c, size_t N) {
	int *dev_a = 0;
	int *dev_b = 0;
	int *dev_c = 0;
	cudaError_t cudaStatus;
	cudaStatus = cudaMalloc((void**)&dev_a, N * N * sizeof(int));
	cudaStatus = cudaMalloc((void**)&dev_b, N * N * sizeof(int));
	cudaStatus = cudaMalloc((void**)&dev_c, N * N * sizeof(int));
	cudaStatus = cudaMemcpy(dev_a, a, N * N * sizeof(int), cudaMemcpyHostToDevice);
	cudaStatus = cudaMemcpy(dev_b, b, N * N * sizeof(int), cudaMemcpyHostToDevice);
	if (cudaStatus != cudaSuccess) {
		printf("Something wrong\n");
		goto Error;
	}
	// kernal invocation 
	dim3 threadPerBlock(32, 32);
	dim3 numBlocks(N / threadPerBlock.x + 1, N / threadPerBlock.y + 1);
	MatrixMultiply<<<numBlocks, threadPerBlock>>>(dev_a, dev_b, dev_c, N);
	if (cudaStatus != cudaSuccess) {
		printf( "Calculate wrong\n");
		goto Error;
	}
	cudaStatus = cudaMemcpy(c, dev_c, N * N * sizeof(int), cudaMemcpyDeviceToHost);
Error:
	cudaFree(dev_a);
	cudaFree(dev_b);
	cudaFree(dev_c);
	return cudaStatus;
}

寫入檔案的版本

（也改成了浮點數運算了）

#include "cuda_runtime.h"
#include "device_launch_parameters.h"
#include <iostream>
#include <fstream>
#include <stdio.h>
// Kernal:
__global__ void MatrixMultiply(float *a, float * b, float *c, int N) {
	int tx = threadIdx.x + blockIdx.x * blockDim.x;
	int ty = threadIdx.y + blockIdx.y * blockDim.y;
	if (tx < N && ty < N) {
		float sum = 0;
		for (int k = 0; k < N; ++k) {
			float adata = a[tx * N + k];
			float bdata = b[k * N + ty];
			sum += adata * bdata;
		}
		c[tx * N + ty] = sum;
	}
}

cudaError_t matrixMultiplyWithCuda(float *a, float *b, float *c, size_t size);

int main()
{
	std::ifstream in("data.txt");
	int N;
	in >> N;
	if (in.fail()) {
		printf("Something wrong\n");
	}
	else {
		printf("Success read\n");
	}
	// host initial
	float *a = new float[N * N];
	float *b = new float[N * N];
	float *c = new float[N * N];

	// read 
	for (int i = 0; i < N; ++i)
		for (int j = 0; j < N; ++j) in >> a[i * N + j];

	for (int i = 0; i < N; ++i)
		for (int j = 0; j < N; ++j) in >> b[i * N + j];

	cudaError_t cudaStatus = matrixMultiplyWithCuda(a, b, c, N);

	std::ofstream out("output.txt");
	for (int i = 0; i < N; ++i) {
		for (int j = 0; j < N; ++j) out << c[i * N + j]<<" ";
		out << std::endl;
	}
	cudaStatus = cudaThreadExit();

	// host free 
	delete[] a;
	delete[] b;
	delete[] c;
	return 0;
}
cudaError_t matrixMultiplyWithCuda(float *a, float *b, float *c, size_t N) {
	float *dev_a = 0;
	float *dev_b = 0;
	float *dev_c = 0;
	cudaError_t cudaStatus;
	cudaStatus = cudaMalloc((void**)&dev_a, N * N * sizeof(int));
	cudaStatus = cudaMalloc((void**)&dev_b, N * N * sizeof(int));
	cudaStatus = cudaMalloc((void**)&dev_c, N * N * sizeof(int));
	cudaStatus = cudaMemcpy(dev_a, a, N * N * sizeof(int), cudaMemcpyHostToDevice);
	cudaStatus = cudaMemcpy(dev_b, b, N * N * sizeof(int), cudaMemcpyHostToDevice);
	if (cudaStatus != cudaSuccess) {
		printf("Something wrong\n");
		goto Error;
	}
	// kernal invocation 
	dim3 threadPerBlock(32, 32);
	dim3 numBlocks(N / threadPerBlock.x + 1, N / threadPerBlock.y + 1);
	MatrixMultiply<<<numBlocks, threadPerBlock>>>(dev_a, dev_b, dev_c, N);
	if (cudaStatus != cudaSuccess) {
		printf( "Calculate wrong\n");
		goto Error;
	}
	cudaStatus = cudaMemcpy(c, dev_c, N * N * sizeof(int), cudaMemcpyDeviceToHost);
Error:
	cudaFree(dev_a);
	cudaFree(dev_b);
	cudaFree(dev_c);
	return cudaStatus;
}

CUDA程式設計--實現並行矩陣乘法【80行程式碼】

簡述這裡只寫了方陣之間的乘法，但是本質上都是一樣的。我測試過100規模的方陣之間的乘法，沒有問題。程式碼讀取檔案data.txt 資料格式就是一個數值N，然後來連續的兩個N*N的矩陣。用空格隔開。 #include "cuda

CUDA程式設計--並行矩陣向量乘法【80+行程式碼】

簡述矩陣向量乘法。讀取檔案data.txt 並輸入到output.txt檔案中用typedef方便的修改資料型別（要是寫成模板也是可以的）程式碼 #include "cuda_runtime.h" #include "device_lau

BZOJ2738 矩陣乘法【整體二分 + BIT】

esp lower href sin lag mes online efi https 題目鏈接 BZOJ2738 題解將矩陣中的位置取出來按權值排序直接整體二分 + 二維BIT即可 #include<algorithm> #include<iostr

LSTM實現股票預測--pytorch版本【120+行程式碼】

簡述網上看到有人用Tensorflow寫了的但是沒看到有用pytorch寫的。所以我就寫了一份。寫的過程中沒有參照任何TensorFlow版本的（因為我對TensorFlow目前理解有限），所以寫得比較簡單，看來來似乎也比較容易實現（歡迎各位大佬改進之後，發家致富，帶帶小弟hhh

CUDA程式設計實戰——並行向量求和

多個並行執行緒塊完成兩個向量的求和：程式碼如下（使用了10個並行執行緒塊）：#include <iostream> #include "book.h" using namespace

CUDA程式效能分析-矩陣乘法

前言矩陣乘法非常適合在GPU上並行執行，但是使用GPU並行後能獲得多大的效能提升？本文將通過一些實驗分析CUDA程式的效能。測試環境本文使用Dell XPS 8700作為測試機，相關配置如下： . 型號 D

分治法實現大整數乘法【C++語言】

如果實現傳統演算法中兩個n位整數相乘，第一個整數中的n個數字都要分別乘以第二個整數的n個數字，這樣就一共要做n*n次乘法。看上去設計一個乘法次數少於n*n的演算法是不可能的，但事實證明並非如此，可以使用分治的思想計算兩個大整數的相乘。首先從僅有兩位數字的兩個數12和34考慮，12 = 1 *

MapReduce實現大矩陣乘法

大矩陣乘法為何重要？這個時代（我就不說那個被媒體用爛了的噁心詞彙了），在海量資料中淘金，已是各大網際網路公司的既定目標，亞馬遜是資料化運營的成功典範，Google、百度投巨資用於對海量資料進行深度學習（Deep Learning）研究，阿里把資料與平臺、金融並列成為未來三大戰略。話扯得有點大而遠，但任何偉大

bzoj 2738: 矩陣乘法【整體二分+樹狀數組】

ons amp 主席樹二分 %d r+ 乘法根據 ostream 腦子一抽開始寫主席樹，敲了一會發現不對…… 整體二分，用二維樹狀數組維護值為當前區間的格子個數，然後根據k的大小和當前詢問的子矩陣裏的值和k的大小關系來決定這個詢問放在哪一部分向下遞歸 #include&

C++易於實現的有趣專案【附上完整教程】

簡述喜歡一個女孩，昨天告白被拒了。但是之前答應過她，這個學期她要學的CPP課程最後有一個課程專案，我會幫她。現在的話，以她的個性，估計也不會主動找我問了。所以，才有了這個欄目。希望她在搜尋到的時

C中程式設計實現，strcat函式，最完善程式碼，如果不是，請大神留言

#define _CRT_SECURE_NO_WARNINGS 1 #include <stdio.h> #include <assert.h> #include <string.h> char *My_strcat(c

C#實現語音視訊錄製【基於MCapture + MFile】

在上一篇使用C#採集語音視訊、螢幕桌面【基於MCapture元件】的文章中，我們已經可以採集到語音、視訊、桌面資料了，那麼，接下來我們再結合MFile的錄製功能，便能把這些資料寫到檔案中，生成標準的mp4檔案。使用MCapture+MFile，我們可以實現以下

【怎樣寫程式碼】函數語言程式設計 -- Lambda表示式（一）：引出

如果喜歡這裡的內容，你能夠給我最大的幫助就是轉發，告訴你的朋友，鼓勵他們一起來學習。 If you like the content here, you can give me the greatest help is forwarding, tell you

【轉·開發技術】C#實現 [忘記密碼] 通過【郵箱取回密碼】功能

內容概括：通過引用Jmail元件實現 “通過郵箱找回密碼” 功能前端頁面程式碼 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/

80行程式碼使用Python+tkinter實現一個計算器

閒話不說，直奔主題。建議大家跟著敲一遍程式碼，體會一下程式碼複用、字串方法的運用和動態建立元件的

XCode版【100行程式碼實現最簡單的基於FFMPEG+SDL的視訊播放器】

【來自】 1.新建XCode工程後，發現即使安裝了SDL和FFMPEG也編譯不成功，需要修改各種環境。經過我的不懈努力加百穀啥的...貼個能編譯通過的過程出來。謹記！ 2.首先需要編譯好ffmpeg原始碼，然後還需要安裝SDL（ffmpeg直接編譯，SDL我是通過brew安

【怎樣寫程式碼】函數語言程式設計 -- Lambda表示式（三）：LINQ初步

【怎樣寫程式碼】實現物件的複用 -- 享元模式（二）：解決方案

關於【千行程式碼bug率】的各種思考

先佔個坑。初衷是想如何提高程式碼質量。有幾篇文章還不錯，可以參考下。【千行程式碼bug率】-1 http://www.sohu.com/a/130146757_354963 【千行程式碼bug率】-2 https://www.jianshu.com/p/5f06bf6ed

【R語言-20行程式碼】牛頓迭代法求伽馬函式極大似然估計法的引數估計

簡述研究了下計算公式，簡化了一下，用r語言實現了。演算法解釋牛頓迭代法 x

CUDA程式設計--實現並行矩陣乘法【80行程式碼】

簡述

程式碼

寫入檔案的 版本

相關推薦

寫入檔案的版本