C++和cuda C的結合發揮各自的優點
阿新 • • 發佈:2018-11-13
本次實驗主要是實現vector複製到cuda中,一般教材上都是使用指標,很是繁瑣,而且STL優秀的演算法不太容易使用。為了實現C++ STL的優秀演算法和cuda的平行計算能力,二設計的本次實驗。
一下程式碼僅供提供思路。
#include <cuda_runtime.h> #include <iostream> #include <vector> #include <algorithm> #define DATATYPE float __global__ void vector_add_gpu_1(DATATYPE *a,DATATYPE *b,DATATYPE *c,int n) { for(int i = 0; i < n; ++i) { c[i] = a[i] + b[i]; } } int main() { int n; std::cout << "請輸入數字" << std::endl; std::cin >> n; DATATYPE *d_a,*d_b,*d_c,*h_c; h_c = (float*)malloc(n*sizeof(float)); std::vector<DATATYPE> h_a; std::vector<DATATYPE> h_b; std::cout << "正在賦值" << std::endl; for(int i = 0;i < n;++i) { h_a.push_back(i); h_b.push_back(i); std::cout << "h_a[" << i << "] = " << h_a[i] << "\t"; std::cout << "h_b[" << i << "] = " << h_b[i] << "\t"; } std::cout << std::endl; std::cout << "GPU運算中" << std::endl; cudaMalloc((void**)&d_a,sizeof(DATATYPE) * n); cudaMalloc((void**)&d_b,sizeof(DATATYPE) * n); cudaMalloc((void**)&d_c,sizeof(DATATYPE) * n); cudaMemcpy(d_a,&h_a[0],sizeof(DATATYPE) * n,cudaMemcpyHostToDevice); cudaMemcpy(d_b,&h_b[0],sizeof(DATATYPE) * n,cudaMemcpyHostToDevice); vector_add_gpu_1<<<1,1>>>(d_a,d_b,d_c,n); cudaMemcpy(h_c,d_c,sizeof(DATATYPE) * n,cudaMemcpyDeviceToHost); cudaFree(d_a); cudaFree(d_b); cudaFree(d_c); std::cout << "運算完成,輸出。" << std::endl; for(int i = 0;i < n;++i) { std::cout << "h_c[" << i << "] = " << h_c[i] << std::endl; } return 0; }