1. 程式人生 > >C++和cuda C的結合發揮各自的優點

C++和cuda C的結合發揮各自的優點

本次實驗主要是實現vector複製到cuda中,一般教材上都是使用指標,很是繁瑣,而且STL優秀的演算法不太容易使用。為了實現C++ STL的優秀演算法和cuda的平行計算能力,二設計的本次實驗。

一下程式碼僅供提供思路。 

#include <cuda_runtime.h>
#include <iostream>
#include <vector>
#include <algorithm>
#define DATATYPE float
__global__ void vector_add_gpu_1(DATATYPE *a,DATATYPE *b,DATATYPE *c,int n)
{
    for(int i = 0; i < n; ++i)
    {
        c[i] = a[i] + b[i];
    }
}

int main()
{
    int n;
    std::cout << "請輸入數字" << std::endl;
    std::cin >> n;
    DATATYPE *d_a,*d_b,*d_c,*h_c;
    h_c = (float*)malloc(n*sizeof(float));
    std::vector<DATATYPE> h_a;
    std::vector<DATATYPE> h_b;

    std::cout << "正在賦值" << std::endl;
    for(int i = 0;i < n;++i)
    {
        h_a.push_back(i);
        h_b.push_back(i);

        std::cout << "h_a[" << i << "] = " << h_a[i] << "\t";
        std::cout << "h_b[" << i << "] = " << h_b[i] << "\t";
    }

    std::cout << std::endl;
    std::cout << "GPU運算中" << std::endl;
    cudaMalloc((void**)&d_a,sizeof(DATATYPE) * n);
    cudaMalloc((void**)&d_b,sizeof(DATATYPE) * n);
    cudaMalloc((void**)&d_c,sizeof(DATATYPE) * n);

    cudaMemcpy(d_a,&h_a[0],sizeof(DATATYPE) * n,cudaMemcpyHostToDevice);
    cudaMemcpy(d_b,&h_b[0],sizeof(DATATYPE) * n,cudaMemcpyHostToDevice);

    vector_add_gpu_1<<<1,1>>>(d_a,d_b,d_c,n);

    cudaMemcpy(h_c,d_c,sizeof(DATATYPE) * n,cudaMemcpyDeviceToHost);

    cudaFree(d_a);
    cudaFree(d_b);
    cudaFree(d_c);
    std::cout << "運算完成,輸出。" << std::endl;
    for(int i = 0;i < n;++i)
    {
         std::cout << "h_c[" << i << "] = " << h_c[i] << std::endl;
    }
    return 0;
}