c++和cuda混合編程實現傳統神經網絡

阿新 • • 發佈：2018-05-08

fin ice 很慢 break 運行時 txt ads pre gsp

直接放代碼了。。。

實現的是x1+x2=y的預測，但梯度下降很慢。。。233333，gpu運行時間很快！！

//
//  main.cpp
//  bp
//
//  Created by jzc on 2018/4/18.
//  Copyright ? 2018年 jzc. All rights reserved.
//
#include <stdio.h>
#include <iostream>
#include <time.h>
#include <stdlib.h>
#include <math.h>
#include <fstream>
#include  
<cuda_runtime.h>
using namespace std;
#define DATASIZE 10000
#define TESTSIZE 100
#define NEURESIZE 50
#define RW 0.1
#define EPOCH 1000
#define E 2.71828
//打印設備信息
void printDeviceProp(const cudaDeviceProp &prop)
{
    printf("Device Name : %s.\n", prop.name);
    printf("totalGlobalMem : %ld.\n", prop.totalGlobalMem);
    printf( 
"sharedMemPerBlock : %ld.\n", prop.sharedMemPerBlock);
    printf("regsPerBlock : %d.\n", prop.regsPerBlock);
    printf("warpSize : %d.\n", prop.warpSize);
    printf("memPitch : %ld.\n", prop.memPitch);
    printf("maxThreadsPerBlock : %d.\n", prop.maxThreadsPerBlock);
    printf("maxThreadsDim[0 - 2] : %d %d %d.\n 
", prop.maxThreadsDim[0], prop.maxThreadsDim[1], prop.maxThreadsDim[2]);
    printf("maxGridSize[0 - 2] : %d %d %d.\n", prop.maxGridSize[0], prop.maxGridSize[1], prop.maxGridSize[2]);
    printf("totalConstMem : %ld.\n", prop.totalConstMem);
    printf("major.minor : %d.%d.\n", prop.major, prop.minor);
    printf("clockRate : %d.\n", prop.clockRate);
    printf("textureAlignment : %ld.\n", prop.textureAlignment);
    printf("deviceOverlap : %d.\n", prop.deviceOverlap);
    printf("multiProcessorCount : %d.\n", prop.multiProcessorCount);
}

//CUDA 初始化
bool InitCUDA()
{
    int count;
    
    //取得支持Cuda的裝置的數目
    cudaGetDeviceCount(&count);
    
    if (count == 0) {
        fprintf(stderr, "There is no device.\n");
        return false;
    }
    
    int i;
    
    for (i = 0; i < count; i++) {
        
        cudaDeviceProp prop;
        cudaGetDeviceProperties(&prop, i);
        //打印設備信息
        printDeviceProp(prop);
        
        if (cudaGetDeviceProperties(&prop, i) == cudaSuccess) {
            if (prop.major >= 1) {
                break;
            }
        }
    }
    
    if (i == count) {
        fprintf(stderr, "There is no device supporting CUDA 1.x.\n");
        return false;
    }
    
    cudaSetDevice(i);
    
    return true;
}
void init(int num,int range,double a[],double offset){
    for(int i=0;i<num;i++){
        a[i] = (double)(rand()%(range*1000)/1000.0) - offset;
    }
}

void getM(int num,double a[],double m[]){
    m[0] = m[1] = 0.0;
    for(int i=0;i<num;i++){
        if(a[i]<m[0]){
            m[0] = a[i];
        }else if(a[i]>m[1]){
            m[1] = a[i];
        }
    }
}


void normalize(int num,double a[],double m[]){
    for(int i =0;i<num;i++){
        a[i] = (a[i]-m[0]+1)/(m[1]-m[0]+1);
    }
}


void renorm(int num,double a[],double m[]){
    for(int i =0;i<num;i++){
        a[i] = a[i]*(m[1]-m[0]+1) + m[0] - 1;
    }
}


void printArray(int num,double a[]){
    for(int i=0;i<num;i++){
        printf("%6.4lf ",a[i]);
        if((i+1)%10==0){
            cout<<endl;
        }
    }
}

__global__ static void hidenLayer(double x1,double x2,double w1[],double w2[],double yh[]){
    /*for(int i=0;i<NEURESIZE;i++){
        yh[i] = w1[i]*x1 + w2[i]*x2;
        yh[i] = 1/(1+pow(E,0-yh[i]));
    }*/
    const int tid = threadIdx.x;
    int i =tid;
    yh[i] = w1[i]*x1 + w2[i]*x2;
    yh[i] = 1/(1+pow(E,0-yh[i]));
}

double outLayer(double yh[],double v[]){
    double y2;
    for(int i=0;i<NEURESIZE;i++){
        y2 += yh[i] * v[i];
    }
    y2 = 1/(1+pow(E,0-y2));
    return y2;
    
}

__global__ static void update(double x1[],double x2[],double yh[],double v[],double w1[],double w2[],double *loss){
    const int tid = threadIdx.x;
    int i = tid;
    /*for(int i=0;i<NEURESIZE;i++){
        w1[i] += x1[i] * (1-x1[i]) * loss * RW;
        w2[i] += x2[i] * (1-x2[i]) * loss * RW;
        v[i] += yh[i] * loss * RW;
    }*/
    w1[i] += x1[i] * (1-x1[i]) * (*loss) * RW;
    w2[i] += x2[i] * (1-x2[i]) * (*loss) * RW;
    v[i] += yh[i] * (*loss) * RW;
}

/*double test(double w1[],double w2[],double v[],double m1[],double m2[],double my[]){
    double tx1[TESTSIZE],tx2[TESTSIZE],ty[TESTSIZE],tyh[NEURESIZE],ty2[TESTSIZE];
    double avLoss = 0.0;
    
    init(TESTSIZE,10,tx1,0.0);
    init(TESTSIZE,10,tx2,0.0);
    
    for(int i=0;i<TESTSIZE;i++){
        ty[i] = tx1[i] + tx2[i];
    }
    normalize(TESTSIZE,tx1,m1);
    normalize(TESTSIZE,tx2,m2);
    for(int q=0;q<TESTSIZE;q++){
        hidenLayer(tx1[q],tx2[q],w1,w2,tyh);
        ty2[q] = outLayer(tyh,v);
    }
    
    renorm(TESTSIZE,ty2,my);
    for(int i=0;i<TESTSIZE;i++){
        if(i<10){
            printf("%2d y=%2.4f y2=%2.4f\n",i,ty[i],ty2[i]);
        }
        avLoss += pow(ty[i]-ty2[i],2);
    }
    avLoss /= TESTSIZE;
    //cout<<avLoss<<endl;
    return avLoss;
}*/


int main(){
    ofstream outf;
    outf.open("trainloss.txt");
    srand( (unsigned)time(NULL) );
    long starttime = clock();
    double x1[DATASIZE],x2[DATASIZE],y[DATASIZE],y2[DATASIZE];
    double w1[NEURESIZE],w2[NEURESIZE],v[NEURESIZE],yh[NEURESIZE];
    double m1[2],m2[2],my[2];                                      
    double cLoss,realLoss,minTrainLoss = 1.0,minTestLoss = 1.0;
    init(DATASIZE,10,x1,0.0);
    init(DATASIZE,10,x2,0.0);
    init(NEURESIZE,2,w1,1.0);
    init(NEURESIZE,2,w2,1.0);
    init(NEURESIZE,2,v,1.0);
    
    for(int i=0;i<DATASIZE;i++){
        y[i] = x1[i] + x2[i];
    }
    
    //CUDA 初始化
    if (!InitCUDA()) {
        return 0;
    }
    //cudaMalloc 取得一塊顯卡內存
    double *x1_g,*x2_g,*y_g,*y2_g;
    double *w1_g,*w2_g,*v_g,*yh_g;
    double *cLoss_g;
    cudaMalloc((void**)&x1_g, sizeof(double)* DATASIZE);
    cudaMalloc((void**)&x2_g, sizeof(double)* DATASIZE);
    cudaMalloc((void**)&y_g, sizeof(double)* DATASIZE);
    cudaMalloc((void**)&y2_g, sizeof(double)* DATASIZE);
    cudaMalloc((void**)&w1_g, sizeof(double)* NEURESIZE);
    cudaMalloc((void**)&w2_g, sizeof(double)* NEURESIZE);
    cudaMalloc((void**)&v_g, sizeof(double)* NEURESIZE);
    cudaMalloc((void**)&yh_g, sizeof(double)* NEURESIZE);
    cudaMalloc((void**)&cLoss_g, sizeof(double));
    
    //cudaMemcpy 將產生的隨機數復制到顯卡內存中
    //cudaMemcpyHostToDevice - 從內存復制到顯卡內存
    //cudaMemcpyDeviceToHost - 從顯卡內存復制到內存
    cudaMemcpy(w1_g,w1, sizeof(double)*NEURESIZE, cudaMemcpyHostToDevice);
    cudaMemcpy(w2_g,w2, sizeof(double)*NEURESIZE, cudaMemcpyHostToDevice);
    cudaMemcpy(v_g,v, sizeof(double)*NEURESIZE, cudaMemcpyHostToDevice);
    cudaMemcpy(x1_g,x1, sizeof(double)*DATASIZE, cudaMemcpyHostToDevice);
    cudaMemcpy(x2_g,x2, sizeof(double)*DATASIZE, cudaMemcpyHostToDevice);
    cudaMemcpy(y_g,y, sizeof(double)*DATASIZE, cudaMemcpyHostToDevice);
    cudaMemcpy(yh_g,yh, sizeof(double)*NEURESIZE, cudaMemcpyHostToDevice);
    cudaMemcpy(cLoss_g,&cLoss, sizeof(double), cudaMemcpyHostToDevice);
    
    getM(DATASIZE,x1,m1);
    getM(DATASIZE,x2,m2);
    getM(DATASIZE,y,my);
    normalize(DATASIZE,x1,m1);
    normalize(DATASIZE,x2,m2);
    normalize(DATASIZE,y,my);
    
    
    for(int j=0;j<EPOCH;j++){
        double tLoss = 0.0;
        for(int i=0;i<DATASIZE;i++){
            hidenLayer<< < 1, NEURESIZE, 0 >> >(x1_g[i],x2_g[i],w1_g,w2_g,yh_g);
            cudaMemcpy(yh,yh_g, sizeof(double)*NEURESIZE, cudaMemcpyDeviceToHost);
            cudaMemcpy(v,v_g, sizeof(double)*NEURESIZE, cudaMemcpyDeviceToHost);
            y2[i] = outLayer(yh,v);
            cLoss = y2[i] * (1-y2[i]) * (y[i]-y2[i]);
            cudaMemcpy(cLoss_g,&cLoss, sizeof(double), cudaMemcpyHostToDevice);
            update<< < 1, NEURESIZE, 0 >> >(x1_g,x2_g,yh_g,v_g,w1_g,w2_g,cLoss_g);
            cudaMemcpy(&cLoss,cLoss_g, sizeof(double)*NEURESIZE, cudaMemcpyDeviceToHost);
            cLoss = pow(cLoss,2);
            cLoss = cLoss*(my[1]-my[0]+1);
            tLoss += cLoss;
        }
        tLoss /= DATASIZE;
        if(tLoss<minTrainLoss){
            minTrainLoss = tLoss;
        }
        printf("EPOCH--%d, trainLoss--%0.4f\n",j,tLoss);
         outf<<j<<"\t"<<tLoss<<endl;
        
        /*cudaMemcpy(w1,w1_g, sizeof(double)*NEURESIZE, cudaMemcpyDeviceToHost);
        cudaMemcpy(w2,w2_g, sizeof(double)*NEURESIZE, cudaMemcpyDeviceToHost);
        cudaMemcpy(v,v_g, sizeof(double)*NEURESIZE, cudaMemcpyDeviceToHost);
        double avLoss = test(w1,w2,v,m1,m2,my);
        printf("EPOCH--%d, avLoss--%0.4f\n",j,avLoss);
        if(avLoss<minTestLoss){
            minTestLoss = avLoss;
        }*/
        cout<<"------------------"<<endl;
    }
    printf("minTrainLoss--%0.4f\n",minTrainLoss);
    //printf("minTestLoss--%0.4f\n",minTestLoss);
    outf.close();
    
    //Free
    cudaFree(x1_g);
    cudaFree(x2_g);
    cudaFree(y_g);
    cudaFree(w1_g);
    cudaFree(w2_g);
    cudaFree(v_g);
    cudaFree(yh_g);
    cudaFree(cLoss_g);
    
    long endtime = clock()-starttime;
    float execution_time = (float)endtime / (1024 * 1058500);
    cout << "total time cost: " << execution_time<<endl;
 
    
    
    return 0;
}

c++和cuda混合編程實現傳統神經網絡

fin ice 很慢 break 運行時 txt ads pre gsp 直接放代碼了。。。實現的是x1+x2=y的預測，但梯度下降很慢。。。233333，gpu運行時間很快！！ // // main.cpp // bp // // Created by jzc

c++和cuda混合程式設計記錄二

/////帶有繼承關係的記憶體分配遇到了問題，父類，子類 sphere *world_device; cudaMalloc( (void**)&world_device,s

Swift和Objective-C混合編程——Swift調用OC

分享發現 load 另一個 == 方法代碼 swift 應用在iOS應用的開發中。Swift必將代替OC，兩者的趨勢是“短期共存，長期代替”。但曾經有太多的代碼是用OC語言完畢的，而Swift的開發也從 OC中繼承了非常多的特性。兩者也是有非常多的類

Swift 4 和 Objective-C 混合編程（一）快速起步

命名方式 import 編譯器選擇性工程 Swift 4 和 Objective-C 在同一個工程裏的混搭編程的方法你可以在 xcode 裏同時使用 Swift 和 Objective-C（以下簡稱OC）來寫代碼，混搭編程的好處很多，比如允許大量代碼的復用，在性能和開發效率之間找到平衡

簡單上手nodejs調用c++(c++和js的混合編程)

sources and 分模塊 size har dev 出了 api接口編譯工具因為項目的原因，最近經常使用node.js搭RESTful接口。性能還是很不錯啦，感覺比Spring Boot之類的要快。而且在不錯的性能之外，只要程序結構組織好，別讓太多的回調把程序

使用linux-c編程實現簡單的ls命令

使用c實現ls命令使用Linux—c編程實現簡單的ls命令具體代碼如下：加載的頭文件有stdio.h,sys/types.h,dirent.h,unistd.h,sys/stat.h,fcntl.h,string.h等。 void main(int argc,char **argv){

《C#多線程編程實現方式》

所有 cal 優先級 lin threading 內核對象 gin 執行多個一、使用線程的理由 1、可以使用線程將代碼同其他代碼隔離，提高應用程序的可靠性。 2、可以使用線程來簡化編碼。 3、可以使用線程來實現並發執行。二、基本知識 1、進程與線程：進程作為操作系

Qt Quick 之 QML 與 C++ 混合編程具體解釋

ack world 避免 pub start 模板方法另一個一秒 gis Qt Quick 技術的引入。使得你能夠高速構建 UI ，具有動畫、各種絢麗效果的 UI 都不在話下。但它不是萬能的。也有非常多局限性，原來 Qt 的一些技術，比方低階的網絡編程如 Q

C#可擴展編程之MEF學習筆記（三）：導出類的方法和屬性（轉）

學習說了如何 mod ati dem ont num imp 前面說完了導入和導出的幾種方法，如果大家細心的話會註意到前面我們導出的都是類，那麽方法和屬性能不能導出呢？？？答案是肯定的，下面就來說下MEF是如何導出方法和屬性的。　　還是前面的代碼，第二篇中已經提供了下

python編程：函數式編程實現登錄和註冊

name def 函數式編程數據 txt main函數 else if判斷 ima 不知道大家有沒有一種感覺，我明明學會了，為什麽一寫代碼就不知道從何下筆了。初學函數編程的小夥伴通常需要檢測一下自己的學習成果，我們現在就寫一道通過函數來實現登錄和註冊的小程序 def

C 語言泛型編程--quickSort實現

ring log enum endif ide swa none ret sta 1 #ifndef _GENERICQUICKSORT_H_ 2 #define _GENERICQUICKSORT_H_ 3 void generic_swap(void * pa, v

C++/CLI混合編程<Hid示例>

erl rep idp fault over broadcast image patch found 異步IO，支持拔插事件 HidCore 1 #pragma once 2 #include "stdafx.h" 3 #include "HidEvent.h"

win下vs用c++與匯編混合編程環境配置

asmwin下vs用c++與匯編混合編程環境配置

python網絡編程實現TCP和UDP連接

socket python tcp udp 實現TCP #!/usr/bin/env python3 # -*- coding: utf-8 -*- import socket # 創建一個socket: s = socket.socket(socket.AF_INET, socket.S

Java編程實現中英混合字符串數組按首字母排序的方法

數組鍛煉呵呵 indexof pinyin file 附件 col 翻轉在Java中對於字符串數組的排序，我們可以使用Arrays.sort（String[]）方法很便捷的進行排序。例如： ? 1 2 3 4 5 6 7 String[] arra

你嘗試過C語言和Python一起混合編程嗎？兩者相加豈不是無敵了！

官方 wid 結果系統 python語言含義 string .com nbsp C語言是編程語言的祖母，但是隨著一代一代的編程語言長大，所以祖母也是會拍在沙灘上的，很多小小夥伴應該都會學過或者了解C語言，因為軟件系的會教嘛，但是Python我想很多人都沒學過，下面小編給

C++編程實現對工廠產品生產流程的模擬

stream ace back lis 小時 sin cout 分享 queue 1 #include <iostream> 2 #include <list> 3 using namespace std; 4 5 int main (

計算機網絡（十三），Socket編程實現TCP和UDP

成員變量數據報取出回發 ddr 編程讀取輸入 () exce 十三、Socket編程實現TCP和UDP 1.TCP （1）TCPServer.java類 package com.interview.javabasic.socket; import c

C語言編程實現斐波那契數列（遞歸與非遞歸）

() code tdi clu return include 位置 c語言編程數組一.非遞歸 <1>數組 #include<stdio.h> #include<stdlib.h> int main() { int a[1000

C語言編程實現輸入一個非負整數，返回組成它的數字之和（遞歸方法）

第四次 use pri int digi pre 編程 res std 此題目基本思想與非遞歸方法思想一樣，主要是對輸入的數進行取數（對10取余）和縮小（整除10）eg:1234第一次 1234%10取得數4，1234/10縮小為123第二次 123%10取得數3， 1

c++和cuda混合編程 實現傳統神經網絡

相關推薦

c++和cuda混合編程實現傳統神經網絡