torch學習筆記3.3：實現自定義模組(gpu)

阿新 • • 發佈：2019-01-09

在使用torch時，如果想自己實現一個層，則可以按照《torch學習筆記1：實現自定義層》中的方法來實現。但是如果想要實現一個比較複雜的網路，往往需要自己實現多個層（或類），並且有時可能需要重寫其他模組中已有的函式來達到自己的目的，如果還是在nn模組中新增，會比較混亂，並且不利於本地git倉庫統一管理，這個時候，我們可以自己實現一個像nn一樣的模組，在程式碼中使用時 require即可。

我們來實現一個名為nxn的自定義模組，以及它的cuda版本cunxn模組，其中包含一個自定義的Hello類（lua實現），ReLU類（分別用CPU和GPU實現）。

由於篇幅原因，這裡把torch自定義模組的lua實現，cpu實現，gpu實現分別寫一篇文章，本文介紹cpu實現的ReLU類。

3 檔案說明

這裡介紹的都是cunxn資料夾裡面的。

CMakeLists.txt

可以參考torch自帶模組來寫，主要是cuda檔案的編譯和連結，需要注意的部分內容如下：

......
FIND_PACKAGE(CUDA 4.0 REQUIRED)

SET(src-cuda init.cu)

CUDA_ADD_LIBRARY(cunxn MODULE ${src-cuda})
TARGET_LINK_LIBRARIES(cunxn luaT THC TH)
IF(APPLE)
  SET_TARGET_PROPERTIES(cunxn PROPERTIES
    LINK_FLAGS "-undefined dynamic_lookup" 
)
ENDIF()


### Torch packages supposes libraries prefix is "lib"
SET_TARGET_PROPERTIES(cunxn PROPERTIES
  PREFIX "lib"
  IMPORT_PREFIX "lib")

INSTALL(TARGETS cunxn
  RUNTIME DESTINATION "${Torch_INSTALL_LUA_CPATH_SUBDIR}"
  LIBRARY DESTINATION "${Torch_INSTALL_LUA_CPATH_SUBDIR}")

SET(luasrc init.lua)
INSTALL 
(
  FILES
  ${luasrc}
  DESTINATION "${Torch_INSTALL_LUA_PATH_SUBDIR}/cunxn")

ADD_TORCH_PACKAGE(cunxn "" "${luasrc}")

cunxn-scm-1.rockspec

其中的build部分和其他rockspec檔案一樣

package = "cunxn"
version = "scm-1"

source = {
   url = "git://github.com/soumith/examplepackage.torch",
   tag = "master"
}

dependencies = {
   "torch >= 7.0",
   "cunn",
   "nn"
}

......

init.cu

同init.c的功能一樣，編譯時查詢要編譯的檔案，以及生成libcunxn：

#include "luaT.h"
#include "THC.h"
#include "THLogAdd.h" /* DEBUG: WTF */

#include <thrust/transform.h>
#include <thrust/reduce.h>
#include <thrust/transform_reduce.h>
#include <thrust/functional.h>
#include <thrust/device_ptr.h>

#include "ReLU.cu"



LUA_EXTERNC DLL_EXPORT int luaopen_libcunxn(lua_State *L);

int luaopen_libcunxn(lua_State *L)
{
  lua_newtable(L);

  cunxn_ReLU_init(L);

  return 1;
}

init.lua

require "cutorch"
require "nxn"
require "libcunxn"

ReLU.cu

cuda實現的ReLU

struct reluupdateOutput_functor
{
  __host__ __device__ float operator()(const float& input) const
  {
    return input > 0 ? input : 0;
  }
};

THCState* getCutorchState(lua_State* L)
{
    lua_getglobal(L, "cutorch");
    lua_getfield(L, -1, "getState");
    lua_call(L, 0, 1);
    THCState *state = (THCState*) lua_touserdata(L, -1);
    lua_pop(L, 2);
    return state;
} 

static int cunxn_ReLU_updateOutput(lua_State *L)
{
  printf("GPU version of ReLU updateOutput function\n");
  THCState *state = getCutorchState(L);
  THCudaTensor *input = (THCudaTensor*)luaT_checkudata(L, 2, "torch.CudaTensor");
  THCudaTensor *output = (THCudaTensor*)luaT_getfieldcheckudata(L, 1, "output", "torch.CudaTensor");
  long size = THCudaTensor_nElement(state, input);

  input = THCudaTensor_newContiguous(state, input);

  THCudaTensor_resizeAs(state, output, input);

  thrust::device_ptr<float> output_data(THCudaTensor_data(state, output));
  thrust::device_ptr<float> input_data(THCudaTensor_data(state, input));
  thrust::transform(input_data, input_data+size, output_data, reluupdateOutput_functor());

  THCudaTensor_free(state, input);
  return 1;
}

struct reluupdateGradInput_functor
{
  __host__ __device__ float operator()(const float& output, const float& gradOutput) const
  {
    return gradOutput * (output > 0 ? 1 : 0);
  }
};

static int cunxn_ReLU_updateGradInput(lua_State *L)
{
  printf("GPU version of ReLU updateGradInput function\n");
  THCState *state = getCutorchState(L);
  THCudaTensor *output = (THCudaTensor*)luaT_getfieldcheckudata(L, 1, "output", "torch.CudaTensor");
  THCudaTensor *gradOutput = (THCudaTensor*)luaT_checkudata(L, 3, "torch.CudaTensor");
  THCudaTensor *gradInput = (THCudaTensor*)luaT_getfieldcheckudata(L, 1, "gradInput", "torch.CudaTensor");
  long size = THCudaTensor_nElement(state, output);

  gradOutput = THCudaTensor_newContiguous(state, gradOutput);

  THCudaTensor_resizeAs(state, gradInput, output);

  thrust::device_ptr<float> output_data(THCudaTensor_data(state, output));
  thrust::device_ptr<float> gradOutput_data(THCudaTensor_data(state, gradOutput));
  thrust::device_ptr<float> gradInput_data(THCudaTensor_data(state, gradInput));
  thrust::transform(output_data, output_data+size, gradOutput_data, gradInput_data, reluupdateGradInput_functor());

  THCudaTensor_free(state, gradOutput);
  return 1;
}

static const struct luaL_Reg cunxn_ReLU__ [] = {
  {"ReLU_updateOutput", cunxn_ReLU_updateOutput},
  {"ReLU_updateGradInput", cunxn_ReLU_updateGradInput},
  {NULL, NULL}
};

static void cunxn_ReLU_init(lua_State *L)
{
  luaT_pushmetatable(L, "torch.CudaTensor");
  luaT_registeratname(L, cunxn_ReLU__, "nxn");
  lua_pop(L,1);
}

torch學習筆記3.2：實現自定義模組(cpu)

在使用torch時，如果想自己實現一個層，則可以按照《torch學習筆記1：實現自定義層》中的方法來實現。但是如果想要實現一個比較複雜的網路，往往需要自己實現多個層（或類），並且有時可能需要重寫其他模組中已有的函式來達到自己的目的，如果還是在nn模組中新

torch學習筆記3.3：實現自定義模組(gpu)

torch學習筆記1：實現自定義層

當我們要實現自己的一些idea時，torch自帶的模組和函式已經不能滿足，我們需要自己實現層（或者類），一般的做法是把自定義層加入到已有的torch模組中。實現 lua實現如果自定義層的功能可以通過呼叫torch中已有的函式實現，那就只需要用l

Java Web學習筆記（一）FreeMarker自定義標籤實現生成前端指令碼驗證

最近在學習Java Web因為.net已經寫的想吐了。通過網易雲課堂瞭解了當前常用的SSM框架的使用方法，前期一切都很順利，包括資料庫的訪問、事務提交、物件注入、面向切片等等，但是當我對頁面檢視進行實現時發現相對於.net有一點不方便。Java Web的檢視層的實現方式非常

webservice學習筆記(九):CXF攔截器/自定義攔截器

1.CXF的攔截器 a.CXF攔截器能夠動態的操作webservice請求過程中的操作請求和響應資料 2.攔截器分類 a.按所處的位置分為:伺服器端攔截器,客戶端攔截器 b.按訊息的方向分為:入攔截器,出攔截器 c.按定義者分為:系統攔截器,自定義攔截器 3.攔截器API

android 註解學習筆記二: 元註解和自定義註解

首先看一個自定義的註解： 1、自定義註解 public @interface MyAnnotation { int age(); } 可見定義一個註解非常簡單，只需要使用@interface關鍵字來定義即可。同時我們可以看到，註解的內部可以定義變

com4j學習（2）：Visio自定義模具和形狀，並新增連線點

前言：既然我們想繪製跟自己業務相關的圖形，並讀取Visio圖形中的結構資訊，那麼我們自然會想到要自定義圖形，本文詳細講解如何自定義圖形。正文：首先我們要明白什麼是模具，什麼是形狀，以及兩者之間的關係？模具就相當於一個容器，裡面有很多個形狀，我們可

Linux學習筆記——例說makefile 增加自定義共享庫

0.前言從學習C語言開始就慢慢開始接觸makefile，查閱了很多的makefile的資料但總感覺沒有真正掌握makefile，如果自己動手寫一個makefile總覺得非常吃力。所以特意藉助部落格總結makefile的相關知識，通過例子說明makefile的具體用法。

【暑假學習筆記】之——JavaScript的自定義物件、繫結事件及處理機制

假期已經學了10天，但是事情一直比較多，馬上大三了，做你認為有意義的事！這是js學習的最後一部分：自定義物件：在Js中，除了Array、Date、Number等內建物件外，開發者可以通過Js程式碼建立自己的物件。它也稱為JSON物件。自定義物件有三種建立方式：

叠代器協議：實現自定義叠代器

don info 無限擁有 png script https ava 產生叠代器協議定義了一種標準的方式來產生一個有限或無限序列的值，並且當所有的值都已經被叠代後，就會有一個默認的返回值。當一個對象只有滿足下述條件才會被認為是一個叠代器：它實現了一個 next

tensorflow學習筆記(三)：實現自編碼器

sea start ear var logs cos soft 編碼 red 黃文堅的tensorflow實戰一書中的第四章，講述了tensorflow實現多層感知機。Hiton早年提出過自編碼器的非監督學習算法，書中的代碼給出了一個隱藏層的神經網絡，本人擴展到了多層，改進

開源容器openshift學習筆記（3）：新增Image Stream

開篇之前如果沒有安裝openshift環境可以參考我的博文：centos7下安裝openshift 本系列部落格學習筆記參考《開源容器雲openshift》一書：下載連線：https://download.csdn.net/download/u012371097/10745382

linux學習筆記（3）：vim及輸入輸出

vim的模式命令模式：瀏覽檔案，臨時更改vim的工作模式，對文字批量處理插入模式：對檔案內容進行編輯退出模式：退出vim模式 vim命令模式 1.vim幫助方法1： vim :help 方法2 vimtutor 2.vim工作引數設定臨時設定 :set 引數資訊 :s

機器學習筆記第3課：引數演算法和非引數演算法

什麼是引數機器學習演算法？它與非引數機器學習演算法有何不同？ “假設”通常會大大簡化學習過程，但也會限制學到的東西。將函式簡化為已知形式的演算法，稱為引數機器學習演算法。它包括兩個步驟：選擇函式的形式。從訓練資料中學習該函式的係數。常見的引數機器學習演算法是線

shiro學習筆記（3）--自定義realm、授權

一：自定義Realm 1、繼承AuthorizingRealm（因為該類中有認證、授權的抽象方法，實現簡單） public class MyRealm1 extends AuthorizingRealm{ @Override public String getName(

吳恩達深度學習筆記（3）-神經網路如何實現監督學習？

神經網路的監督學習(Supervised Learning with Neural Networks) 關於神經網路也有很多的種類，考慮到它們的使用效果，有些使用起來恰到好處，但事實表明，到目前幾乎所有由神經網路創造的經濟價值，本質上都離不開一種叫做監督學習的機器學習類別，讓我們舉例看看。

機器學習筆記（3）：線性代數回顧

目錄 1）Matrices and vectors 2）Addition and scalar multiplication 3）Matrix-vector multiplication 4）Matrix-matrix multiplication 5）Matrix multip

TensorFlow學習筆記（3）——CNN在CIFAR10上的實現

CIFAR10是一個對圖片進行10種分類的專案官網提供了資料集的下載，此外官網還有對於資料集的介紹。資料集中資料被分為了兩部分。第一部分是特徵部分，使用一個[10000,3072]的uint8的矩陣進行儲存，每一行向量都是32*32大小的3通道圖片，構成的格式類似於[32,32,3]

Axure學習筆記整理3-掃描棒自動輪播效果

一般來說，現在的移動端開發都會引入身份證和銀行卡OCR掃描，這個也是在註冊和填寫個人資訊的時候非常必要的流程。簡單的原型設計只需要點選進入掃描頁即可。但我對這個掃描互動還是比較感興趣，所以做了一個比較簡單的掃描自動輪播的互動：掃描棒自動輪播效果：第一步：準備一個引導頁

MT7688學習筆記（3）——定製OpenWrt系統及新增自開發軟體

一、將檔案直接編譯進OpenWrt韌體中在原始碼目錄下建立“files”目錄，這個目錄可以看成是根目錄的對映，只要將要打包到韌體的檔案按照根目錄的目錄結構存放檔案即可。例如： 1.修改network配置檔案原始碼韌體 Ubuntu中openwrt-hiwoo

torch學習筆記3.3：實現自定義模組(gpu)

3 檔案說明

CMakeLists.txt

cunxn-scm-1.rockspec

init.cu

init.lua

ReLU.cu

相關推薦