1. 程式人生 > >機器學習torch程式碼訓練過程中常見bug解決經驗

機器學習torch程式碼訓練過程中常見bug解決經驗

1.out of memory 

THCudaCheck FAIL file=/tmp/luarocks_cutorch-scm-1-3726/cutorch/lib/THC/generic/THCStorage.cu line=66 error=2 : out of memory

In 20 module of nn.Sequential:

torch/install/share/lua/5.1/cudnn/Pointwise.lua:63: cuda runtime error (2) : out of memory at /tmp/luarocks_cutorch-scm-1-3726/cutorch/lib/THC/generic/THCStorage.cu:66

stack traceback:

        [C]: in function 'resizeAs'

解決:

linux 使用nvidia-smi -l 檢視當前記憶體使用情況

(1)有可能機器本身的記憶體不夠,譬如只有2G,實際vgg網路一般都需要超過2G的記憶體,所以可以使用cpu的方式,或者檢視使用這個方式http://liipetti.net/erratic/2016/03/21/using-nin-imagenet-conv-in-neural-style/

(2)機器本身記憶體6G,基本夠用,程式執行過程中使用記憶體過大,有可能是使用訓練的圖片比較大,size更改小點

(3)batchSize設定比較大,有些機器記憶體不夠。