機器學習torch程式碼訓練過程中常見bug解決經驗
阿新 • • 發佈:2019-01-22
1.out of memory
THCudaCheck FAIL file=/tmp/luarocks_cutorch-scm-1-3726/cutorch/lib/THC/generic/THCStorage.cu line=66 error=2 : out of memory
In 20 module of nn.Sequential:
……torch/install/share/lua/5.1/cudnn/Pointwise.lua:63: cuda runtime error (2) : out of memory at /tmp/luarocks_cutorch-scm-1-3726/cutorch/lib/THC/generic/THCStorage.cu:66
stack traceback:
[C]: in function 'resizeAs'
解決:
linux 使用nvidia-smi -l 檢視當前記憶體使用情況
(1)有可能機器本身的記憶體不夠,譬如只有2G,實際vgg網路一般都需要超過2G的記憶體,所以可以使用cpu的方式,或者檢視使用這個方式http://liipetti.net/erratic/2016/03/21/using-nin-imagenet-conv-in-neural-style/
(2)機器本身記憶體6G,基本夠用,程式執行過程中使用記憶體過大,有可能是使用訓練的圖片比較大,size更改小點
(3)batchSize設定比較大,有些機器記憶體不夠。