1. 程式人生 > >關於錯誤:OOM ResourceExhaustedError 的完美解決方法

關於錯誤:OOM ResourceExhaustedError 的完美解決方法

遇到的問題:

我使用MobileNet訓練圖片分類器,引數大概有幾百萬個並不是很多,然而報錯OOM ResourceExhaustedError

分析:

這樣的話可能有兩個原因:

(1)batchsize太大,這種只需要將batchsize減小就行了

(2)GPU的視訊記憶體太小,或者剩餘的視訊記憶體太少了

解決:

因為我將batchsize減少到1還是會出現這種錯誤,所以肯定不是batchsize太大的問題。

於是我用命令nvidia-smi查看了我的GPU使用情況,如下:

有個很奇怪的問題,沒有程序在跑,但是視訊記憶體佔用Memory-Usage幾乎被用完了。想通過kill掉程序也沒程序可以kill.用命令fuser -v /dev/nvidia*找執行的程序,也沒找到任何程序。

後來進過別人提醒才發現,是jupyter上許多之前的程式沒有shutdown掉,一直在佔用記憶體,開啟jupyter,如下:

這是我已經shutdown之後的情況,但位置是一樣的,將不用的程式shutdown就好了。

至此,問題完美解決。