1. 程式人生 > >深度學習工作站由於顯示卡驅動問題導致不能使用GPU

深度學習工作站由於顯示卡驅動問題導致不能使用GPU

問題:實驗室深度學習tesla k40c工作站GPU突然不能使用

表現:跑神經網路模型特別慢,記憶體爆滿,但是視訊記憶體卻空著

原因:顯示卡驅動程式不相容,導致顯示卡GPU不可用。

備註:

實驗室顯示卡驅動型號:NVIDIA-Linux-x86_64-384.111.run

解決方案:重灌Linux顯示卡驅動,具體步驟如下所示:

(1),準備驅動程式(通常是.run檔案或者是.deb檔案,本次實驗中採用的是.run檔案)。

(2),遮蔽nouveau驅動。Ubuntu系統整合的顯示卡驅動程式是nouveau,它是第三方為NVIDIA開發的開源驅 動,我們需要先將其遮蔽才能安裝NVIDIA官方驅動。 所以我們要先把驅動加到黑名單blacklist.conf裡。我們要先修改該檔案的屬性才能編輯,

修改屬性:

$sudo chmod 666 /etc/modprobe.d/blacklist.conf

修改檔案:

$sudo vi /etc/modprobe.d/blacklist.conf 

在檔案的最後幾行插入如下程式碼塊:

blacklist vga16fb
blacklist nouveau
blacklist rivafb
blacklist rivatv
blacklist nvidiafb

更新檔案:

sudo update-initramfs -u

(3),安裝驅動

$sudo service lightdm stop  # 關閉圖形介面
$cd /home/xxx/Nvidia                    # 進入下載的.run檔案目錄中
$sudo chmod a+x NVIDIA-Linux-x86_64-xxx.run        # 修改許可權
$sudo ./NVIDIA-Linux-x86_64-xxx.run -no-x-check -no-nouveau-check -no-opengl-files 
# 安裝驅動

比如:是否同意使用DKMS自動的build一個新模組,選擇否。以及是否加入nvidia 32位編譯庫,也選擇否。

(4),測試是否安裝成功

sudo service lightdm start    //啟動圖形介面

使用nvidia-smi命令檢視顯示卡型號,並檢視視訊記憶體具體使用情況:
在這裡插入圖片描述

過程所學

輸出顯示卡具體型號:cat /proc/driver/nvidia/version。(如上,nvidia-smi同樣可以檢視顯示卡型號)
在這裡插入圖片描述

檢視顯示卡是否安裝好:lshw -c video看configurure欄位有沒有driver字樣,若有內容,則顯示卡驅動裝好了。
在這裡插入圖片描述

檢視cuda版本:cat /usr/local/cuda/version.txt

檢視cudnn版本:cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2

可能需要的教程

#Install nvidia-docker and nvidia-docker-plugin
$ wget -P /tmp https://github.com/NVIDIA/nvidia-docker/releases/download/v1.0.1/nvidia-docker_1.0.1-1_amd64.deb
$ sudo dpkg -i /tmp/nvidia-docker*.deb
$ sudo nvidia-docker run –rm nvidia/cuda nvidia-smi  #Test nvidia-smi