1. 程式人生 > >伺服器(Dell T360)Ubuntu16.04+Tesla P100+CUDA8.0+CUDNN7.0.5配置

伺服器(Dell T360)Ubuntu16.04+Tesla P100+CUDA8.0+CUDNN7.0.5配置

這篇文章的方法最後也有問題!

最終配置成功版請見下面這個連結的內容:

https://blog.csdn.net/u014106566/article/details/83314626

前言: 一開始我們實驗室嘗試用deb安裝包的方法安裝NVIDIA Tesla P100對應的顯示卡驅動和CUDA,但是總是出現重複登入的問題,迫不得已我們最後採用比較繁瑣的用run檔案安裝顯示卡驅動和CUDA的方法。(還是建議先用deb檔案安裝一下試試,因為比較簡便。)

一、重灌伺服器ubuntu16.04系統

1.製作好ubuntu16.04的U盤啟動盤,將其插到伺服器上。
2.設定U盤啟動
在這裡插入圖片描述
開機時,進入這個介面按一下F2,進入系統設定
在這裡插入圖片描述


然後依次點選System BIOS——Boot Settings——BIOS Boot Settings——Hard-Disk Drive Sequence,通過點選“+”將U盤啟動移動到第一行。
在這裡插入圖片描述
然後點選退出,點選yes,即可重啟系統進入U盤啟動進行安裝。
這是伺服器剛買來時廠家給安裝的系統分割槽:
在這裡插入圖片描述
這是我自己重灌系統所設定的分割槽:在這裡插入圖片描述
(注意:一定要先設定/分割槽,在設定交換空間)

二、安裝顯示卡驅動

1.先去官網上下載對應版本的顯示卡驅動,如下圖所示:
在這裡插入圖片描述
(注意:作業系統選擇Linux 64-bit,否則下載的不是run檔案;cuda對應8.0)
2.解除安裝原來安裝過的顯示卡驅動和遮蔽系統自帶的顯示卡驅動nouveau


解除安裝原來安裝過的顯示卡驅動:
在這裡插入圖片描述

sudo apt-get --purge remove nvidia*

遮蔽系統自帶的顯示卡驅動:
在這裡插入圖片描述
新建blacklist-nouveau.conf檔案,輸入命令:

sudo gedit /etc/modprobe.d/blacklist-nouveau.conf

往檔案中寫入:
blacklist nouveau
options nouveau modeset=0
儲存並退出。這一步是為了禁掉Ubuntu自帶開源驅動nouveau。
然後執行命令:

sudo update-initramfs -u

接下來需要重啟,輸入reboot命令,重啟後執行:

lsmod | grep nouveau

檢視nouveau模組是否被載入。如果什麼都沒輸出,則已禁用。

開始安裝
使用下面命令禁用X server

sudo service lightdm stop

按 Ctrl-Alt+F1 進入命令列介面,開始安裝驅動
給驅動run檔案賦予執行許可權:

sudo chmod a+x NVIDIA-Linux-x86_64-384.66.run

安裝(注意,一定要注意這個引數,否則會造成圖形介面迴圈登入的問題):

sudo ./NVIDIA-Linux-x86_64-384.66.run --no-opengl-files

在安裝過程中的選項:
在這裡插入圖片描述
然後:
重啟電腦reboot
輸入命令nvidia-smi進行測試

三、安裝CUDA8.0

1.先去官網上把run檔案下載下來
2.檢查自己的電腦環境是否具備安裝CUDA的條件
(1) 驗證自己的電腦是否有一個可以支援CUDA的GPU
可以在ubuntu的終端中輸入命令:

$ lspci | grep -i nvidia

會顯示出你的NVIDIA GPU版本資訊,不過不是很詳細。然後去CUDA的官網檢視自己的GPU版本是否在CUDA的支援列表中。
(2)驗證自己的Linux版本是否支援 CUDA(Ubuntu 16.04沒問題)
輸入命令:

$ uname -m && cat /etc/*release

結果顯示:
x86_64
DISTRIB_ID=Ubuntu
DISTRIB_RELEASE=16.04


(3)驗證系統是否安裝了gcc

在終端中輸入:

$  gcc --version      

結果顯示:
gcc (Ubuntu 5.4.0-6ubuntu1~16.04.5) 5.4.0 20160609

若未安裝請使用下列命令進行安裝:

sudo apt-get  install  build-essential

(4)驗證系統是否安裝了kernel header和 package development

a、檢視正在執行的系統核心版本,在終端中輸入:

$  uname –r 

結果顯示:
4.10.0-40-generic
b、在終端中輸入:

$  sudo apt-get install linux-headers-$(uname -r)

可以安裝對應kernel版本的kernel header和package development
結果顯示:

升級了 0 個軟體包,新安裝了 0 個軟體包,要解除安裝 0 個軟體包,有 5個軟體包未被升級。表示系統裡已經有了,不用重複安裝。

若以上各項驗證檢查均滿足要求,便可進行下面的正式安裝過程。如果沒有滿足要求的話,可以參考cuda的官方文件,裡面有詳細的針對每個問題的解決方案。
3.安裝
(1)校驗下載的檔案是否完好
下載完後,用MD5 檢驗,如果序號不和,得重新下載。輸入命令:

$  md5sum cuda_8.0.61_375.26_linux.run

(2)禁用nouveau驅動
安裝顯示卡驅動時已禁用,現在只需用下面命令檢驗一下即可:

$  lsmod | grep nouveau

(3)開始安裝
重啟電腦,進入登入介面的時候,不要登入進入桌面(否則可能會失敗,若不小心進入,請重啟電腦),直接按Ctrl+Alt+F1進入文字模式(命令列介面),登入賬戶。輸入:

 $ sudo service lightdm stop 關閉圖形化介面

切換到cuda安裝檔案的路徑:

$  cd Home/

執行:

$ sudo sh cuda_8.0.61_375.26_linux.run

按照提示一步步操作。
在這裡插入圖片描述
(注意:安裝完可能會提示不完整,在進行以下命令:conda update -n base conda
最後輸入 $ sudo service lightdm start 重新啟動圖形化介面。
同時按住Alt + ctrl +F7,返回到圖形化登入介面,輸入密碼登入。
如果能夠成功登入,則表示不會遇到迴圈登入的問題,基本說明CUDA的安裝成功了。
(如遇到相關重複登入問題見:ttps://blog.csdn.net/QLULIBIN/article/details/78714596)
(4)重啟電腦,檢查Device Node Verification。
執行

$ ls /dev/nvidia*

可能出現a、b兩種結果,請對號入座。
a、若結果顯示
/dev/nvidia0 /dev/nvidiactl /dev/nvidia-uvm
或顯示出類似的資訊,應該有三個(包含一個類似/dev/nvidia-nvm的),則安裝成功。
若出現其他問題參考:ttps://blog.csdn.net/QLULIBIN/article/details/78714596
(5)設定環境變數
終端中輸入 $ sudo gedit /etc/profile
在開啟的檔案末尾,新增以下兩行。

export PATH=/usr/local/cuda-8.0/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-8.0/lib64\
                      ${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

儲存檔案,並重啟。因為source /etc/profile是臨時生效,重啟電腦才是永久生效。

這裡有點與官方安裝文件稍有不同,需要說明:
官方文件裡說只需在終端中執行上述兩條export語句即可,但如果不將它們不寫入/etc/profile檔案的話,這樣的環境變數在你退出終端後就消失了,不起作用了,所以寫入才是永久的做法。
(6)重啟電腦,檢查上述的環境變數是否設定成功。
a、 驗證驅動版本,敲入

$ cat /proc/driver/nvidia/version

結果顯示
NVRM version: NVIDIA UNIX x86_64 Kernel Module 384.81 Sat Sep 2 02:43:11 PDT 2017
GCC version: gcc version 5.4.0 20160609 (Ubuntu 5.4.0-6ubuntu1~16.04.5)
b、 驗證CUDA Toolkit,敲入

$ nvcc -V       會輸出CUDA的版本資訊

如果是這樣的:
The program ‘nvcc’ is currently not installed. You can install it by typing:
sudo apt-get install nvidia-cuda-toolkit
可能是環境配置沒有成功,請重複上述步驟5)。
4.嘗試編譯cuda提供的例子
見網頁:ttps://www.jianshu.com/p/71bc5f02ecd2

四、安裝cudnn7.0.5

1.在官網上下載這三個檔案:
在這裡插入圖片描述
2.執行以下命令:

$ sudo dpkg -i libcudnn7_7.0.5.15-1+cuda8.0_amd64.deb
$ sudo dpkg -i libcudnn7-dev_7.0.5.15-1+cuda8.0_amd64.deb
$ sudo dpkg -i libcudnn7-doc_7.0.5.15-1+cuda8.0_amd64.deb

3.測試cudnn安裝是否成功
輸入以下命令:

$cp -r /usr/src/cudnn_samples_v7/ $HOME
$ cd $HOME/cudnn_samples_v7/mnistCUDNN
$ ./mnistCUDNN

如果測試成功,則會出現以下結果:
在這裡插入圖片描述
安裝完所有,最後重啟一下吧!

$ reboot