安裝ubuntu server16.04伺服器和tensorflow-gpu總結
安裝ubuntu server16.04伺服器參照:https://wenku.baidu.com/view/3159aa3a49d7c1c708a1284ac850ad02de8007c8.html
該方法中的U盤燒錄採用Universal-USB-installer-1.9.6.4。缺點為:不能本地安裝,需要線上。在安裝過程中需要下載一個國家的映象。
下載完成後,在本機上輸入ssh [email protected] 進行連線。
scp /file [email protected]:/伺服器的目錄(該方法為將本機的檔案拷貝到伺服器上) 注:目錄需要壓縮。
安裝Anaconda和tensorflow:
按照教程安裝完Anaconda,可以選擇在伺服器上安裝,或者在本機遠端控制安裝。
安裝gpu驅動:
參照:https://blog.csdn.net/weixin_41864878/article/details/79621210
$ nvidia-smi
- Wed Apr 11 10:15:24 2018
- +-----------------------------------------------------------------------------+
- | NVIDIA-SMI 390.48 Driver Version: 390.48 |
- |-------------------------------+----------------------+----------------------+
- | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
- | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
- |===============================+======================+======================|
- | 0 GeForce GTX 1080ti Off | 00000000:01:00.0 On | N/A |
- | 21% 48C P8 16W / 200W | 127MiB / 8111MiB | 0% Default |
- +-------------------------------+----------------------+----------------------+
- +-----------------------------------------------------------------------------+
- | Processes: GPU Memory |
- | GPU PID Type Process name Usage |
- |=============================================================================|
- | 0 911 G /usr/lib/xorg/Xorg 125MiB |
- +-----------------------------------------------------------------------------+
檢視自己GPU的版本號:
然後進入英偉達官網進行下載:
選擇對應自己版本號的.run檔案。
***開啟終端,首先解除安裝一下之前安裝的:*****
$ sudo apt-get --purge remove nvidia-*
開啟blacklist:
$ sudo gedit /etc/modprobe.d/blacklist.conf
在最後新增幾行:
blacklist vga16fb
blacklist nouveau
blacklist rivafb
blacklist nvidiafb
blacklist rivatv
儲存退出。
測試以下:
$ lsmod | grep nouveau
如果沒有輸出,可以忽略下面這一段。
直接開始安裝1080ti的驅動,如果仍有輸出,終端輸入:
$ sudo gedit /etc/modprobe.d/blacklist-nouveau.conf
直接寫入:
blacklist nouveau
blacklist lbm-nouveau
options nouveau modeset=0
alias nouveau off
alias lbm-nouveau off
儲存關閉,再嘗試:
$ sudo update-initramfs -u
$ reboot
$ lsmod | grep nouveau
1、開始安裝驅動:
$ sudo /etc/init.d/lightdm stop
$ sudo init 3
$ sudo /驅動的地址/NVIDIA-Linux-x86_64-390.42.run -no-x-check -no-nouveau-check -no-opengl-files
$ sudo /etc/init.d/lightdm start
這裡是關閉x server,nouveau和不下載opengl檔案。
$ nvidia-smi #檢視以下是否成功。
之後reboot。
2、開始安裝 CUDA ##這裡選擇的時CUDA-9.0。之前一直安裝新的版本和8.0但是總報錯。。。。。只有cuda-9.0和cudnn-7.0好用。
進入這裡下載。。
這裡選擇runfile(local):
輸入命令:
$ sudo sh cuda_9.0.176_384.81_linux.run##編譯該檔案
編譯過程中需要很長時間,在讀檔案時,按q。。
特別需要注意下:Graphics Driver for Linux-x86_64:XXXX時::::::::::需要選擇NO。。。。防止版本覆蓋:
在終端輸入:
$ sudo gedit ~/.bashrc
在最後加上:
export PATH=/usr/local/cuda-9.0/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-9.0/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
$ source ~/.bashrc
在profile中也輸入上面兩行宣告
$ sudo gedit /etc/profile
儲存退出,reboot一下
3、安裝cudnn
在這裡下載::
選擇該檔案:
在終端輸入命令:
$ sudo rm -rf /usr/local/cuda/include/cudnn.h
$ sudo rm -rf /usr/local/cuda/lib64/libcudnn* ###########解除安裝之前安裝的
$ tar -zxvf cudnn-9.0-linux-x64-v7.tgzcuda/include/cudnn.h
cuda/NVIDIA_SLA_cuDNN_Support.txt
cuda/lib64/libcudnn.so
cuda/lib64/libcudnn.so.7
cuda/lib64/libcudnn.so.7.0.5
cuda/lib64/libcudnn_static.a
$ sudo cp cuda/include/cudnn.h /usr/local/cuda/include/
$ sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64/
##解壓檔案 同時拷貝在根目錄下
到/usr/local/cuda/lib64/目錄下,建立軟連線,終端輸入
$ sudo chmod +r libcudnn.so.7.0.5
$ sudo ln -sf libcudnn.so.7.0.5 libcudnn.so.7
$ sudo ln -sf libcudnn.so.7 libcudnn.so
$ sudo ldconfig
測試以下:
$ ll
檢視是否含有:
lrwxrwxrwx 1 root root 13 3月 19 16:02 libcudnn.so -> libcudnn.so.7*
lrwxrwxrwx 1 root root 17 3月 19 16:02 libcudnn.so.7 -> libcudnn.so.7.0.5*
-rwxr-xr-x 1 root root 287641664 3月 19 16:00 libcudnn.so.7.0.5*
4、安裝tensorflow-gpu
按照上述安裝完Anaconda以後,進入tensorflow環境::::
輸入:
pip install --ignore-installed --upgrade tfBinaryURL
該命令參考清華映象給出的命令,地址為:清華映象網站。
我選擇的是1.5版本。。。。。。。。選擇1.6以上的爆出錯誤,原因應該是網路的問題。。。。
下載以後測試。。>>>python
>>>import tensorflow as tf
>>>tf.__version__
檢視是否報錯。。。
耗時三天,終於完成了。特別感謝 參照的兩位博主。