1. 程式人生 > >tensorflow深度學習伺服器環境搭建

tensorflow深度學習伺服器環境搭建

實驗室新進了一臺伺服器,配置了nvida 1080TI顯示卡做深度學習使用,裝好機器後第一件事就是如何配置好tensorflow的深度學習環境,這裡把我在搭建環境的過程以及遇到的坑一一寫下來,給有同樣需求的筒子提供一些幫助。
作業系統是師兄刻好的ubuntu最新版本Ubuntu 18.04.1 LTS (可使用lsb_release -v檢視),這種事當然第一件事就是谷歌了,發現一條https://towardsdatascience.com/setup-an-environment-for-machine-learning-and-deep-learning-with-anaconda-in-windows-5d7134a3db10,接下來就是按照提示一步一步進行就是了。
搭建過程一共分為5步

  1. 下載 Anaconda

  2. 安裝 Anaconda & Python(ubuntu自帶python3)

  3. 更新 Anaconda

  4. 安裝 CUDA & cuDNN(cudnn不需要自己裝)

  5. 安裝TensorFlow & Keras

  6. CUDA版本切換(如果正常裝好不需要)

1,2,3步都是常規且比較簡單就可以完成的事情,這裡就簡單說一下了,

1.下載 Anaconda

anacoda下載linux版python3.7版本,伺服器是ubuntu18,所以下載的是python3.7版本
anaconda

2. 安裝 Anaconda & Python(ubuntu自帶python3)

bash Anaconda3-5.3.1-Linux-x86_64.sh

跟著提示就可以順利安裝了安裝了,如果你向我一樣使用zsh作為預設shell的話,所以需要將.bashrc下的anaconda安裝時自動新增的以下程式碼

conda_env

複製進.zshrc檔案末尾,source ~/.zshrc完成呼叫,終端輸入conda看到幫助說明裝好了

3.更新anaconda

在終端輸入以下命名更新conda

conda update conda
conda update --all

4.安裝 CUDA & cuDNN

重點在於CUDA的安裝以及cudnn的安裝,在這一步我可是吃盡了苦頭
這裡我直接把正確的做法告訴大家
首先到

英偉達開發者網站下載相應顯示卡的cuda9.0版本,這裡由於tensorflow只能使用9.0(強調,官網預設是10.0版本的0-0這裡就被坑了一圈)的
cuda

下好之後就簡單了

sudo dpkg -i cuda-repo-ubuntu1704-9-0-local_9.0.176-1_amd64-deb
sudo apt-key add /var/cuda-repo-9-0-local/7fa2af80.pub
sudo apt-get update
sudo apt-get install cuda

cudnn並不需要安裝,在下一步安裝tensorflow的時候,anaconda會自動安裝cudnn,

5. 安裝TensorFlow & Keras

直接使用anaconda安裝就可以了

conda install -c anaconda tensorflow-gpu

conda install -c conda-forge keras-gpu

這裡後面接-gpu說明安裝的是gpu版本,不帶的話就是cpu版本的了,由於伺服器配置了顯示卡,當然下載gpu版本以發揮顯示卡的優勢

 

6. CUDA版本切換(如果正常裝好不需要)

通過使用python -c "import tensorflow as tf;"檢視tensorflow環境是否建好,

提示錯誤
libcublas.so.9.0_error
搜尋後發現是cuda的問題,使用ldconfig -v可以看到找不到libcublas.so.9.0,這是cuda9.0裡面的,而我一開始安裝的是最新版的cuda10,所以這裡被坑了一波。。。

那麼就需要解除安裝cuda10了

sudo apt-get remove cuda*

sudo apt remove --purge nvidia*

rm /etc/apt/sources.list.d/cuda-10-0-local-10.0.130-410.48.list

sudo apt autoremove

sudo rm -rf /var/cuda-repo-10-0-local-10.0.130-410.48

sudo rm -rf /usr/local/cuda*

都跑一遍再來重新安裝應該就好了,這裡再次使用python -c "import tensorflow as tf;"命令就可以發現沒有報錯了。

總結一下:本文介紹了搭建tensorflow深度學習環境的過程,從anaconda安裝到cuda,tensorflow-gpu的安裝以及遇到的最大的坑,就是cuda官網上預設是最新版的cuda10,而由於tensorflow gpu版本目前並不支援cuda10,只識別cuda9.0,在沒有安裝cuda9的機器上使用會直接報錯,不得不重新解除安裝cuda10,安裝cuda9,安裝好後tensorflow就可以正常使用了。