1. 程式人生 > >阿里雲Tesla P100GPU雲伺服器搭建TensorFlow環境

阿里雲Tesla P100GPU雲伺服器搭建TensorFlow環境

最近基於深度學習的影象識別專案需要用到GPU加速,申請了阿里雲的GPU伺服器,在搭建過程中遇到了一些問題,現在將搭建過程記錄

環境: 阿里雲GPU伺服器Tesla P100

作業系統: Ubuntu 16.04

準備安裝包(這個是我用來測試搭建的包,如果想用新版本,請自行下載,對應的包檔案會提供下載連結):

    Nvidia驅動: NVIDIA-Linux-x86_64-390.46.run

    官網下載地址: http://www.nvidia.cn/Download/index.aspx?lang=cn (選好自己的GPU型號之後可以直接下載)

     CSDN下載地址:https://download.csdn.net/download/u013092293/10403033

    CUDA包:cuda_8.0.61_375.26_linux.run

    官網下載地址: https://developer.nvidia.com/cuda-toolkit-archive (下載時需要註冊賬號)

      檔案太大發不上來,請自行下載

    CUDNN包:cudnn-8.0-linux-x64-v6.0.tgz

    官網下載地址: https://developer.nvidia.com/rdp/cudnn-archive(下載時需要註冊賬號)

     CSDN下載地址:https://download.csdn.net/download/u013092293/10403092


本地環境

windows

xshell


開始前注意事項

使用xshell遠端申請的GPU伺服器(具體使用方法百度),如果連線失敗

1.檢查登入名和密碼

2.檢查阿里雲GPU伺服器的安全組規則(需要開啟埠22,在選擇協議型別時設定SSH(22),自定義TCP都可以)

3.檢查公司的防火牆限制


開始安裝

1.更新源

    sudo apt-get update

2.python環境為Ubuntu 16.04預設的python環境,預設有python 2.7.12,python 3.5.2,現在我們使用python 3.5.2

3.安裝pip3工具

    sudo apt-get install python3-pip

4.安裝lrzsz,使window可以向linux伺服器上傳檔案

    sudo apt-get install lrzsz

5.上傳三個包檔案

    在伺服器終端:

    rz

    彈出框中選擇

    NVIDIA-Linux-x86_64-390.46.run,cuda_8.0.61_375.26_linux.run,cudnn-8.0-linux-x64-v6.0.tgz

6.安裝nvidia驅動

    cd到上傳檔案目錄

    執行驅動安裝

  sudo sh ./NVIDIA-Linux-x86_64-390.46.run

  掛載Nvidia驅動

  modprobe nvidia

  檢視nvidia是否安裝成功

  nvidia-smi

7.安裝cuda

  cd到上傳目錄

  sudo sh ./cuda_8.0.61_375.26_linux.run

    開始執行後會輸出很多資訊,使用空格翻頁,到底後出現幾個提問,按順序填寫

    Do you accept the previously read EULA?     accept

     Install NVIDIA Accelerated Graphics Driver for Linux-x86_64 xxx.xx?  n

     Install the CUDA 8.0 Toolkit?  y

     Enter Toolkit Location

     [ default is /usr/local/cuda-8.0 ]:  回車

     Do you want to install a symbolic link at /usr/local/cuda?  y      --(生成cuda快捷方式)

     Install the CUDA 8.0 Samples?  y  --(安裝CUDA8.0的例子,可以選擇不安裝)

     Enter CUDA Samples Location

     [ default is /root ]:  回車

8. 設定CUDA環境變數

    sudo vim ~/.bashrc

    按G到最後一行,按i開始進行插入

    export LD_LIBRARY_PATH="$LD_LIBRARY_PATH:/usr/local/cuda-8.0/lib64:/usr/local/cuda-8.0/extras/CUPTI/lib64"

    export CUDA_HOME=/usr/local/cuda-8.0

    esc --> :wq

    儲存退出

    配置立即生效

    source ~/.bashrc

9. 安裝CUDNN(其實為解壓拷貝)

   cd到檔案上傳目錄

   解壓cudnn

   tar -zxvf  cudnn-8.0-linux-x64-v6.0.tgz

   開始拷貝(如果都按上述步驟來的話,下面的命令可直接執行)

   sudo cp cuda/include/cudnn.h /usr/local/cuda-8.0/include
   sudo cp cuda/lib64/libcudnn* /usr/local/cuda-8.0/lib64

   sudo chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda-8.0/lib64/libcudnn*

10.安裝TensorFlow GPU版本

    當前選擇為tensorflow 1.3版本,

    方法一:網好的話使用

    pip3 install tensorflow-gpu==1.3

    方法二:網不好的話,提供清華映象站地址:https://mirrors.tuna.tsinghua.edu.cn/tensorflow/linux/gpu/

    下載下whl檔案後安裝:

    pip3 install tensorflow_gpu-1.3.0rc2-cp35-cp35m-linux_x86_64.whl

    安裝過程中可能會因為網路原因出現中斷,多安裝幾次

11.安裝完成之後

    $ python3

    > import tensorflow

    >

    不報錯,即為安裝成功