在AWS上配置深度學習主機

阿新 • • 發佈：2019-01-20

介紹

p2.xlarge 是一種非常適合深度學習的雲伺服器，它配備了 12G 視訊記憶體的 Tesla K80 顯示卡，4核 CPU，60G 記憶體，以及 500M 的網速。如果你還嫌不夠，可以選擇它的8倍和16倍的版本。

註冊賬號

首先我們需要註冊一個 aws 賬號，從剛才的地址可以註冊，需要 visa 或 mastercard 信用卡。

註冊好了以後，我們需要申請 p2.xlarge 的許可權，因為預設限制0臺。（注意，提供 p2 的地區並不多，我所知道的兩個地區是北弗吉尼亞和俄勒岡。）

填寫工單

不然就會出現可惡的 Instance Count Limit Exceeded 。

開啟例項

選擇 AMI

首先點選啟動例項，然後這裡我們記得選擇我做的 MLND-DL 這個 AMI，因為預裝了Anaconda, Python2/3, Tensorflow GPU, Keras, OpenCV, Jupyter Notebook，比較省折騰。（只有北弗吉尼亞有這個AMI，其他地區可以參考李沐提供的Deep Learning AMI，也可以自己搭一個 AMI）

選擇一個例項型別

這裡選 p2.xlarge 就好，開啟以後一分鐘和59分鐘都算一個小時，所以開了以後可以放心大膽折騰一個小時，壞了也不用怕，刪掉再開一個就好。注意：如果你選擇的是 8x 或者 16x，你需要自己實現多 GPU 的程式碼，不然 Keras 只會使用一個 GPU 來訓練。

後面三步直接下一步就好。

配置安全組

入站和出站記得配置成任所有流量和任意位置，不然到時候 ssh 不上去，或者開 jupyter notebook 連不上去。懂的人可以自行配置，不懂就直接寫所有流量就好了，反正有 key 才能連上去。

配置金鑰對

如果你有自己常用的私鑰和公鑰，可以從金鑰對這裡匯入，否則你可以生成一個新的金鑰，然後下載金鑰對。

連線

在連線以前，它需要進行一段時間初始化（大概五分鐘），所以你可以先等待一會。等它顯示已通過的時候，你就可以用 ssh 連線它了。下面是我連線的命令：

ssh -i Downloads/test.pem [email protected]

其中的 key 你需要改為你自己的路徑，IP 地址也要改為你自己的主機的 IP 地址。如果它提示你是否要確定連線，你要確定：

Are you sure you want to continue connecting (yes/no)? yes

如果提示下面的資訊：

@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
@         WARNING: UNPROTECTED PRIVATE KEY FILE!          @
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
Permissions 0644 for 'Downloads/test.pem' are too open.

你需要將你的 key 的許可權改為只有你可以訪問，然後再進行連線：

chmod 700 Downloads/test.pem

開始寫程式碼

你可以通過下面的命令開啟一個支援遠端連線的 jupyter notebook：

jupyter notebook --ip=0.0.0.0

然後你用瀏覽器進入你的伺服器 IP:8888 就可以連上伺服器，點選右上角新建 notebook 並編寫 python 程式碼了。

如果你想斷開 ssh 連線以後還可以在後臺執行 notebook，你可以加screen這個命令：

screen jupyter notebook --ip=0.0.0.0

這個 screen 命令同樣適用於其他命令。

停止

當你不使用例項的時候，記得停止它。停止以後，不會計費。

事實上由於我是新使用者，所以會有一年免費 EBS 試用，一年以後的收費可以參照這裡：https://aws.amazon.com/cn/ebs/pricing/，一個月 30G 的 SSD 收費是3美元，因此你可以自行權衡資料和價格，若是一個月以後還要用這些資料，而你願意出3美元保持這些資料，避免一個月以後麻煩，那麼你可以不必終止該例項。當你長期不打算使用該例項時，請務必終止該例項。

競價例項

競價例項是一種特殊的例項，它可以以超低的價格提供配置一樣的例項，和普通例項的差別在於不可停止，因此當你想跑比較大的網路的時候（訓練時間大於1小時），用競價例項會非常划算。0.9美元每小時的 p2.xlarge 在競價例項一個月的歷史記錄裡很少超過0.3美元。即使超過了，我們也不會出高於0.9美元的價格。

上圖是這兩天的賬單，我用了40小時，才花了5.33美元，平均一小時0.13美元，但是這並不代表之後還是保持這個價格。

我一般是這樣開競價例項的，為什麼選請求並維護呢？因為你在實際使用的過程中一定不希望跑著跑著機子被停掉，因此我們採取的是請求並維護這種模式，如果價格上漲，我們補上就好了，最高肯定不會超過0.9美元的。

建立自己的映像（AMI）

當你想建立競價例項的時候，你可能並不想重新配置一遍環境，這時候你可以建立自己的映像，然後在建立競價例項的時候使用該映像，這樣建立的競價例項可以完好無損地遷移之前的驅動，環境，以及資料和程式碼。

建立映像

選擇映像（AMI）

實際體驗

訓練時 nvidia-smi 的輸出。

如果要監控可以使用下面的命令，一秒重新整理一次：

watch -n 1 nvidia-smi

將二十多萬張圖片載入記憶體時 htop 的輸出。

speedtest 的結果。

在AWS上配置深度學習主機

介紹

註冊賬號

填寫工單

開啟例項

選擇 AMI

選擇一個例項型別

配置安全組

配置金鑰對

連線

開始寫程式碼

停止

競價例項

建立自己的映像（AMI）

建立映像

選擇映像（AMI）

實際體驗

在AWS上配置深度學習主機

機器學習大熱—— LINKZOL深度學習GPU工作站、伺服器主機配置深度學習技術

深度學習主機環境配置1---系統快速配置：ubuntu-16.04.2-desktop-amd64.iso

在windows7上配置xampp虛擬主機

深度學習主機攢機小記

docker配置深度學習環境

阿里雲GPU伺服器配置深度學習環境-遠端訪問-centos,cuda,cudnn,tensorflow,keras,jupyter notebook

Pointnet&Pointnet++點雲上的深度學習及其在三維場景理解中的應用

配置深度學習GPU加速（Cuda以及Cudnn安裝，win10作業系統下）

輕鬆無錯不傷系統的配置深度學習框架 tensorflow cuda cudnn tensorflow caffe 版本任意切換多版本並存

win10+ubuntu18.04雙系統安裝cuda9.0+cudnn配置深度學習環境

Ubuntu 16.04 配置深度學習環境

實驗室配置深度學習環境ubuntu17.10 + cuda9.2 + cudnn 7 + tensorflow

windows10環境下配置深度學習環境實操

MatconvNet+VS2015+Matlab2018a+CUDA9+cudnn7：在matlab上搞深度學習，安裝環境時遇到的大坑！

在jupyter上顯示深度學習模型的各層

AWS deep learning 深度學習_亞馬遜深度學習服務

ubuntu16.04.1+GTX1080ti配置深度學習環境

learn opencv-Ubuntu(cuda)上安裝深度學習框架

從零開始Tensorflow == 資深小白配置深度學習環境的血淚史

在AWS上配置深度學習主機

介紹

註冊賬號

填寫工單

開啟例項

選擇 AMI

選擇一個例項型別

配置安全組

配置金鑰對

連線

開始寫程式碼

停止

競價例項

建立自己的映像（AMI）

建立映像

選擇映像（AMI）

實際體驗

相關推薦