1. 程式人生 > >在AWS上配置深度學習主機

在AWS上配置深度學習主機

介紹

p2.xlarge 是一種非常適合深度學習的雲伺服器,它配備了 12G 視訊記憶體的 Tesla K80 顯示卡,4核 CPU,60G 記憶體,以及 500M 的網速。如果你還嫌不夠,可以選擇它的8倍和16倍的版本。

註冊賬號

首先我們需要註冊一個 aws 賬號,從剛才的地址可以註冊,需要 visa 或 mastercard 信用卡。

註冊好了以後,我們需要申請 p2.xlarge 的許可權,因為預設限制0臺。(注意,提供 p2 的地區並不多,我所知道的兩個地區是北弗吉尼亞和俄勒岡。)

填寫工單

不然就會出現可惡的 Instance Count Limit Exceeded 。

開啟例項

選擇 AMI

首先點選啟動例項,然後這裡我們記得選擇我做的 MLND-DL 這個 AMI,因為預裝了Anaconda, Python2/3, Tensorflow GPU, Keras, OpenCV, Jupyter Notebook,比較省折騰。(只有北弗吉尼亞有這個AMI,其他地區可以參考李沐提供的Deep Learning AMI,也可以自己搭一個 AMI)


選擇一個例項型別

這裡選 p2.xlarge 就好,開啟以後一分鐘和59分鐘都算一個小時,所以開了以後可以放心大膽折騰一個小時,壞了也不用怕,刪掉再開一個就好。注意:如果你選擇的是 8x 或者 16x,你需要自己實現多 GPU 的程式碼,不然 Keras 只會使用一個 GPU 來訓練。

後面三步直接下一步就好。

配置安全組

入站和出站記得配置成任所有流量和任意位置,不然到時候 ssh 不上去,或者開 jupyter notebook 連不上去。懂的人可以自行配置,不懂就直接寫所有流量就好了,反正有 key 才能連上去。

配置金鑰對

如果你有自己常用的私鑰和公鑰,可以從金鑰對這裡匯入,否則你可以生成一個新的金鑰,然後下載金鑰對。

連線

在連線以前,它需要進行一段時間初始化(大概五分鐘),所以你可以先等待一會。等它顯示已通過的時候,你就可以用 ssh 連線它了。下面是我連線的命令:

ssh -i Downloads/test.pem [email protected]

其中的 key 你需要改為你自己的路徑,IP 地址也要改為你自己的主機的 IP 地址。如果它提示你是否要確定連線,你要確定:

Are you sure you want to continue connecting (yes/no)? yes

如果提示下面的資訊:

@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
@         WARNING: UNPROTECTED PRIVATE KEY FILE!          @
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
Permissions 0644 for 'Downloads/test.pem' are too open.

你需要將你的 key 的許可權改為只有你可以訪問,然後再進行連線:

chmod 700 Downloads/test.pem

開始寫程式碼

你可以通過下面的命令開啟一個支援遠端連線的 jupyter notebook:

jupyter notebook --ip=0.0.0.0

然後你用瀏覽器進入你的伺服器 IP:8888 就可以連上伺服器,點選右上角新建 notebook 並編寫 python 程式碼了。

如果你想斷開 ssh 連線以後還可以在後臺執行 notebook,你可以加screen這個命令:

screen jupyter notebook --ip=0.0.0.0

這個 screen 命令同樣適用於其他命令。

停止

當你不使用例項的時候,記得停止它。停止以後,不會計費。

事實上由於我是新使用者,所以會有一年免費 EBS 試用,一年以後的收費可以參照這裡:aws.amazon.com/cn/ebs/p,一個月 30G 的 SSD 收費是3美元,因此你可以自行權衡資料和價格,若是一個月以後還要用這些資料,而你願意出3美元保持這些資料,避免一個月以後麻煩,那麼你可以不必終止該例項。當你長期不打算使用該例項時,請務必終止該例項。

競價例項

競價例項是一種特殊的例項,它可以以超低的價格提供配置一樣的例項,和普通例項的差別在於不可停止,因此當你想跑比較大的網路的時候(訓練時間大於1小時),用競價例項會非常划算。0.9美元每小時的 p2.xlarge 在競價例項一個月的歷史記錄裡很少超過0.3美元。即使超過了,我們也不會出高於0.9美元的價格。

上圖是這兩天的賬單,我用了40小時,才花了5.33美元,平均一小時0.13美元,但是這並不代表之後還是保持這個價格。
我一般是這樣開競價例項的,為什麼選請求並維護呢?因為你在實際使用的過程中一定不希望跑著跑著機子被停掉,因此我們採取的是請求並維護這種模式,如果價格上漲,我們補上就好了,最高肯定不會超過0.9美元的。

建立自己的映像(AMI)

當你想建立競價例項的時候,你可能並不想重新配置一遍環境,這時候你可以建立自己的映像,然後在建立競價例項的時候使用該映像,這樣建立的競價例項可以完好無損地遷移之前的驅動,環境,以及資料和程式碼。

建立映像

選擇映像(AMI)


實際體驗

訓練時 nvidia-smi 的輸出。

如果要監控可以使用下面的命令,一秒重新整理一次:

watch -n 1 nvidia-smi

將二十多萬張圖片載入記憶體時 htop 的輸出。

speedtest 的結果。

相關推薦

AWS配置深度學習主機

介紹 p2.xlarge 是一種非常適合深度學習的雲伺服器,它配備了 12G 視訊記憶體的 Tesla K80 顯示卡,4核 CPU,60G 記憶體,以及 500M 的網速。如果你還嫌不夠,可以選擇它的8倍和16倍的版本。 註冊賬號 首先我們需要註冊一個 aws 賬號,從

機器學習大熱—— LINKZOL深度學習GPU工作站、伺服器主機配置深度學習技術

 機器學習大熱—— LINKZOL深度學習GPU工作站、伺服器主機配置深度學習技術   深度學習是近幾年熱度非常高的的計算應用方向,其目的在於建立,模擬人腦進行分析學習的神經網路,它模仿人腦的機制來解析資料,依據其龐大的網路結構,引數等配合大資料,利用其學習能強等特點

深度學習主機環境配置1---系統快速配置:ubuntu-16.04.2-desktop-amd64.iso

一、更新系統: sudo apt-get update  sudo apt-get install build-essential git 二、設定ssh root登入 1、修改 root 密碼: sudo passwd root 2、使用su root來測試是否可以進入r

在windows7配置xampp虛擬主機

move drivers 之前 ide sts 127.0.0.1 options 最好 req 在設置之前最好關閉xampp1.修改hosts文件進入C:\Windows\System32\drivers\etc目錄,找到hosts文件。在# Localhost (DO

深度學習主機攢機小記

amp 師傅 有一個 好的 折騰 width 升級版 頁面 www. 本文來源網址:http://www.52nlp.cn/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E4%B8%BB%E6%9C%BA%E6%94%92%E6%9C%BA%E5

docker配置深度學習環境

版權宣告:本文為博主原創文章,轉載註明出處即可。 https://blog.csdn.net/bskfnvjtlyzmv867/article/details/81017226 序 閱讀本篇文章可以幫你解決的問題是:提供一套解決方案,能夠在支援Docker的任何版本Ubuntu系統下,搭建出完美執行各種深

阿里雲GPU伺服器配置深度學習環境-遠端訪問-centos,cuda,cudnn,tensorflow,keras,jupyter notebook

一、準備工作: 1、阿里雲相關設定: 先給阿里雲賬戶充值100元。 選擇阿里雲ECS雲伺服器     搜尋:CentOS 7.3(預裝NVIDIA GPU驅動和深度學習框架)       安全組新增8888許可權

Pointnet&Pointnet++點雲深度學習及其在三維場景理解中的應用

  轉化為柵格資料,使用CNN提取特徵 使用點雲的原生資料對特徵進行端到端的提取     螢幕剪輯的捕獲時間: 2018/11/17 21:36   設計的演算法和網路對點雲需要滿

配置深度學習GPU加速(Cuda以及Cudnn安裝,win10作業系統下)

https://blog.csdn.net/hejunqing14/article/details/76059603 https://blog.csdn.net/Captain_F_/article/details/79171332 https://blog.csdn.net/xuyanan

輕鬆 無錯 不傷系統的配置深度學習框架 tensorflow cuda cudnn tensorflow caffe 版本任意切換 多版本並存

前置安裝:nvidia 顯示卡驅動 下一步安裝anaconda,如果安裝anaconda3就會自動去連結python3 配套的庫。 首先理解下配置環境是在幹嘛:很簡單,就是安裝軟體 那麼怎麼簡化這個過程,避免換個環境,就得解除安裝重灌,和別人共用一個伺服器,就為了配置環境焦頭爛額。

win10+ubuntu18.04雙系統安裝cuda9.0+cudnn配置深度學習環境

ubuntu18.04+cuda9.0+cudnn安裝筆記 第一步:安裝win10+ubuntu18.04雙系統。     1.下載ubuntu18.04的iso檔案     2.使用ultroiso製作啟動盤,預設操作即可。     3.win10“設定”介面選擇重啟——&

Ubuntu 16.04 配置深度學習環境

Ubuntu分割槽 建立swap分割槽: 32768MB 邏輯分割槽 空間起始位置 交換空間 建立boot分割槽: 2048MB 邏輯分割槽 空間起始位置 Ext4日誌檔案系統 /boot 建立home分割槽: 512000 邏輯分割槽 空間起始位置 Ext4日誌

實驗室配置深度學習環境ubuntu17.10 + cuda9.2 + cudnn 7 + tensorflow

##安裝ubuntu 建議安裝美版,也就是所有的語言選擇English. 我這個比較麻煩的一點是,每次重灌系統都會出現fatal error , 但並不知道哪裡出錯了,每次只能先格式化(不能快速格式化,

windows10環境下配置深度學習環境實操

具體的步驟如下: 最需要注意的是版本,要保持版本一樣。 1. 安裝vs2015 2 .安裝最新版本的acaconda3,python3版本,傻瓜式安裝 3.安裝cuda,cudnn,按照secondsilverman的步驟安裝,測試一下,tensorflow 4.按照機器之心給出的方法安裝dlwin36,還

MatconvNet+VS2015+Matlab2018a+CUDA9+cudnn7:在matlab深度學習,安裝環境時遇到的大坑!

事情發生的背景 作為剛入職的深度學習實習生,入職第一天,我領完電腦,剛裝完電腦,分配好公司的ip,連chrome都還沒來得及安裝,就接到任務,需要實現給定的論文的方法,當然啦,我師傅給了我原始碼、資料集和論文。 坑爹的是,這篇論文中用到的方法是在matlab上實現的,不是

在jupyter顯示深度學習模型的各層

       最近跟著網上的教程在學習深度學習,目前是用caffe框架。        參考網友的部落格(http://www.cnblogs.com/denny402/p/5103425.html),成功在jupyter上顯示出了訓練出的模型的各卷基層,但其實程式碼不太懂

AWS deep learning 深度學習_亞馬遜深度學習服務

許多組織開始越來越多地轉向深度學習,因為它支援計算機進行獨立學習和執行任務,幾乎無需任何監督,從而可為科學和工業領域帶來諸多非凡的優勢。與傳統的機器學習不同,深度學習試圖通過建立人造的“神經網路”來模擬人類大腦學習和處理資訊的方式,以便從資料中提取複雜的概念和關係。深度學習模型在

ubuntu16.04.1+GTX1080ti配置深度學習環境

一、前期準備1. 下載以下檔案(地址自行百度,以下列出的是本文使用的版本):僅提前下載①-③即可,④-⑥可直接線上安裝,此處列出是為了方便檢視版本。①NVIDIA顯示卡驅動:NVIDIA-Linux-x86_64-390.48.run②CUDA:cuda_9.0.176_38

learn opencv-Ubuntu(cuda)安裝深度學習框架

在帶有CUDA支援的Ubuntu上安裝深度學習框架 在本文中,我們將學習如何在具有NVIDIA圖形卡的機器上安裝TensorFlow,Theano,Keras和PyTorch等深度學習框架。 如果你有一個全新的顯示卡的計算機,你不知道什麼樣的庫來

從零開始Tensorflow == 資深小白配置深度學習環境的血淚史

2018.2.6 再更 在另一臺電腦上裝了一遍TF1.5.0,其實並不複雜,下載速度快的話1個小時就可以搞定,而且從頭到尾也並沒有之前出現過的任何問題,所以啊,歸根結底,還是版本的問題 吃一塹長一智。下次謹記,不要網上亂翻教程,因為隨著版本更新都是有時限性的,最靠譜的還是官