深度學習GPU伺服器裝機記
深度學習GPU伺服器裝機記
國慶攢了好自己用的 GPU 機器,前後各種查資料,最終各種心酸終於可以正常開發了。
硬體
所有硬體都是根據需求來的,不顧及需求太好的配置應該就是浪費了。我預期的需求不高,由於一直使用的是兩臺筆記本,一臺Mac 一臺聯想的。跑一個模型都受限於伺服器記憶體限制無法跑起來,跑起來也不能很快。由於很多工是NLP相關,本想CPU也就足夠,但之前一個小的翻譯模型,跑了一個多星期,簡單的CNN要跑好幾個小時。資料量現在來看是不大的。所以預期的是,能有稍大的記憶體,先只配備一塊顯示卡,但要能夠有擴充套件的可能。但是在陪的時候擔心根中後面不方便,網上各種找,最後的配置如下:
主機板微星(MSI)Z370 GAMING PRO CARBON AC暗黑WIFI 主機板(Intel Z370/LGA 1151)1649 CPU英特爾(Intel) i5 8600K 酷睿六核 盒裝CPU處理器2799 顯示卡微星(MSI)GeForce GTX 1080 Ti DUKE 11G 闇黑龍爵 352-BIT 11GB GDDR5X PCI-E x16 3.0 三風黑龍6299 SSD三星(SAMSUNG) 970 EVO 250G NVMe M.2 固態硬碟(MZ-V7E250BW)659 記憶體金士頓(Kingston)駭客神條 Fury系列 DDR4 2400 32G (16GBx2) 桌上型電腦記憶體2699 電源美商海盜船(USCorsair)額定1000W RM1000x 電源1279 散熱美商海盜船(USCORSAIR) H45 H55 H60 一體式水冷CPU散熱器120mm冷排 H60 12CM冷排 2018款499 機箱美商海盜船(USCORSAIR) AIR540中塔側透明遊戲組裝主機散熱電腦檯式水冷機箱 黑色949
為什麼這樣組合,我沒什麼理由,中間還買錯了一次CPU, 導致CPU和主機板不相容,後來退回去重新買的。選的這款主機板最多可以支援 3 塊顯示卡,為了不至於用起來更重彆扭,我相應的買了個水冷,機箱選的比較大,放三張顯示卡還是綽綽有餘。電源是朋友建議買了1200W的。
值得說的是,自己在裝機的時候是心驚膽戰,從來沒裝過電腦,各種零件,線都完全不知道幹什麼用的。從早上一直裝到下午,一邊看教程,一邊看說明書,最終還是裝好了,一次性點亮,正常執行。
最後裝好的機器如下:
硬體好像也就沒什麼好說的,看自己的預算看需求買就好了,如果實在有問題想問可以 EMAIL: zhengwu@ midday.me
Tensorflow 環境安裝
顯示卡驅動,cudatoolkit, cudnn 的安裝真實各種艱辛,前後折騰了一天多時間,裡面各種坑,我不打算解釋我的詳細安裝過程,最重要的教訓是跟著官方文件走,一點都不要疏忽。比如作業系統的版本,最開始我裝了 ubuntu18.04 ,各種報錯和失敗之後我換回了 16.04 然後終於搞定。一定要看官方文件。一定看官方文件。網上有各種教程,各有各的安裝方法,隨便找一個跟著裝也可以,但還是務必先讀官方文件。
最終裝完測了下,同樣的網路,同樣的資料,同樣的引數,比之前的筆記本快樂40倍。