1. 程式人生 > >機器學習環境搭建

機器學習環境搭建

【摘要】此文列出兩種機器學習搭建的場景,一種為Dell R730伺服器+Ubuntu16.06+GTX1070;另一種是Dell R730伺服器+EXSI6.0+Ubuntu16.06+GTX1070.
注:本文主要介紹顯示卡驅動安裝前期的操作

一、Ubuntu 16.04 + GTX1070 機器學習 DELL R730
DELL R730上搭載GTX1070,安裝ubuntu16.04來搭建機器學習環境
1、將GTX1070安裝到DELL伺服器上,需要注意,使用顯示卡連線線,且插好,顯示卡連線線為兩端均為8PIN,顯示卡連線線很重要
另DELL伺服器預設電源425w,功率有些低,1070建議電源功率700w,實際500w左右可帶動,如果可以,Dell伺服器可選用1100w的電源

2、安裝ubuntu16.04系統

3、驗證識別到了獨顯
識別到與否可以通過Linux中檢視顯示卡的命令lspci來檢視
如下表示識別到
lspci |grep -i vga
04:00.0 VGA compatible controller: NVIDIA Corporation Device 1b81 (rev a1)

4、安裝nvidia顯示卡 375或者最新的
此處可以直接到官網上下載相應的版本,直接安裝或者apt-get直接自動安裝,此處介紹apt-get方法
add-apt-repository ppa:graphics-drivers/ppa
(如果不能執行 提示 Error add-apt-repository: command not found 執行
apt-get install software-properties-common
問題解決 參考

https://askubuntu.com/questions/593433/error-sudo-add-apt-repository-command-not-found/593437
apt-get update
apt-get install nvidia-375

5、nvidia-smi 來驗證,
如果能顯示則正常,驅動安裝成功;如果顯示power問題,如下圖,可能是顯示卡電源線問題,需要核實;(顯示卡電源線沒插好,實際伺服器是能夠檢視到顯示卡的,但是驅動安裝後會提示錯誤)
驅動安裝時提示的power截圖
如果驅動安裝成功,執行nvidia-smi命令會出現以下資訊,則表示安裝成功
安裝成功截圖

6、安裝cuda 8.0自帶有NVIDIA的375顯示卡,下載選擇runfile的版本,在安裝時因為前面已經安裝NVIDIA的驅動,
注:此處選擇是就不要在安裝顯示卡驅動,否則可能存在安裝兩個版本驅動,出現FAQ中的問題(其實也可以直接在前面的步驟中將NVIDIA驅動安裝省去,直接安裝cuda,先安裝NVIDIA的驅動主要是確認顯示卡正常)
官網下載

https://developer.nvidia.com/cuda-downloads
此處下載runfile的版本
cuda官網下載截圖

二、DELL R730 +EXSI 6.0+Ubuntu 16.04 + GTX1070 機器學習

DELL R730上搭載GTX1070,安裝EXSI6.0 ,上面安裝虛擬機器ubuntu16.04,一臺虛擬機器單獨使用獨顯,來搭建機器學習環境(主要是充分利用物理機的資源,搭建深度學習的伺服器沒有要求很大的資源,所以考慮使用虛擬化技術)

1、DELL伺服器安裝GTX1070 獨顯,步驟同上;

2、安裝EXSI6.0

3、安裝ubuntu
在安裝好ESXI之後安裝ubuntu之前需要設定獨顯給虛擬機器使用,如下圖,編輯設定–新裝置(選擇PCI裝置)–新增–新PCI裝置中選擇GTX的,此處需要預留記憶體,預設所有,不然虛擬機器啟動不了
安裝虛擬機器前顯示卡裝置配置

4、驗證識別到獨顯,同上

5、安裝NVIDIA的驅動以及cuda等,同上
此處可能會在lspci |grep -i vga中顯示顯示卡已經存在,但是在安裝驅動之後nvidia-smi出錯,nvidia-smi reports Unable to determine the device handle for GPU
可能是vmware直通的問題,修改其虛擬化的引數;
此處需要修改一下exsi中的虛擬機器vmx配置,找到對應的虛擬機器,如
./vmfs/volumes/5938101b-d479806c-90b4-1866daf3f486/test-67/test-67.vmx
新增hypervisor.cpuid.v0 = FALSE 或者hypervisor.cpuid.v0 = “FALSE”

6、其他,同上