機器學習環境搭建

阿新 • • 發佈：2019-01-06

【摘要】此文列出兩種機器學習搭建的場景，一種為Dell R730伺服器+Ubuntu16.06+GTX1070；另一種是Dell R730伺服器+EXSI6.0+Ubuntu16.06+GTX1070.
注：本文主要介紹顯示卡驅動安裝前期的操作

一、Ubuntu 16.04 + GTX1070 機器學習 DELL R730
DELL R730上搭載GTX1070，安裝ubuntu16.04來搭建機器學習環境
1、將GTX1070安裝到DELL伺服器上，需要注意，使用顯示卡連線線，且插好，顯示卡連線線為兩端均為8PIN，顯示卡連線線很重要；
另DELL伺服器預設電源425w，功率有些低，1070建議電源功率700w，實際500w左右可帶動，如果可以，Dell伺服器可選用1100w的電源

2、安裝ubuntu16.04系統

3、驗證識別到了獨顯
識別到與否可以通過Linux中檢視顯示卡的命令lspci來檢視
如下表示識別到
lspci |grep -i vga
04:00.0 VGA compatible controller: NVIDIA Corporation Device 1b81 (rev a1)

4、安裝nvidia顯示卡 375或者最新的
此處可以直接到官網上下載相應的版本，直接安裝或者apt-get直接自動安裝，此處介紹apt-get方法
add-apt-repository ppa:graphics-drivers/ppa
（如果不能執行提示 Error add-apt-repository: command not found 執行
apt-get install software-properties-common
問題解決參考

https://askubuntu.com/questions/593433/error-sudo-add-apt-repository-command-not-found/593437）
apt-get update
apt-get install nvidia-375

5、nvidia-smi 來驗證，
如果能顯示則正常，驅動安裝成功；如果顯示power問題，如下圖，可能是顯示卡電源線問題，需要核實；（顯示卡電源線沒插好，實際伺服器是能夠檢視到顯示卡的，但是驅動安裝後會提示錯誤）
驅動安裝時提示的power截圖
如果驅動安裝成功，執行nvidia-smi命令會出現以下資訊，則表示安裝成功
安裝成功截圖

6、安裝cuda 8.0自帶有NVIDIA的375顯示卡，下載選擇runfile的版本，在安裝時因為前面已經安裝NVIDIA的驅動，
注：此處選擇是就不要在安裝顯示卡驅動，否則可能存在安裝兩個版本驅動，出現FAQ中的問題（其實也可以直接在前面的步驟中將NVIDIA驅動安裝省去，直接安裝cuda，先安裝NVIDIA的驅動主要是確認顯示卡正常）
官網下載

https://developer.nvidia.com/cuda-downloads
此處下載runfile的版本
cuda官網下載截圖

二、DELL R730 +EXSI 6.0+Ubuntu 16.04 + GTX1070 機器學習

DELL R730上搭載GTX1070，安裝EXSI6.0 ，上面安裝虛擬機器ubuntu16.04，一臺虛擬機器單獨使用獨顯，來搭建機器學習環境（主要是充分利用物理機的資源，搭建深度學習的伺服器沒有要求很大的資源，所以考慮使用虛擬化技術）

1、DELL伺服器安裝GTX1070 獨顯，步驟同上；

2、安裝EXSI6.0

3、安裝ubuntu
在安裝好ESXI之後安裝ubuntu之前需要設定獨顯給虛擬機器使用，如下圖，編輯設定–新裝置（選擇PCI裝置）–新增–新PCI裝置中選擇GTX的，此處需要預留記憶體，預設所有，不然虛擬機器啟動不了
安裝虛擬機器前顯示卡裝置配置

4、驗證識別到獨顯，同上

5、安裝NVIDIA的驅動以及cuda等，同上
此處可能會在lspci |grep -i vga中顯示顯示卡已經存在，但是在安裝驅動之後nvidia-smi出錯，nvidia-smi reports Unable to determine the device handle for GPU
可能是vmware直通的問題，修改其虛擬化的引數；
此處需要修改一下exsi中的虛擬機器vmx配置，找到對應的虛擬機器，如
./vmfs/volumes/5938101b-d479806c-90b4-1866daf3f486/test-67/test-67.vmx
新增hypervisor.cpuid.v0 = FALSE 或者hypervisor.cpuid.v0 = “FALSE”

6、其他，同上

機器學習環境搭建

Anaconda--機器學習環境搭建

Centos6.3 keras+tensorflow+xgboost+libsvm機器學習環境搭建

機器學習環境搭建

機器學習環境搭建筆記

win10下機器學習TensorFlow搭建

Django重新開始學習--環境搭建筆記（一）

Linux虛擬機學習環境搭建—虛擬機創建

Linux虛擬機學習環境搭建—虛擬機安裝

MongoDB學習--環境搭建記錄

Ubuntu深度學習環境搭建 tensorflow+pytorch

2018-05-11-機器學習環境安裝-I7-GTX960M-UBUNTU1804-CUDA90-CUDNN712-TF180-KERAS-GYM-ATARI-BOX2D

深度學習環境搭建：Tensorflow1.4.0+Ubuntu16.04+Python3.5+Cuda8.0+Cudnn6.0

Mybatis入門級學習-環境搭建

機器學習環境配置系列一之CUDA

Ubuntu16.04系統GPU深度學習環境搭建

ubuntu16 深度學習環境搭建步驟

一、Hybris學習-環境搭建-2018/06/26

Hadoop-0.20.2原始碼學習（2）——原始碼學習環境搭建

TX2 深度學習環境搭建記錄cmake從3.5升級到3.7.2

瞎折騰之個人學習環境搭建（一）：安裝XenServer

機器學習環境搭建

相關推薦