1. 程式人生 > >ubuntu16.04 Nvidia 顯示卡的風扇調速及startx的後果

ubuntu16.04 Nvidia 顯示卡的風扇調速及startx的後果

問題描述

  1. #檢視nvdia GPU 顯示卡狀態

  2. watch -n 10 nvidia-smi

  • 1
  • 2

這裡寫圖片描述

發現顯示卡Tesla k40c的溫度已經達到74°,轉速僅僅只有49%。  檢視Tesla產品資料Tesla K40 工作站加速卡規格 ,可知

這裡寫圖片描述

所以需要調整風扇速度來降溫。

然而官方驅動面板裡也沒有了風扇調速的選項

nvidia-settings
  • 1

這裡寫圖片描述

方法一

  1. sudo su -

  2. cd /etc/X11

  3. cp -p xorg.conf xorg.conf.`date +%Y%m%d`

  4. sudo gedit xorg.conf

  • 1
  • 2
  • 3
  • 4

找到”Section Device” 這塊  新增: Option “Coolbits” “4”

  1. Section "Device"

  2. Identifier "Device0"

  3. Driver "nvidia"

  4. VendorName "NVIDIA Corporation"

  5. BoardName "GeForce GT8800"

  6. Option "Coolbits" "4"

  7. EndSection

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

儲存之後,重啟機器。調節選項出現,如下圖:

這裡寫圖片描述

這時你會看到在Thermal Settings裡面有一個 Enable GPU Fan Settings,可手動調節顯示卡溫度。

方法二

有時會出現以下問題

cannot stat /etc/x11/xorg.conf no such file or directory
  • 1

這時需要

  1. sudo nvidia-xconfig

  2. sudo nvidia-xconfig --cool-bits=4

  • 1
  • 2

Using X configuration file: “/etc/X11/xorg.conf”.  Backed up file ‘/etc/X11/xorg.conf’ as ‘/etc/X11/xorg.conf.backup’  New X configuration file written to ‘/etc/X11/xorg.conf’

如若沒有變化,則需要

sudo  gedit /etc/X11/xorg.conf
  • 1

新增  Option “Coolbits” “4”  如下

  1. Section "Device"

  2. Identifier "Device0"

  3. Driver "nvidia"

  4. VendorName "NVIDIA Corporation"

  5. BoardName "GeForce GTX 570"

  6. Option "NoLogo" "True"

  7. Option "Coolbits" "4"

  8. EndSection

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

然後重啟

nvidia-settings #可檢視調節選項
  • 1

或者

nvidia-settings -a "[gpu:0]/GPUFanControlState=1" -a "[fan:0]/GPUTargetFanSpeed=100"
  • 1

這裡GPUTargetFanSpeed=100就是風扇的速度, 100就是風扇執行在100%的速度, 也可以改成其它速度. 注意在新的NVIDIA驅動, GPUCurrentFanSpeed 被改成了 GPUTargetFanSpeed. 另外GPUFanControlState=1表示讓使用者可以手動調節GPU風扇速度.

如果你想回到GPU自動控制風扇速度, 執行下面

nvidia-settings -a "[gpu:0]/GPUFanControlState=0"
  • 1

備註:

cannot stat /etc/x11/xorg.conf no such file or directory
  • 1

切記輸入

startx 
  • 1

來重新安裝xorg,這樣會帶來更大的麻煩。重啟後再輸入密碼,然後又進入一個登陸介面,輸入密碼,然後又回到原來的登陸介面。。。這樣一直下去,死迴圈了

解決方法

  1. Alt+Ctrl+F1 #進入控制檯介面

  2. cd ~ #進入你的使用者目錄

  3. ls -ah #檢視所有的檔案

  4. rm -rf .Xauth* #刪除.Xauthority檔案

  5. Alt+Ctrl+F7 #返回到登陸介面

  6. #輸入密碼即可登入

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

startx命令是用來啟動X windows伺服器的,執行後在使用者目錄下生成一個.Xauthority檔案,正是該檔案導致系統進入死迴圈,刪除即可。

方法三

sudo apt-get install nvclock
  • 1
  1. #change GPU fan speed, write this:

  2. nvclock -f -F 70

  • 1
  • 2
  • 3

這樣風扇速度就會維持 fan speed will run at 70%

若無法安裝 nvclock,則需要更新源包

sudo gedit /etc/apt/sources.list
  • 1

新增源包

deb http://us.archive.ubuntu.com/ubuntu trusty main universe
  • 1

更新源包

sudo apt-get update
  • 1
sudo apt-get nvclock
  • 1

設定多顯示卡降溫

nvidia-xconfig --enable-all-gpus
  • 1

其餘步驟同單顯示卡一致。

備註:

Tesla的顯示卡K40開始k系列M系列p 系列都是被動散熱對硬體要求高。所以無法使用上述方法對風扇調速。

Tesla C卡主要用在“桌上型電腦”上的,為了顧慮到一般桌上型電腦可能未考慮“散熱”問題,所以C卡上自帶風扇,讓散熱效果好一些。而M卡是專門為“機架式電腦”設計的,絕大部分機架式電腦是一堆放在機架上的,所以內部有更多的風扇與導流設計,這樣M卡就可以省略風扇,把體積做到更小,提高單位體積的計算密度。  同樣的,M卡為叢集而設計,因此本身還提供更多的“監控元件”能與“叢集管理”軟體結合,管理人員可透過管理軟體監控每一片M型GPU卡的溫度與狀態,溫度過高也可透過管理軟體發出警告。C卡則缺乏這樣的功能。

每臺GPU系統最佳的GPU數量為2片(多卡架構的最小數量),最多別超過4片。市面上有8片甚至到16片的方案,不僅“散熱”問題、電源供應問題會令人提心吊膽,此外,收到PCI-E匯流排限制,超過4片以上的方案,都得不到“完整PCI-E頻寬”,所以GPU數量看來好像很多,但都得不到相對的效能提升。因此建議 2~4 片 GPU 的系統,是價效比、穩定性較優的配置。

參考文獻