用多張GPU 顯示卡　加速TensorFlow Object Detection API 模型訓練的過程

阿新 • • 發佈：2018-12-15

本篇記錄如何使用多張GPU 顯示卡，加速TensorFlow Object Detection API 模型訓練的過程。

雖然TensorFlow Object Detection API 已經有支援多張GPU 卡平行計算的功能，但是缺乏說明檔案，所以我自己也不是非常確定該怎麼用，以下只是我目前嘗試出來的方式，僅供參考。

這裡我們接續之前的TensorFlow Object Detection API自行訓練模型教學，將Oxford-IIIT Pet Dataset的範例改成多GPU的版本。

使用多GPU卡時，會把每個batch的資料分散至每張GPU卡，也就是可以讓batch size變大，所以在train_config

的batch_size要自己修改一下，要讓資料可以平均分散至每張GPU卡，最簡單的修改方式就是看自己有多少張GPU卡，就乘以多少。

在預設的設定值中，batch_size的值是1，現在我打算用3張GPU卡，所以就改成3：


  
   
    
     
    
    
     
      train_config: {
     
    
   
    
     
    
    
     
        batch_size: 3
     
    
   
    
     
    
    
     
        optimizer {
     
    
 

   
    
     
    
    
     
          # [略]
     
    
   
    
     
    
    
     
        }
     
    
   
    
     
    
    
     
        # [略] 
     
    
   
    
     
    
    
     
      }

由於batch size變大了，收斂的速度應該也會變快，所以optimizer內的引數應該也是要改的，不過要怎麼改就要看實際情況而定，這個部分就自己看著辦。

改好設定檔之後，接著就可以使用多張GPU 卡平行運算，使用的指令幾乎沒有變，只是加上兩個引數：

--num_clones：指定GPU 卡的數量。
--ps_tasks：指定引數伺服器的數量。

另外再以CUDA_VISIBLE_DEVICES指定要使用哪幾張GPU卡，完整的指令搞如下：


  
   
    
     
    
    
     
      #設定檔路徑
     
    
   
    
     
    
    
     
      PIPELINE_CONFIG = " object_detection/data/faster_rcnn_resnet101_pets.config "
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
      #訓練結果放置路徑
     
    
   
    
     
    
    
     
      MY_MODEL_DIR = " my_model "
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
      #使用前三張GPU卡進行訓練
     
    
   
    
     
    
    
     
      CUDA_VISIBLE_DEVICES = 0 , 1 , 2 python object_detection/train.py \ 
     
    
   
    
     
    
    
     
        --logtostderr  \ 
     
    
   
    
     
    
    
     
        --pipeline_config_path= ${ PIPELINE_CONFIG }  \ 
     
    
   
    
     
    
    
     
        --train_dir= ${ MY_MODEL_DIR } /train \ 
     
    
   
    
     
    
    
     
        --num_clones =3  --ps_tasks=1
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
      #使用第四張GPU卡進行驗證
     
    
   
    
     
    
    
     
      CUDA_VISIBLE_DEVICES = 3 python object_detection/ eval .py \ 
     
    
   
    
     
    
    
     
        --logtostderr  \ 
     
    
   
    
     
    
    
     
        --pipeline_config_path= ${ PIPELINE_CONFIG }  \ 
     
    
   
    
     
    
    
     
        --checkpoint_dir= ${ MY_MODEL_DIR } /train \ 
     
    
   
    
     
    
    
     
        --eval_dir= ${ MY_MODEL_DIR } / eval

指令執行之後，我們可以使用nvidia-smi來檢視每一張GPU卡的使用情況，看看是不是真的有同時用到三張GPU卡訓練：

nvidia-smi

<span style="color:#111111">Tue Dec 26 15:35:34 2017       
+------------------------------------------------- ----------------------------+
| NVIDIA-SMI 384.81 Driver Version: 384.81 |
|-------------------------------+----------------- -----+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+================= =====+======================|
| 0 TITAN Xp Off | 00000000:02:00.0 Off | N/A |
| 44% 72C P2 186W / 250W | 11763MiB / 12189MiB | 84% Default |
+-------------------------------+----------------- -----+----------------------+
| 1 TITAN Xp Off | 00000000:03:00.0 Off | N/A |
| 47% 76C P2 124W / 250W | 11763MiB / 12189MiB | 76% Default |
+-------------------------------+----------------- -----+----------------------+
| 2 TITAN Xp Off | 00000000:83:00.0 Off | N/A |
| 42% 70C P2 131W / 250W | 11763MiB / 12189MiB | 72% Default |
+-------------------------------+----------------- -----+----------------------+
| 3 TITAN Xp Off | 00000000:84:00.0 Off | N/A |
| 23% 41C P2 72W / 250W | 11761MiB / 12189MiB | 51% Default |
+-------------------------------+----------------- -----+----------------------+
                                                                               
+------------------------------------------------- ----------------------------+
| Processes: GPU Memory |
| GPU PID Type Process name Usage |
|================================================= ============================|
| 0 22192 C python 11751MiB |
| 1 22192 C python 11751MiB |
| 2 22192 C python 11751MiB |
| 3 29266 C python 11751MiB |
+------------------------------------------------- ----------------------------+</span>

在訓練的過程中，如果仔細觀察每步的計算速度，應該會發現使用一張GPU 卡的速度會跟使用多張GPU 卡差不多。這是單張GPU 卡的速度：

單張GPU 卡計算速度

這是同時使用三張GPU 卡的計算速度：

三張GPU 卡計算速度

速度會差不多是正常的（理論上多張GPU 卡運算的速度會變慢一點點），因為兩邊的batch size 不同，若每步的計算時間差不多，就表示實際的計算速度有增加。

原文：https://blog.gtwang.org/programming/tensorflow-object-detection-api-multiple-gpu-parallel-training/

本篇記錄如何使用多張GPU 顯示卡，加速TensorFlow Object Detection API 模型訓練的過程。

用多張GPU 顯示卡　加速TensorFlow Object Detection API 模型訓練的過程

本篇記錄如何使用多張GPU 顯示卡，加速TensorFlow Object Detection API 模型訓練的過程。雖然TensorFlow Object Detection API 已經有支援多張GPU 卡平行計算的功能，但是缺乏說明檔案，所以我自己也

基於win10，GPU的Tensorflow Object Detection API部署及USB攝像頭目標檢測

1.TensorFlow安裝安裝教程在CSDN上有很多文章，但最好依據官方教程，因為TensorFlow不斷更新，需要的CUDA、cudnn等版本也在變化。官方地址在GITHUB裡TensorFlow專案下可以找到安裝指南，https://www.

用Tensorflow Object Detection API 訓練自己的資料集

一、準備資料集 Tensorflow Object Detection API 用 TFRecord 檔案格式讀取資料，需把 VOC 格式的資料集進行轉換（我自己的資料集是VOC2007） 1、修改 tensorflow/models/object_dete

深度學習，opencv讀取圖片，歸一化，顯示，多張圖片顯示

import numpy as np import cv2 def cv_norm_proc(img): # cv_norm_proc函式將圖片歸一化 [-1,1] img_rgb = (img / 255. - 0.5) * 2 return img_rgb def cv_in

JQ輪播圖（多張同時顯示）

HTML: <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title></title> <

5_python將多張圖片顯示在一張圖片上（20181218）

python將多張圖片顯示在一張圖片上（20181218） 1、用`pyplot`將多張圖片顯示在一張圖片上 2、用`matplotlib`將多張圖片顯示在一張圖片上 1、用pyplot將多張圖片顯示在一張圖片上 pylab是py

Windows 2008 / 2008 R2 開啟顯示卡硬體加速

通過修改登錄檔項實現： HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Video\{187826E1-5903-40A9-BA63-0ED7D45282A8}\0000 檢視右邊的鍵值型別為 REG_DWOR

Matlab將多張圖片顯示在一個視窗上

load('mnist_uint8.mat');%載入mnist_uint8資料庫 for i= 1:20 %獲取20張影象儲存在本地 img=reshape(test_x(i,:),[28 2

【Linux】多塊Nvidia顯示卡之間切換預設顯示卡

我這邊是四塊卡，一塊1080，三塊1080Ti，剛拿到機子的時候預設顯示卡是一塊1080Ti。X server也是執行在這塊1080Ti上的。下面步驟是如何設定讓1080為預設顯示卡。1. 執行nvidia-smi檢視你想要設定為預設顯示卡的Bus匯流排ID地址。通過上圖可以

linux安裝GPU顯示卡驅動、CUDA和cuDNN庫

搞機器學習也有一段時間了，每次部署GPU開發環境就是一場戰爭，先記錄一下基本步驟，結合網上資料和個人實踐整理如下： 1、檢查BIOS啟動項，關閉一些選項在開機啟動項的Security選項中檢查UEFI是否開啟，如果開啟的話請立馬關掉它（重要）在開

GPU(顯示卡)的開源驅動調研

1. 概要在桌面作業系統中，由於廠商對顯示卡驅動的完美支援，使用者購買顯示卡時只需關注顯示卡的硬體特性，一般遵循“價格越貴效能越好”。作為核心競爭力，顯示卡廠商不會也不願意完全開源自己的顯示卡驅動，只發布編譯好的二進位制機器碼。不同的CPU其二進位制碼是不一樣的，

VirtualBox開啟顯示卡3D加速

http://www.cr173.com/html/11238_1.html 因為工作和學習的需要，我經常要在不同版本的Windows系統下進行操作和軟體測試，因此虛擬機器成為必備的工具。在這其中 VirtualBox 一直是我比較推崇的首選。因為它不僅免費開源

【學習筆記】pyQt5學習筆記(6）——Google object detection API訓練&識別用軟體更新

對訓練軟體和識別軟體均再一次進行更新。針對訓練用軟體，V1.0版本是通過下拉框選擇標註物體的標籤，而下拉框中是我預定義的a~f 6個標籤。因此存在的問題就是標籤不能客製化，且若標記超過6類物體標籤數量不夠。針對這個問題進行了更新，現在允許使用者自己輸入標籤名稱，標籤會儲存在下拉選單中，媽媽再

【學習筆記】pyQt5學習筆記(5）——Google object detection API訓練用軟體

之前的學習筆記是呼叫訓練好的結果來做識別，分為載入本地圖片識別和呼叫usb攝像頭實時識別（IP攝像頭暫時不可用）；但是首先有了訓練才能有訓練好的模型檔案供我們使用。加之訓練過程比較複雜，呼叫多個指令碼，上手不便；製作訓練用的軟體一方面是方便自己使用，另一方面也對自己是個鍛鍊。軟體最終的介面如下圖所示

ubuntu16.04安裝nvidia geforce gtx1080ti顯示卡驅動和cuda10.0用來執行gromacs-gpu

1. 走不通的方法如上圖所示，我使用ubuntu自帶的軟體software&updates的additional drivers欄安裝nvidia顯示卡驅動(nvidia-384，這個驅動並不是最新的驅動)，而且我沒有禁用nouveau。如下所示，vmd能夠

設定可見GPU，進行多顯示卡深度學習訓練

在深度學習中，如果一臺電腦具有多個NVIDIA的GPUs，使用者想要在不同的GPU上訓練不同的網路，那麼在程式中指定佔用的GPU的id，在python中如： import os os.environ[

手機影音第十一天，顯示視頻緩沖，顯示卡頓時的網速，播放系統視頻時調用播放器的選擇

顯示視頻緩沖顯示卡頓時的網速播放系統視頻時調用播放器的選擇代碼已經托管到碼雲，有興趣的小夥伴可以下載看看https://git.oschina.net/joy_yuan/MobilePlayer一、設置視頻緩沖進度顯示視頻播放進度的效果圖如下：灰色的是緩沖的進度。原理：只有播放網絡視頻時，才

js通過添加隨機數的方法，解決多張圖片加載時由於緩存導致圖片無法正確顯示的問題

原因顯示 rand class var rip 圖片加載提交數據 cti 問題出現描述：當對列表中某個圖片進行重新編輯時，提交後會發現圖片列表仍會出現修改之前的圖片，新圖片並未覆蓋。問題出現原因：緩存問題。解決辦法：通過js方法，在每張圖片路勁後面添加一個隨機數，這

sql用逗號連接多張表對應哪個join？

書寫方式表示連接符 tps highlight 表達式簡寫參考資料 tails 轉自：http://blog.csdn.net/huanghanqian/article/details/52847835 四種join的區別已老生常談： INNER JO

織夢多個欄目arclist調用副欄目不顯示的解決辦法

repl ike php 顯示 ssi clist art 主頁 com 織夢arclist調用副欄目不顯示，網上關於這個問題的解決辦法有很多，其中一種是：打開/include/taglib/arclist.lib.php，代碼約位於295-296行(我目前用的DedeCM

用多張GPU 顯示卡 加速TensorFlow Object Detection API 模型訓練的過程

相關推薦

用多張GPU 顯示卡　加速TensorFlow Object Detection API 模型訓練的過程