SSD演算法程式碼介紹（一）：訓練引數配置

阿新 • • 發佈：2019-02-05

SSD演算法是object detection領域比較經典的演算法，github上有一個寫得比較好的MXNet版本的實現程式碼，專案地址：https://github.com/zhreshold/mxnet-ssd，目前該專案程式碼也已經併入MXNet官方github。想要本地實現可以參考專案地址中README.md的介紹或者參考部落格：SSD演算法的MXNet實現。

接下來這一系列部落格想介紹該程式碼中關於實現SSD演算法的一些細節，也會涉及部分Python語言的巧妙程式碼，以訓練模型為切入口展開介紹，最好按順序閱讀，詳細註釋已經在程式碼中給出。

這一篇部落格介紹訓練模型的入口程式碼：train.py指令碼，該指令碼主要包含一些引數設定和主函式。

import argparse
import tools.find_mxnet
import mxnet as mx
import os
import sys
from train.train_net import train_net

def parse_args():
    parser = argparse.ArgumentParser(description='Train a Single-shot detection network')
    parser.add_argument('--train-path', dest='train_path', help='train record to use' 
,
                        default=os.path.join(os.getcwd(), 'data', 'train.rec'), type=str)
    parser.add_argument('--train-list', dest='train_list', help='train list to use',
                        default="", type=str)
    parser.add_argument('--val-path', dest='val_path', help='validation record to use' 
,
                        default=os.path.join(os.getcwd(), 'data', 'val.rec'), type=str)
    parser.add_argument('--val-list', dest='val_list', help='validation list to use',
                        default="", type=str)
    parser.add_argument('--network', dest='network', type=str, default='vgg16_reduced',
                        help='which network to use')
    parser.add_argument('--batch-size', dest='batch_size', type=int, default=32,
                        help='training batch size')
    parser.add_argument('--resume', dest='resume', type=int, default=-1,
                        help='resume training from epoch n')
    parser.add_argument('--finetune', dest='finetune', type=int, default=-1,
                        help='finetune from epoch n, rename the model before doing this')
    parser.add_argument('--pretrained', dest='pretrained', help='pretrained model prefix',
                        default=os.path.join(os.getcwd(), 'model', 'vgg16_reduced'), type=str)
    parser.add_argument('--epoch', dest='epoch', help='epoch of pretrained model',
                        default=1, type=int)
    parser.add_argument('--prefix', dest='prefix', help='new model prefix',
                        default=os.path.join(os.getcwd(), 'model', 'ssd'), type=str)
    parser.add_argument('--gpus', dest='gpus', help='GPU devices to train with',
                        default='0', type=str)
    parser.add_argument('--begin-epoch', dest='begin_epoch', help='begin epoch of training',
                        default=0, type=int)
    parser.add_argument('--end-epoch', dest='end_epoch', help='end epoch of training',
                        default=240, type=int)
    parser.add_argument('--frequent', dest='frequent', help='frequency of logging',
                        default=20, type=int)
    parser.add_argument('--data-shape', dest='data_shape', type=int, default=300,
                        help='set image shape')
    parser.add_argument('--label-width', dest='label_width', type=int, default=350,
                        help='force padding label width to sync across train and validation')
    parser.add_argument('--lr', dest='learning_rate', type=float, default=0.004,
                        help='learning rate')
    parser.add_argument('--momentum', dest='momentum', type=float, default=0.9,
                        help='momentum')
    parser.add_argument('--wd', dest='weight_decay', type=float, default=0.0005,
                        help='weight decay')
    parser.add_argument('--mean-r', dest='mean_r', type=float, default=123,
                        help='red mean value')
    parser.add_argument('--mean-g', dest='mean_g', type=float, default=117,
                        help='green mean value')
    parser.add_argument('--mean-b', dest='mean_b', type=float, default=104,
                        help='blue mean value')
    parser.add_argument('--lr-steps', dest='lr_refactor_step', type=str, default='80, 160',
                        help='refactor learning rate at specified epochs')
    parser.add_argument('--lr-factor', dest='lr_refactor_ratio', type=str, default=0.1,
                        help='ratio to refactor learning rate')
    parser.add_argument('--freeze', dest='freeze_pattern', type=str, default="^(conv1_|conv2_).*",
                        help='freeze layer pattern')
    parser.add_argument('--log', dest='log_file', type=str, default="train.log",
                        help='save training log to file')
    parser.add_argument('--monitor', dest='monitor', type=int, default=0,
                        help='log network parameters every N iters if larger than 0')
    parser.add_argument('--pattern', dest='monitor_pattern', type=str, default=".*",
                        help='monitor parameter pattern, as regex')
    parser.add_argument('--num-class', dest='num_class', type=int, default=20,
                        help='number of classes')
    parser.add_argument('--num-example', dest='num_example', type=int, default=16551,
                        help='number of image examples')
    parser.add_argument('--class-names', dest='class_names', type=str,
                        default='aeroplane, bicycle, bird, boat, bottle, bus, \
                        car, cat, chair, cow, diningtable, dog, horse, motorbike, \
                        person, pottedplant, sheep, sofa, train, tvmonitor',
                        help='string of comma separated names, or text filename')
    parser.add_argument('--nms', dest='nms_thresh', type=float, default=0.45,
                        help='non-maximum suppression threshold')
    parser.add_argument('--overlap', dest='overlap_thresh', type=float, default=0.5,
                        help='evaluation overlap threshold')
    parser.add_argument('--force', dest='force_nms', type=bool, default=False,
                        help='force non-maximum suppression on different class')
    parser.add_argument('--use-difficult', dest='use_difficult', type=bool, default=False,
                        help='use difficult ground-truths in evaluation')
    parser.add_argument('--voc07', dest='use_voc07_metric', type=bool, default=True,
                        help='use PASCAL VOC 07 11-point metric')
    args = parser.parse_args()
    return args

def parse_class_names(args):
    """ parse # classes and class_names if applicable """
    num_class = args.num_class
    if len(args.class_names) > 0:
        if os.path.isfile(args.class_names):
            # try to open it to read class names
            with open(args.class_names, 'r') as f:
                class_names = [l.strip() for l in f.readlines()]
        else:
            class_names = [c.strip() for c in args.class_names.split(',')]
        assert len(class_names) == num_class, str(len(class_names))
        for name in class_names:
            assert len(name) > 0
    else:
        class_names = None
    return class_names

if __name__ == '__main__':
    args = parse_args()
    # context list
    ctx = [mx.gpu(int(i)) for i in args.gpus.split(',') if i.strip()]
    ctx = [mx.cpu()] if not ctx else ctx
    # class names if applicable
    class_names = parse_class_names(args)
    # start training
    train_net(args.network, args.train_path, # train_path是訓練資料的.rec格式的路徑
              args.num_class, args.batch_size, 
              args.data_shape, [args.mean_r, args.mean_g, args.mean_b],
              # resume如果大於0，表示從之前儲存的檢測模型開始訓練，如果設定為-1，表示重新訓練檢測模型。
              args.resume, args.finetune, args.pretrained, 
              args.epoch, args.prefix, ctx, args.begin_epoch, args.end_epoch,
              # frequent就是模型每訓練多少個batch顯示訓練結果，momentum是和梯度下降相關的引數，weight_decay是正則項的係數
              args.frequent, args.learning_rate, args.momentum, args.weight_decay, 
              args.lr_refactor_step, args.lr_refactor_ratio, # 這兩個都是學習率策略的引數
              val_path=args.val_path,
              num_example=args.num_example,
              class_names=class_names, # object detection問題需要標出object的label，對應這邊的class_names
              label_pad_width=args.label_width,
              # str，預設是“^(conv1_|conv2_).*”，是一個正則表示式，簡單講就是將conv1_開頭和conv2_開頭的引數都固定，
              # 比如conv1_1_weight，conv1_1_bias等，在模型更新過程中引數不變。
              freeze_layer_pattern=args.freeze_pattern, 
              iter_monitor=args.monitor,
              monitor_pattern=args.monitor_pattern,
              # 訓練模型時候得到的log檔案存放的路徑和命名，程式碼中預設是叫train.log，放在當前目錄下
              log_file=args.log_file, 
              # nms是去掉重複框的一個操作，這個nms_thresh是一個閾值，表示高於這個閾值就說明重複太厲害了，需要去掉
              nms_thresh=args.nms_thresh, 
              force_nms=args.force_nms,
              ovp_thresh=args.overlap_thresh,
              # 在evaluation的時候用不同的ground-truths
              use_difficult=args.use_difficult, 
              voc07_metric=args.use_voc07_metric)

從上面的程式碼可以看出，主要的訓練程式碼是通過train_net.py指令碼的train_net函式進行的，因此接下來就一起來看看train_net.py指令碼的內容吧：SSD演算法程式碼介紹（二）：訓練演算法整體架構。

SSD演算法程式碼介紹（一）：訓練引數配置

SSD演算法是object detection領域比較經典的演算法，github上有一個寫得比較好的MXNet版本的實現程式碼，專案地址：https://github.com/zhreshold/mxnet-ssd，目前該專案程式碼也已經併入MXNet官方git

Java常用的八種排序演算法與程式碼實現（一）：氣泡排序法、插入排序法、選擇排序法

這三種排序演算法適合小規模資料排序－－－　　共同點：基於比較，時間複雜度均為O(n2)，空間複雜度均為O(1)（原地排序演算法）　　不同點：插入排序和氣泡排序是穩定的排序演算法，選擇排序不是－－－　　穩定排序演算法：可以保持數值相等的兩個物件，在排序之

elas演算法原始碼賞析（一）：PGM格式圖片的讀取和儲存

image.h原始碼來說說標頭檔案 pgm格式簡約筆記 // basic image I/O, based on Pedro Felzenszwalb's code #ifndef IMAGE_H #define

detectron程式碼理解（一）：Resnet模型構建理解

這裡具體以resnet50為例進行說明，一句一句地分析程式碼，程式碼位置位於Resnet.py，具體的分析函式為add_ResNet_convX_body. 在分析之前首先貼上resnet50的程式碼結構圖： # add the stem (by default, conv1 and

極客講堂之資料結構與演算法之美（一）：複雜度分析（上）

（本文根據極客講堂——資料結構與演算法之美專欄的問答區整理修改而成，如有侵權還希望聯絡我鴨~）一、什麼是複雜度分析？ 1.資料結構和演算法解決是“如何讓計算機更快時間、更省空間的解決問題”。 2.因此需從執行時間和佔用空間兩個維度來評估資料結構和演算法的效能。 3.分別

tensorflow+faster rcnn程式碼理解（一）：構建vgg前端和RPN網路

0.前言該程式碼執行首先就是呼叫vgg類建立一個網路物件self.net if cfg.FLAGS.network == 'vgg16': self.net = vgg16(batch_size=cfg.FLAGS.ims_per_batch) 該類位於vgg.py中，如下：

演算法精解（一）：C語言描述（連結串列）

1.連結串列認知一場病，斷了好久。這幾天算是基本沒什麼問題了。是時候繼續了。連結串列我想可以認為是，點到線的過程。一個個點就是一個個連結串列的節點，以特定的順序組合或連結後，行成了一條線，即連結串列。所以新增，刪除一個點是相對較容易的（因為可以動態的追加，刪除節點），但

RapidJSON 程式碼剖析（一）：混合任意型別的堆疊

大家好，這個專欄會分析 RapidJSON （中文使用手冊）中一些有趣的 C++ 程式碼，希望對讀者有所裨益。 C++ 語法解說 bool StartArray() { new (stack_.template Push<ValueType>()) ValueType(kArrayTyp

oracle中的函式介紹（一）：nvl函式、decode函式、case when函式、sum函式

最近做專案接觸到的oracle資料庫比較多，經常用到裡面的一些函式，以前的部落格中也介紹過行轉列和列轉行，這次再簡單給大家介紹幾個： nvl() NVL(a,b)就是判斷a是否是NULL，如果不

k-近鄰演算法程式碼註釋（一）

from numpy import * import operator def createDataSet(): group = array([[1.0,1.1],[1.0,1.0]

用PHP實現一個關於德州撲克演算法的程式（一）：發牌

最近在自學PHP，感覺PHP很靈活。通過學習PHP，把以前學習C#、java時沒有弄清楚的概念都理順了，對OOP的認識又上升了一個臺階。為了檢驗最近的學習成果，決定寫一個德撲的演算法程式。這個程式很簡單，只實現如下功能： 1、按照玩家的數量分配手牌； 2

Redis筆記整理（一）：Redis安裝配置與數據類型操作

數據庫 NoSQL Redis [TOC] Redis筆記整理（一）：Redis安裝配置與數據類型操作 Redis簡介 Redis是一個開源（BSD許可），內存存儲的數據結構服務器，可用作數據庫，高速緩存和消息隊列代理。它支持字符串、哈希表、列表、集合、有序集合，位圖，hyperloglo

Veeam Backup & Replication試用（一）：安裝及配置

近期veeam 9.5出來了，嘗試安裝使用，找到老管網路日誌相關的文件，分享一下。轉自老管網路日誌http://guanjianfeng.com/archives/1159347 ===================================================

Spring Cloud Config（一）：聊聊分散式配置中心 Spring Cloud Config

目錄 Spring Cloud Config（一）：聊聊分散式配置中心 Spring Cloud Config Spring Cloud Config（二）：基於Git搭建配置中心 Spring Cloud Config（三）：基於JDBC搭建配置中心 Sprin

SmartGit 安裝及使用（一）：安裝及配置

一、官網下載smartgit安裝包。 https://www.syntevo.com/smartgit/download/ 二、安裝smartgit，根據提示安裝即可。三、啟動配置smartgit。 1、選擇非商業模式安裝，勾選第三個Non-commercial us

bigdata資料分析（一）：Java環境配置

Java環境 1.下載jdk（用FileZilla工具連線伺服器後上傳到需要安裝的目錄）在 /opt/deploy 下新建 java 資料夾: # mkdir / opt/deploy /java 　解壓命令：tar zxvf 壓縮包名稱（例如：tar zxvf jdk-8u191-

運維如何選擇最合適的伺服器方案（一）：伺服器硬體配置

我們拋開租用伺服器還是自行購買伺服器進行託管的問題，在這篇文章裡，我們討論的是無論租用或託管都要面臨的一個問題，那就是選擇伺服器的硬體配置。因為上帝不會給你一臺伺服器來滿足所有需求，解決所有的問題。尤其是我們身處在這樣一個飛速變化的時代，當你還在為最新款最強勁的CPU乍舌不

springboot微服務搭建（一）：整合mybatis配置（第一種方式）

現在看網上springboot整合mybatis有兩種方式：第一種是使用maven的mybatis的依賴，填寫配置檔案；第二種是採用spring-mybatis的配置。第一種，在已有的springboot專案的pom檔案中加入 <dependency>

圖文並茂- 12C RAC的安裝（一）：作業系統引數的配置，ASM共享磁碟配置

虛擬環境：vCenter OS： redhat 7.4 RDBMS：12.1.0.2.0 關閉防火牆,不然在安裝GI的時候，會提示各個節點之間網路不通，雖然可以ping通 systemctl stop firewalld chkconfig firewalld o

《深入理解Nginx》閱讀與實踐（一）：Nginx安裝配置與HelloWorld

#include <ngx_config.h> #include <ngx_core.h> #include <ngx_http.h> static char* ngx_http_mytest(ngx_conf_t *cf,ngx_command_t *cmd,

SSD演算法程式碼介紹（一）：訓練引數配置

相關推薦