1. 程式人生 > >【計算機視覺】目標檢測方法彙總

【計算機視覺】目標檢測方法彙總

1、 選擇性搜尋:方法:滑動視窗,規則塊(利用約束進行剪枝)、選擇性搜尋(自底向上合併相鄰的重疊區域) 一步步計算相似度 並且合併、剔除相似度的高的

OverFeat: 核心思想:
1) 區域提名;多尺度滑動
2) 分類和定位:CNN來做分類和預測邊框位置 與AlexNet類似 1-5層特徵抽取,6-9層為分類層(分類任務) 不同的任務公用特徵抽取層(1-5層),只替換6-9層。
3) ’聚合(採用了滑動視窗和多尺度)不同位置和不同大小塊上的分類置信度會進行累加。
採用全連線層改造成卷積層的方式,使得相同區域的計算結果可以共享。(共享計算)

基於區域提名的方法
1.R-CNN
2.SPP-net(Spatial Pyramid Pooling,SSP):傳統的方案是對影象進行不同位置的裁剪。SPP會對整圖提取固定維度的特徵,再把圖片平均分成四份、16份
不論輸入圖片大小是多少,都是提取固定長度的特徵 16份為 16256 4份 4

256 整圖 1*256
SPP使用了多級的空間尺度特徵
能夠在不同維度抽取特徵

主要步驟如下:
1) 區域提名:從原圖生成2000個候選框
2) 區域大小縮放:不再做區域歸一化 而是縮放到 min(w,h)=s
3) 特徵提取
4) 分類與迴歸

3.Fast R-CNN
解決重複計算帶來的問題。
使用簡化的SPP層 RoI池化層
測試和訓練不再分多步進行省去儲存空間
SVD:使用SVD分解全連線層的引數矩陣,壓縮為規模很小的全連線層。
步驟:
1) 特徵提取 整圖輸入 得到特徵層
2) 區域提名:從原始圖片中提取候選區域 並把這些候選框一一投影到最後的特徵層
3) 區域歸一化:針對特徵層的每個區域候選框進行RoI池化,得到固定大小的特徵表示;
4) 分類與迴歸:通過2個全連線層,分別用Softmax多分類進行目標識別,用迴歸模型進行邊框位置與大小微調。

4.Faster R-CNN
不再使用選擇性搜尋!使用RPN(Region Proposal Network)來計算候選框
任意大小為輸入,輸出一批區域提名,每個區域對應一個目標分數和位置資訊!
1) 特徵提取:同Fast R-CNN 整張圖輸入
2) 區域提名 k個不同的矩形框 (k個標準框anchor boxes,一般取9)
3) 區域判定:提取後進行判斷,用k個迴歸模型微調候選框位置、大小。
4) 分類與迴歸:

5.R-FCN
將最後的全連線換成一個位置敏感的卷積網路,這樣所有的計算都可以共享。
具體來說,先把每個提名區域劃分成k*k個網格 每個網格都有對應編碼
會有預測有C+1個輸出,C是類別數,1是背景類別。
步驟:
1) 區域提名 RPN 全卷積網路結構
2) 分類與迴歸:利用和RPN共享的特徵進行分類 當進行bbox迴歸時,將C設定為4.

無區域提名的方法:
6.YOLO: 端到端的方法,進一步把目標判定和目標識別合二為一。
特點:
劃分成網格 在每個格子中找邊框,如B=2,則每個格子找兩個邊框及其對應的置信度、對每個格子進行分類求概率。較大的物體可由多個網格單元進行提名。採用NMS(非最大抑制)
直接分類不進行提名
問題:如有2個小目標在一個格子中,模型只能預測一個;損失函式對大小不同的框未做區分。

7.SSD:Single Shot Multibox Detector
改進了YOLO的缺點:
每個格子上有大小固定的不同的Box,稱為Default box,用來框定目標物體的位置。
SSD網路:1.前面網路是用於影象分類的標準網路(去掉分類相關層),2.後面的網路用於多尺度特徵對映層,實現檢測不同大小的目標。
SSD借鑑了Faster-RCNN中的Anchor機制,同時使用多尺度。