1. 程式人生 > >立體匹配之(三): A Deep Visual Correspondence Embedding Model for Stereo Matching Costs

立體匹配之(三): A Deep Visual Correspondence Embedding Model for Stereo Matching Costs

摘要

  • 也是基於patches的匹配
  • 加入亮度資訊
  • 最後基於全域性優化
    可惜沒有公開程式碼,在KITTI2012資料集上排在16,沒有在2015上排。

1 Introduction

This deep embedding model leverages appearance data to learn visual dissimilarity between image patches, by explicitly mapping raw intensity into a rich embedding space.

與mc-cnn相似,不同點在於:
(1)對左右兩個patches得到的輸出(feature vectors)我麼直接通過點乘計算其尤拉空間距離,而mc-cnn則更為複雜,需要採用fc來得到最終的相似性score,相比之下我麼的框架更加快、
(2)本框架是一個多尺度網路,可以學習不同尺度空間的特徵向量。
在feature matching領域,應用cnn的有[12,22],其中[12]是稀疏的,而[22]是主要真毒匹配semantically similar regions。

2 deep embedding for stereo estimation

2.1 Multi-scale Deep Embedding Model

左圖的patch IL(p) 右圖的IR(p-d):
patch size =13 * 13,正樣本的內積大而負樣本的內積小,這一點與mc-cnn額的二分類模型不一樣。
S=< f(IL(p)), f(IR(p−d)) > (內積)
這裡選擇了兩個scale:並通過不同的權重進行融合。

基本框架:
這裡寫圖片描述
輸入是兩組13*13的patch,(不同的尺度)
藍色的是原解析度,紅色的是下采樣的,採用4層CNN提取特徵f(I),
L1,L2:卷積核數目32, size :3*3
L3,L4:卷積核數目200,size : 5*5
對每個scale,左右patch的權值共享,最後兩個scale得到兩個score,然後通過一個卷積得到權重結果。

conv後面有Relu,但是沒有pool ,以保證尺度不變性。

2.2 Efficient Embedding for Testing

這裡寫圖片描述
只需要用全卷積提取一次特徵 ,然後採用一個sliding-window style inner product計算視差。
而mc-cnn則需要對每個可能的視差進行一遍conv的過程。

2.3 training details

正負樣本的設定與mc-cnn相同,實際訓練的時候,用大的Nlo, Nhi開始訓練會更快收斂,後面慢慢減小Nlo, Nhi。

3 stereo framework

採用MRF-based stereo
1. 匹配cost C(p,d)= -S(p,pd)
2. 經過SGM得到一個raw disparity map
3. LRC檢驗,去掉不可靠點,然後傳播有效點的視差到不可靠點[29]。

4 實驗

基於Caffe

參考文獻

[29] X. Sun, X. Mei, S. Jiao, M. Zhou, Z. Liu, and H.Wang. Real-time local stereo via edge-aware disparity propagation. PRL, 49:201–206, 2014.

(未完待續。。。)