1. 程式人生 > >Paper Reading: Recombinator Networks: Learning Coarse-to-Fine FeatureAggregation

Paper Reading: Recombinator Networks: Learning Coarse-to-Fine FeatureAggregation

大小 destroy normal png post 結構化 del AC ear

Github 源碼: https://github.com/SinaHonari/RCN

convnet 存在的問題:

  1. max-pooling: for tasks requiring precise localization, such as pixel level prediction and segmentation,max-pooling destroys exactly the information required to perform well.
    解決方案:summation and concatenation / Recombinator Networks(coarse features inform finer features)
  2. 除去Max-pool,conv也有一定的問題,conv是很好的邊緣檢測器,所以在檢測被遮擋的關鍵點的時候,會選擇離它較近的邊。同時,conv不能很好地學習到相對位置關系。所以一般會在conv後接一個結構化的輸出。而本問提出了denoising keypoint model 解決這個問題。
    解決方案:Denoising keypoint model

技術分享圖片

圖中,左圖是 SumNet,右圖是 Recombinator Networks

SumNet:主幹是一個卷積加pooling的過程,圖像尺度不斷減半, 通道數不斷增加。然後每一層會有分支,進行卷積操作,最後每一層通過上采樣會得到一個5通道的同樣大小的feature map,對這些feature map 求一個加權和。

PS:這樣加權求和實際上和 concatenation 後加權是一樣的。這樣就理解了為什麽會有 feature map 相加這種操作。

loss function: 交叉熵,L(W)=\frac{1}{N}\sum_{n=1}^N\sum_{k=1}^K -\log P(Y_k=y_k^{(n)}|X=x^{(n)})+\lambda||W||^2

N是訓練樣本數量,K是關節點個數

SumNet的缺點:SumNet的本意是希望高層的網絡能夠指導底層的網絡提取信息,但是網絡只有在最後才融合,信息交流的很晚,所以本文提出了RCN。

The Recombinator Networks: 和SumNet不一樣的是,只有在最後一層的時候才進行融合,在之前保留信息的獨立性,從而保證信息得到更有效地利用。所以就不停地 concat+upsample

Denoising keypoint model: 專門用一個卷積神經網咯去訓練學習關鍵點之間的相對分布,隨機選擇一些節點去遮擋,移動,讓網絡預測所有節點的位置。用這個網絡接在RCN後面,將二者求和作為最後的輸出。

實驗細節:

  1. 數據增廣
  2. local contrast normalization
  3. 選擇代表性的圖像可視化

Paper Reading: Recombinator Networks: Learning Coarse-to-Fine FeatureAggregation