Paper Reading: Recombinator Networks: Learning Coarse-to-Fine FeatureAggregation

阿新 • • 發佈：2018-03-06

大小 destroy normal png post 結構化 del AC ear

Github 源碼： https://github.com/SinaHonari/RCN

convnet 存在的問題：

max-pooling: for tasks requiring precise localization, such as pixel level prediction and segmentation,max-pooling destroys exactly the information required to perform well.
解決方案：summation and concatenation / Recombinator Networks(coarse features inform finer features)

除去Max-pool，conv也有一定的問題，conv是很好的邊緣檢測器，所以在檢測被遮擋的關鍵點的時候，會選擇離它較近的邊。同時，conv不能很好地學習到相對位置關系。所以一般會在conv後接一個結構化的輸出。而本問提出了denoising keypoint model 解決這個問題。
解決方案：Denoising keypoint model

技術分享圖片

圖中，左圖是 SumNet，右圖是 Recombinator Networks

SumNet：主幹是一個卷積加pooling的過程，圖像尺度不斷減半，通道數不斷增加。然後每一層會有分支，進行卷積操作，最後每一層通過上采樣會得到一個5通道的同樣大小的feature map，對這些feature map 求一個加權和。

PS：這樣加權求和實際上和 concatenation 後加權是一樣的。這樣就理解了為什麽會有 feature map 相加這種操作。

loss function: 交叉熵，L(W)=\frac{1}{N}\sum_{n=1}^N\sum_{k=1}^K -\log P(Y_k=y_k^{(n)}|X=x^{(n)})+\lambda||W||^2

N是訓練樣本數量，K是關節點個數

SumNet的缺點：SumNet的本意是希望高層的網絡能夠指導底層的網絡提取信息，但是網絡只有在最後才融合，信息交流的很晚，所以本文提出了RCN。

The Recombinator Networks: 和SumNet不一樣的是，只有在最後一層的時候才進行融合，在之前保留信息的獨立性，從而保證信息得到更有效地利用。所以就不停地 concat+upsample

Denoising keypoint model: 專門用一個卷積神經網咯去訓練學習關鍵點之間的相對分布，隨機選擇一些節點去遮擋，移動，讓網絡預測所有節點的位置。用這個網絡接在RCN後面，將二者求和作為最後的輸出。

實驗細節：

Paper Reading: Recombinator Networks: Learning Coarse-to-Fine FeatureAggregation

大小 destroy normal png post 結構化 del AC ear Github 源碼： https://github.com/SinaHonari/RCN convnet 存在的問題： max-pooling: for tasks requiring p