Paper Reading: Recombinator Networks: Learning Coarse-to-Fine FeatureAggregation
Github 源碼: https://github.com/SinaHonari/RCN
convnet 存在的問題:
- max-pooling: for tasks requiring precise localization, such as pixel level prediction and segmentation,max-pooling destroys exactly the information required to perform well.
解決方案:summation and concatenation / Recombinator Networks(coarse features inform finer features) - 除去Max-pool,conv也有一定的問題,conv是很好的邊緣檢測器,所以在檢測被遮擋的關鍵點的時候,會選擇離它較近的邊。同時,conv不能很好地學習到相對位置關系。所以一般會在conv後接一個結構化的輸出。而本問提出了denoising keypoint model 解決這個問題。
解決方案:Denoising keypoint model
圖中,左圖是 SumNet,右圖是 Recombinator Networks
SumNet:主幹是一個卷積加pooling的過程,圖像尺度不斷減半, 通道數不斷增加。然後每一層會有分支,進行卷積操作,最後每一層通過上采樣會得到一個5通道的同樣大小的feature map,對這些feature map 求一個加權和。
PS:這樣加權求和實際上和 concatenation 後加權是一樣的。這樣就理解了為什麽會有 feature map 相加這種操作。
loss function: 交叉熵,L(W)=\frac{1}{N}\sum_{n=1}^N\sum_{k=1}^K -\log P(Y_k=y_k^{(n)}|X=x^{(n)})+\lambda||W||^2
N是訓練樣本數量,K是關節點個數
SumNet的缺點:SumNet的本意是希望高層的網絡能夠指導底層的網絡提取信息,但是網絡只有在最後才融合,信息交流的很晚,所以本文提出了RCN。
The Recombinator Networks: 和SumNet不一樣的是,只有在最後一層的時候才進行融合,在之前保留信息的獨立性,從而保證信息得到更有效地利用。所以就不停地 concat+upsample
Denoising keypoint model: 專門用一個卷積神經網咯去訓練學習關鍵點之間的相對分布,隨機選擇一些節點去遮擋,移動,讓網絡預測所有節點的位置。用這個網絡接在RCN後面,將二者求和作為最後的輸出。
實驗細節:
- 數據增廣
- local contrast normalization
- 選擇代表性的圖像可視化
Paper Reading: Recombinator Networks: Learning Coarse-to-Fine FeatureAggregation