1. 程式人生 > >A Coarse-Fine Network for Keypoint Localization

A Coarse-Fine Network for Keypoint Localization

1、雖然有很多的關鍵點是可以很容易定位到例如頭部和脖子,但是對於一些區別起來並不是很好的部位的話,使用嚴格的監督來講並不是很有效,作者的出發點就是解決這個問題。作者設計了三個粗糙的部位檢測器和一個精細的部位檢測器

2、作者首先是採用了一個inception的網路,有好幾個分支,根據論文描述為3個分支,如下圖所示
這裡寫圖片描述
最後在3個coarse檢測器的基礎上加了一個精細的檢測器
淺層的網路通常可以對容易檢測出來的部位能夠很好地定位,對於ambiguous的keypoint來講檢測又不是很好。但是深層的精細網路雖然能夠對ambiguous的keypoint有很好的定位效果,但是在關鍵的localization accuracy上面卻損失了很多的精度,這個方法對於低解析度的人有更好的效果,對於medium的person效果來說很好。

3、先來看一下三個coarse網路,三個分支主要區別在於堆疊的inception的網路的多少,導致了不同的感受野,小的感受野捕捉更加細節的東西,大的感受野能夠捕捉關節間的依賴關係,然後把三個粗糙網路出來的feature進行concat,concat之後的特徵送入到fine network裡面,最後進行整體的訓練,標籤是multi-level的。
作者的target heatmap的製作思路幾乎和檢測的anchor 的思路是一樣的,真的很新穎

3.1 在卷積網路裡面,stride和感受野都是隨著深度的增加而增加的,深層網路能夠編碼更多的語義資訊用來區分ambiguous的keypoint,確損失了定位精度,為了在part classification和part localization尋求折中,作者採用Inception v2的4a-4c作為訓練三個粗糙檢測器,感受野分別是107x107,139x139,171x171。如果輸入圖片是224x224,那麼後面171的感受野相對於224太大了,可能會導致ambiguous的檢測,所以作者增加了輸入大小,這樣171相對於448來說會好一點。
作者可以預測最後的監督label通過1x1的convolution,類似於滑動窗的形式。
作者怎樣產生multi-level的監督的呢?現役coarse的level為例說明。
作者引入object detection中的overlap的思想來計算,以Inception的4a分支為例。
Inception的4a分支的map大小是28x28,那麼對應到原來的影象的感受野大小是107x107,用檢測中anchor的思想來看的話,28x28的784個位置上,每一個畫素的位置都代表了一個框,每一個框都是一個取樣樣本,作者通過計算這個框和gt框之間的iou來界定這個位置的標籤。檢測中這個地方是取三個面積大小,三種比例的anchor來和gt做iou的計算,但是關鍵點不用這麼麻煩,就用一個感受野大小的框和一個正方形的比例就可以了。那麼這個gt框怎麼弄得呢?gt框在每一個關節點的周圍取一個正方形,正方形的大小是感受野的大小,如果以107x107為例的話,gt就是在以每一個關鍵點為中心的107x107框。通過在原圖片上取框和gt進行計算說的標籤,和faster rcnn的rpn一樣的思路。

那麼具體怎麼來做呢?
對於不同的level是不同的,假設有K張map,以4a這一支為例,假設stride=s,offset padding = p,感受野為r,feature map上的位置為(w,h),那麼對應到原圖上的話,該位置為
這裡寫圖片描述
這個和anchor有點不一樣,anchor採用滑動的方式獲得的。現在假設是第k張map,對於他的每一個位置都找到對應的框,一旦和第k個部位對應的gt的iou大於0.5,就把該位置設定為1,否則為0,和anchor又很像。

3.2 對於精細網路的部分target-map的製作就不在是anchor的方法了,採用和普通heatmap差不多的思路,將對應到原圖中的點和gt點而不是框計算距離,一旦距離少於特定值,就把該位置設定為1,否則設定為0

3.3
整個網路的學習損失函式為這裡寫圖片描述
總體的損失函式為粗糙網路和精細網路的損失
這裡寫圖片描述

3.4 推理過程
測試過程預測O_d,對於第k張結果來講,每張結果的對應位置是1僅僅在該位置是17張map中最大的才可以,這樣會出現一張map多個最大值,作者最後將heatmap送入2D高斯中進行平滑,從中找打最大值的位置,結合在一起獲得最終的預測。

因為最終的map位置需要結合coarse和fine個方面,利用二者的優勢,那麼作者怎麼做的呢?
這裡寫圖片描述
如果fine網路對應位置的分數很低的話,就採用coarse網路對應的位置,否則認為fine網路對應的位置就是最終的關鍵的位置,這個技巧很妙呀

相關推薦

A Coarse-Fine Network for Keypoint Localization

1、雖然有很多的關鍵點是可以很容易定位到例如頭部和脖子,但是對於一些區別起來並不是很好的部位的話,使用嚴格的監督來講並不是很有效,作者的出發點就是解決這個問題。作者設計了三個粗糙的部位檢測器和一個精細的部位檢測器 2、作者首先是採用了一個inception的網

《Kalchbrenner N, Grefenstette E, Blunsom P. A convolutional neural network for modelling sentences》

概率分布 通過 AD 最小 當前 最大化 gradient function thml Kalchbrenner’s Paper Kal的這篇文章引用次數較高,他提出了一種名為DCNN(Dynamic Convolutional Neural Network)的網絡模型,在

A Convolutional Neural Network for Modelling Sentences

引言 Nal Kalchbrenner等人在2014年arXiv上的paper,原文地址:arXiv:1404.2188v1 [cs.CL] 8 Apr 2014。 自然語言處理的基礎問題在於句子的語義表示,其他特定的任務如分類等都是在語義表示的基礎上進行高層次的處理,所以如何對句子

論文筆記:DRAW: A Recurrent Neural Network For Image Generation

DRAW: A Recurrent Neural Network For Image Generation 2019-01-14 19:42:50   Paper:http://proceedings.mlr.press/v37/gregor15.pdf  本文將 V

論文解讀之MemNet: A Persistent Memory Network for Image Restoration

論文名稱:MemNet: A Persistent Memory Network for Image Restoration 作用領域:影象修復(去噪,超解析度) code:https://githu

Deep Alignment Network: A convolutional neural network for robust face alignment

論文分析 論文提出了一種類似級聯的神經網路結構。這一點上很遺憾,我在一個月之前也想到了這種模式。因為對於實時 Landmark 的跟蹤,其實可以利用上一幀的預測結果來預測下一幀 Landmark 的位置。但現代大部分的 CNN 結構沒辦法辦到。在與朋友的討論中

【論文閱讀】Meta-SR: A Magnification-Arbitrary Network for Super-Resolution

開發十年,就只剩下這套架構體系了! >>>   

【論文閱讀】Learning a Deep Convolutional Network for Image Super-Resolution

開發十年,就只剩下這套架構體系了! >>>   

論文閱讀:Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis

這篇論文是在2017年3月22日發表在CVPR上的,作者在這篇論文中提出了一個叫做深度從粗糙到精細化的多工卷積神經網路(Deep MANTA),該模型可以用於對一張圖片中的車輛進行多工的分析。該網路同時執行的多工包括:車輛檢測、部件定位、可見性描述和三維形

caffe 教程 Fine-tuning a Pretrained Network for Style Recognition下載資料

問題:執行python examples/finetune_flickr_style/assemble_data.py --workers=1 --images=2000 --seed 831486命令下載Flickr Style資料,然而提示:Writing

論文筆記-DeepFM: A Factorization-Machine based Neural Network for CTR Prediction

contain feature 比較 san date res 離散 edi post 針對交叉(高階)特征學習提出的DeepFM是一個end-to-end模型,不需要像wide&deep那樣在wide端人工構造特征。 網絡結構: sparse feature

【論文翻譯】中英對照翻譯--(Attentive Generative Adversarial Network for Raindrop Removal from A Single Image)

【開始時間】2018.10.08 【完成時間】2018.10.09 【論文翻譯】Attentive GAN論文中英對照翻譯--(Attentive Generative Adversarial Network for Raindrop Removal from A Single Imag

SSR-Net: A Compact Soft Stagewise Regression Network for Age Estimation

逐級迴歸的年齡估計 本文是國立臺灣大學發表的一篇依據人臉圖片進行年齡估計的文章.受DEX論文的啟發,這篇文章也把迴歸問題轉換為多個分類問題.SSR-Net採用了由粗到細多級分類的方式.每個stage僅對其之前的預測做出更精細的判斷.因此,對於神經元個數的需要就大大減少,這樣模型的體積也就下來了.

人臉對齊(二十一)--A Recurrent Encoder-Decoder Network for Sequential Face Alignment

轉自:https://blog.csdn.net/shuzfan/article/details/52438910 本次介紹一篇關於人臉關鍵點檢測(人臉對齊)的文章: 《ECCV16 A Recurrent Encoder-Decoder Network for Sequential Fac

論文閱讀筆記十八:ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation

每一個 內核 基於 proc vgg 包含 rep 重要 偏差 論文源址:https://arxiv.org/abs/1606.02147 tensorflow github: https://github.com/kwotsin/TensorFlow-ENet 摘要

MSCNN論文解讀-A Unified Multi-scale Deep Convolutional Neural Network for Fast Object Detection

 多尺度深度卷積神經網路進行快速目標檢測: 兩階段目標檢測器,與faster-rcnn相似,分為an object proposal network and an accurate detection network. 文章主要解決的是目標大小不一致的問題,尤其是對小目標的檢測,通過多

MACNN-Learning Multi-Attention Convolutional Neural Network for Fine-Grained Image Recognition

《Learning Multi-Attention Convolutional Neural Network for Fine-Grained Image Recognition》是微軟亞洲研究院17年出的一篇細粒度影象識別論文,它的姊妹篇是《Look Closer to

Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting

這篇文章來大致介紹一下ConvLSTM的基本原理和應用場景。個人認為有時候對於一個演算法改進很大程度上會受到應用場景的啟示,比如現在要說的這篇。不知道論文作者當時想到這個idea時是不是也是這樣。 1.論文的核心思想 先來想象一下這麼一個應用場景:根據某個城市歷史的降雨量資

Attentive Generative Adversarial Network for Raindrop Removal from A Single Image論文理解

  概述: 在去雨的過程中給網路加上了attention提取,讓網路能夠更好地學到有雨滴部分的差別。 網路結構如下: 首先使用attention提取網路來獲得包含雨滴的影象的attention影象(值在0-1之間,包含雨滴的地方值較大),attention提取網路中使用通

Show HN: Gymmmr, a social network for finding a workout partner

http://www.gymmmr.com/Gymmmr is a social network that enables people to find partners and friends to workout with. Users enter their diet information, goal