1. 程式人生 > >論文閱讀筆記二十:LinkNet: Exploiting Encoder Representations for Efficient Semantic Segmentation(CVPR2017)

論文閱讀筆記二十:LinkNet: Exploiting Encoder Representations for Efficient Semantic Segmentation(CVPR2017)

源文網址:https://arxiv.org/abs/1707.03718

tensorflow程式碼:https://github.com/luofan18/linknet-tensorflow

摘要

      畫素級分割不僅準確率上有要求,同時需要應用的實際中實時的應用中。雖然精度上較高,但引數與操作上的數量都是十分巨大的。本文提出的網路結構引數並未增加。只使用了11.5million的引數量,與21.2GFLOPs用於處理3x360x480的圖片。該網路在CAMVID上取得state-of-the-art的效果,同時,在Cityscapes上取得較好的結果。該文同時以不同影象解析度在NVIDIA GPU上的處理時間進行比較。

介紹

      由於像增強現實,自動駕駛等大量任務應用於畫素級的分類分割任務上,因此畫素級分割成為一個較熱的研究點。受自編碼器的啟發,目前現存的分割網路以encoder-decoder作為主要網路結構。編碼層將輸入的資訊編碼到特徵資訊上,解碼器將特徵資訊對映到空間分類中以進行分割。目標檢測上中Fast RCNN,YOLO,SSD致力於實時的目標檢測,但分割任務上實時性的相關工作仍未有所進展。

     該文的貢獻是在不影響處理時間的條件下得到較高分割準確率。一般,編碼層由於卷積池化丟失的位置資訊通過池化層最大值的索引或者全卷積操作進行恢復。

該文主要貢獻是並未使用上述方法進行恢復,繞過空間資訊,直接將編碼器與解碼器連線來提高準確率,一定程度上減少了處理時間。通過這種方式,保留編碼部分中不同層丟失的資訊,同時,在進行重新學習丟失的資訊時並未增加額外的引數與操作。

相關工作

      分割任務需要對每個畫素進行標記,因此,空間資訊的保留就比較重要,用於場景分析的分割網路一般可以分為編碼-解碼部分,分別用於分類與生成。state-of-the-art的分割網路大多使用ImageNet上的分類模型作為encoder部分。解碼部分使用最大池化操作保留的索引或者學習反捲積的引數等。編碼部分與解碼部分可以是對稱的,也可以是非對稱的。大多數分割網路在嵌入式上都無法進行實時的分割。使用RNN來獲得語義資訊,但RNN的計算量較大。

網路結構

      

     

 結果

比較方向:(1)網路執行前行過程的運算元。(2)Cityscapes與CamVid資料集上的準確率。

操作:類別不平衡處理,基於Pytorch框架,RMSProp優化方法。

 

 參考

        [1] Y. LeCun and Y. Bengio, “Convolutional networks for images, speech, and time series,” The handbook of brain theory and neural networks, pp. 255–258, 1998.

        [2] Y. LeCun, L. Bottou, G. B. Orr, and K. R. M¨uller, Neural Networks: Tricks of the Trade. Berlin, Heidelberg: Springer Berlin Heidelberg, 1998, ch. Efficient BackProp, pp. 9–50.

        [3] M. A. Ranzato, F. J. Huang, Y.-L. Boureau, and Y. LeCun, “Unsupervised learning of invariant feature hierarchies with applications to object recognition,” in Computer Vision and Pattern Recognition, 2007. CVPR’07. IEEE Conference on, 2007, pp. 1–8.