1. 程式人生 > >小川學習筆記--SPP空間金字塔池化學習

小川學習筆記--SPP空間金字塔池化學習

SPP空間金字塔池化學習札記1

作者:程式猿劉小川
大家好,我係渣渣輝…不好意思走錯片場了,重新介紹下自己,我是新來的博主-程式猿劉小川,初來乍到,還望諸位多多包涵。本博主是跨專業學生,剛開始接觸計算機演算法,在學習計算演算法之餘,檢視些許專業論文,在學習時有著一些個人的心得。由於學藝不精,初入演算法,對一些專業上了理解還比較淺,還望諸位看官多多指教。下面就進入正題,由演算法小白劉小川帶大家學習第一篇演算法論文。

  • 論文題目《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》

  • 論文作者:Kaiming He , Xiangyu Zhang , Shaoqing Ren , and Jian Sun

    各位看官們,這是本博主接觸的第一篇論文,論文所提出的演算法思想的創新點是進行SPP(Spatial Pyramid Pooling 空間金字塔池化),這一點也使得在進行圖片資訊處理的時候,比其他演算法更進一步提高計算速度。在計算機機器學習領域,有挺多不同的演算法,這些演算法在一些基礎演算法上不斷地優化、改進、創新,從基礎演算法發展到CNN(Convolutional Neural Network卷積神經網路)、R-CNN、、Fast-RCNN、Faster-RCNN和SSD等。而本篇論文研究的演算法就是與R-CNN進行相對的比較,SPP演算法在計算速度上比R-CNN演算法快上近100倍。
    在我們所學習的現有的CNN演算法中,對於已經確定的網路結構中,再輸入原始圖片時,需要對圖片進行固定大小的輸入,比如224x224、32x32、96x96等尺寸。然而再輸入時,只能輸入特定大小的圖片,對於眾多的圖片便需要進行Crop(剪裁)、Swap(轉換)或者扭曲變形等。但是在進行這些操作之後,在一定程度上會造成圖片資訊的損失或失真,會降低影象識別檢測的精度。在進行CNN演算法的缺陷分析之後,想到了優化方案,那就是今天所以一直講解對的SPP演算法。
    SPP演算法的有點在於:在已經確定的網路結構中,可以輸入任意尺寸的圖片,可以不經過剪裁變形等操作,這樣確保了圖片資訊的真實度,提高了影象處理速度和效率,當然在提高速度的同時,精度也有所提高。
    在這裡插入圖片描述


    正如所見上圖便是CNN演算法的剪裁、變形示例,這種方式處理的圖片限制了識別的精確度。
    在傳統的CNN演算法中,其影象處理的操作流程是:圖片經過裁剪、變形後,進行不斷的卷積計算,得到卷積層,而後影象處理進入全連線層,而全連線層它就是限制影象大小的罪魁禍首,它需要固定大小的輸入。
    然而,SPP演算法就是來解決這個問題的,使用SPP這種影象處理方式,便能讓任何大小的圖片輸入網路,使得整個網路結構與R-CNN有所不同。
    在這裡插入圖片描述
    好吧,本博主先就寫到這兒吧,各位看官還有需要觀看的,請關注博主,等待後續的博文更新…