摘要

  大意是說 ,普遍認為深度網路需要大量已標籤資料集,這個網路(U-Net)可以依靠資料增強來事先少量資料集訓練網路。而且,這個網路訓練得很快,運用GPU執行,512*512的圖片只需要不用一秒即可。
  該網路屬於端對端網路,即輸入圖片,輸出分割開的圖片。贏得了2015年ISBI競賽。

介紹

  卷積神經網路已經存在很久了,但因為缺少可用的訓練資料集而沒被大量使用,直到ImageNet資料集(百萬張圖片)的出現。
  傳統的卷積網路的目標是分類,即對每個圖片給予一個標籤。但是對於很多視覺任務,特別是醫療影象方向,目標應該包括定位,以及對每個畫素塊給予一個標籤。而且,醫療影象的訓練集都不大。
  大概也就介紹了一些傳統的影象分割演算法,如滑動視窗,以及U-Net借鑑的前身FCN之類的,併為比較難的分割的情況(彼此接觸的同類物體)提議了一種方法。

網路架構

U-Net

  網路架構就如上圖,可以描述為由收縮路徑(左邊)和擴張路徑組成。收縮路徑和傳統的卷積網路一樣,由卷積核尺寸為33的無填充卷積,每次卷積後都經過ReLU函式作用,以及尺寸為22,步距為2的最大池組成。這個最大池化就是下采樣的過程,下采樣後就將channels變為2倍。擴張路徑22的上卷積,上卷積的output channels為原先的一半,再與對應的特徵圖(裁剪後)串聯起來(得到和原先一樣大小的channels),再經過兩個尺寸為33的卷積及經過ReLU作用。相應的裁剪特徵圖是必須的,因為在我們卷積的過程中會有邊界畫素的丟失。在最後一層通過卷積核大小為11的卷積作用得到想要的目標種類。在這個網路中,有23個卷積層。
  為了保證輸出分段對映的無縫拼接,需要謹慎的選擇輸入圖片的尺寸,以保證所有的Max Pooling操作應用於有偶數的x-size和偶數的y-size的圖層。

訓練

  該論文是基於Caffe,使用動量為0.99的SGD,損失函式為交叉熵,訓練輸入圖片與它們對應的分割圖片(輸入圖片和最後的圖片的尺寸不一樣)。該訓練模型和傳統的訓練模型沒什麼不同,都是注意權重初始化隨機,資料增強等。