1. 程式人生 > >深度學習如何在醫學影像分割上大顯神通?——分割網路的三個改進思路

深度學習如何在醫學影像分割上大顯神通?——分割網路的三個改進思路

今天看到了一篇介紹深度學習在醫學影像分割中的應用的文章,寫的很好,分享給更多需要的朋友。原文連結:https://cloud.tencent.com/developer/article/1029037

一、醫學影像分割有助於臨床工作

影象分割在影像學診斷中大有用處。自動分割能幫助醫生確認病變腫瘤的大小,定量評價治療前後的效果。除此之外,臟器和病灶的識別和甄別也是一項影像科醫生的日常工作。CT和磁共振的資料都是三維資料,這意味著對器官和病灶的分割就需要逐層進行。如果都是手工分割的話,會給醫生帶來繁重的工作量。實際上,已經有很多學者提出了許多醫學影像的分割方法,但由於醫學影像複雜,分割目標多變,仍有很多自動分割問題等待解決。

近年來深度學習在計算機視覺的各個細分鄰域都取得了出色的成績,那麼,深度學習如何幫助醫生得到更滿意的影象分割結果呢?本文就從三個深度學習分割網路的改進思路談起,聊一聊這些改進的出發點和具體實現策略。

二、醫學影像分割的特點

2.1 分割問題有別於分類問題

深度學習開始大放異彩的工作,莫過於在ImageNet資料集上,對輸入圖片的分類了。只要輸入圖片,就能判斷圖片中主體所屬的類別。然而,和分類問題輸入影象輸出主體的類別不一樣,分割問題需要對每個畫素點的類別進行識別。圖1就展示了分類和分割的不同點,上圖的網路只需要對圖片中的主體識別,得到圖中有一隻小貓的結論,而對下圖的分割問題,則需要得出關於這隻小貓所在畫素點的熱力分佈圖。

圖1 分割和分類的區別[1]

2.2 醫學影像的分割精度要求高

經典的語義分割更重視畫素點的多分類資訊,往往對多個類別進行分割,對分割細節要求不高。一個典型的例子就是今年發表於CVPR的文章[2]中,對街景的分割。圖2可以看出,它出色的捕捉到了畫素的類別資訊,但是在分割細節上就不是那麼的讓人滿意了。

圖2 工作[2]分割結果,左圖為待分割影象,中圖為金標準,右圖為分割結果

而對於醫學影像分割,有一個好訊息和一個壞訊息:好訊息是對於醫學影像而言,往往不需要進行多分類,只需要進行病灶或器官的區分即可;而壞訊息在於,醫學影像所需的分割精度較高,同時穩定性也需要很高,但醫學影像往往信噪比相對較低,即使是醫生也需要長期的專業訓練,而一致性也往往會受到醫生經驗、疲勞程度和耐心程度的限制。

在Kaggle上舉辦的心室分割比賽要求參賽選手們對心臟的內包膜和外包膜同時進行分割,如圖3所示,該任務對分割細節的要求較高。和圖2的街景分割任務相比,醫學影像的分割細緻程度要求較高,不正確或是不穩定的分割將會直接影響心臟射血量的定量計算,從而失去了對醫學影象分割的本來意義。

圖3 左圖為待分割影象,右圖為心臟的內包膜和外包膜的分割

三、深度學習分割的開山鼻祖——FCN網路

Fully convolutional network[1]作為分割的代表性工作得到了廣泛關注,其核心思想在於將在ImageNet資料集上已經訓練好的網路中,深層網路的全連線層改為全卷積層,從而儲存分割的位置資訊,但是由於最終的分割結果只利用了深層特徵對映(feature map),分割結果不夠精確。

文章作者也嘗試將不同池化(pooling)層的輸出進行不同倍數的上取樣得到如圖4的結果。可以看出,上取樣倍數越多(更深層的池化輸出)的結果顯得越模糊但分類的語義資訊較為精確,上取樣倍數越少(更淺層的池化輸出)的結果保留的分割細節更多而語義資訊卻不精確。因此,作者指出,該網路中畫素類別的精確性和位置的精確性存在著此消彼長的關係。

圖4 不同池化層做上取樣操作後的結果,最右側為金標準[1]

那麼,面對這樣此消彼長的網路特性我們能夠通過哪些思路進行改進呢?這些改進思路之間究竟存在怎樣的內在邏輯?如果我們不僅僅只利用深層的特徵對映會怎麼樣?

四、分割精確度的提升之道

4.1.1 利用合併操作共享資訊:UNet

於2015年提出的UNet[3]首先將跨越連線的思想應用於分割問題,並且將其運用在了細胞影象的分割和肝臟CT影象的分割上,得到了當時最為精確的結果。其特點在於利用底層資訊補充高層資訊,使得分割的精確度大大提升。

圖5上圖即為UNet的網路結構圖,由於它將淺層網路中的輸出和深層網路的輸出合併(concatenate)在了一起,使得網路在最終輸出的時候能夠同時考慮淺層資訊和深層資訊的貢獻。和FCN這種對不同層的池化結果進行上取樣的思路不同,UNet的這個合併操作有效避免了FCN網路中語義資訊和分割細節此消彼長的情況。淺層的輸出儲存了空域細節資訊,深層的輸出則是儲存了相對抽象的語義資訊,二者合二為一就提升了分割效果。

圖5 上圖為UNet網路結構圖,下圖為分割結果示意圖。UNet由於其外形酷似字母“U”即被取名為UNet。

4.1.2 利用殘差操作共享:短程、長程連線的殘差網路

目前,在前列腺分割資料集MICCAI PROMISE12上得分最高的工作[4]也採用了類似的思路——分割細節不清晰怎麼辦?將網路的淺層輸出和網路的高層輸出相連線不就行了。圖6所示的即為該工作的網路結構圖,和UNet類似,它也用一些短程和長程連線將網路的抽象特徵和底層的細節相互結合在一起。

圖6 工作[4]的網路結構圖

不過和UNet的思路不同是,工作[4]將兩個網路層連線的方式為矩陣的簡單相加操作。圖7展示了矩陣相加的樸素計算方式。

圖7 矩陣相加操作

而在UNet中,連線淺層網路輸出和深層網路輸出時,它選取的計算操作為合併(concatenate)。如圖8所示,UNet中的合併操作將兩個矩陣進行了疊加。

圖8 UNet中的合併操作

可以看出,在殘差操作中使用的矩陣相加操作增加了矩陣內元素的大小,而UNet中的合併操作則是增加了矩陣的維度大小。最初將不同層相加用於深度學習領域的研究人員[5]認為相加操作增加了網路中資料流的大小,從而能夠避免在極深的網路中梯度消失的問題,使得訓練極深的網路提升分類準確性成為可能。而有研究人員認為[6],雖然網路深了,但實際上很多神經元在訓練的過程中對預測結果的貢獻很小,這樣的操作有些得不償失。相加操作對網路的深層和淺層的資訊是進行簡單的加和操作,而合併操作是原原本本地儲存了深層資訊和淺層資訊,因此,本文傾向於認為合併操作能夠更大限度的保留底層資訊,在分割問題上更加行之有效。

4.1.2 共享各個網路層的資訊:稠密連線的DenseNet

既然網路的某幾層能夠互相連線提升分割精確度,那麼為什麼不把網路中任意兩層連線起來呢?DenseNet[7]就將網路中任意兩層網路連線起來,形成稠密連線的卷積網路(Densely Connected Convolutional Networks)。這樣的稠密連線設計能夠使得網路最大限度地儲存網路的資訊流和梯度流,一定程度上抑制網路在迭代過程中梯度消失的問題,並且降低網路中需要學習的引數數量。

目前,在心臟和大血管分割的問題上就有人[8]應用了這種稠密連線的思路,取得了非常棒的結果(圖9)。

圖9 [8]工作中的網路結構圖

4.2 共享影象層間資訊

實際上,作為天然的三維資料,CT和MR影象層間的資訊也能進行互補,這個時候,三維卷積就能夠大展身手了。機智的你或許也已經發現,前文所述的前列腺工作[4]和心臟分割工作[8]都無一例外的使用了三維卷積核進行卷積操作,依靠影象層間的互補資訊大大提升了分割精確度。不過,三維的卷積核比較適用於層間變化不是特別明顯的影象,例如前列腺MR影象,前列腺在軸位、冠狀位以及矢狀位上的畫素都相對連續,因此使用三維卷積核能夠有很大的提升,而對於小血管這樣區域性變化較大的組織而言,三維的分割似乎不是一個好主意。

五、未來工作展望

聊到這兒,相信大家對深度學習在醫學影像分割上的應用有了一定的瞭解,也對網路的設計與優化有了認識。但是挑戰遠沒有結束,醫療影像資料中還有很多值得挖掘的地方和待解決的問題。在這裡筆者就簡單地拋磚引玉,其實除了上述的優化網路結構的方法外,還有很多可以用來提升分割效果的思路和策略。

5.1 多模態醫學資訊結合

醫學檢查中往往有多個模態的資料或是多個掃查序列,這些資訊可以互相結合提高分割精度。例如,對於下肢肌肉的MR掃查而言,壓脂的MR影象中肌肉的邊緣資訊儲存的比較好,而T1w影象中的肌肉紋理卻比較清晰,邊緣資訊可以有助與分割較大的肌肉,而小塊的肌肉分割就需要藉助肌肉的紋理資訊了。

圖10 上圖為肌肉的T1w影象,下圖為肌肉壓脂影象

5.1 影象上下文資訊互助

醫學影像中除了待查的部位外,總是包含有身體其他部位的資訊,這些資訊中含有一些解剖標誌定位,例如:心臟的位置在3-7肋骨處。而在CT影象中,由於肋骨的亨氏單位(hounsfield unit)較為特殊,導致肋骨相對於各類軟組織而言非常容易識別。這樣就可以根據CT影象中的肋骨的位置資訊,在分割心臟時大大減少演算法的求解空間。

圖11 心臟和肋骨的相對位置關係示意圖

小結一下,本文介紹了三個在醫學影像分割問題上深度學習網路的改進思路:1、網路深層抽象資訊與底層細節資訊共享,用底層資訊補充分割細節;2、網路各個層互補資訊,通過最大限度的保留網路資訊流來提升分割精度;3、將二維卷積操作換為三維卷積操作從而利用影象層間資訊互補提升分割精度。不難看出,當前在醫學影像分割競賽上表現出眾的三個工作的改進思路都在於擴大參與計算的資訊,希望這點能夠提供各位讀者在改進分割網路時更多的靈感。

對於醫學影像分割,深度學習已經有了非常出色的表現,而且越來越多的新思路和新方法用於不斷提高分割精度和穩健性,並逐漸減輕醫生繁瑣的日常工作,降低視覺疲勞的壓力,成為臨床醫生的有力工具。

參考文獻

[1]J. Long, E. Shelhamer, and T. Darrell, “Fully convolutional networks for semantic segmentation,” Proc. IEEE Comput. Soc. Conf. Comput. Vis. Pattern Recognit., vol. 07–12–June, pp. 3431–3440, 2015.

[2]H. Zhao, J. Shi, X. Qi, X. Wang, and J. Jia, “Pyramid Scene Parsing Network,” 2016.

[3]O. Ronneberger, P. Fischer, and T. Brox, “U-Net: Convolutional Networks for Biomedical Image Segmentation,” Miccai, pp. 234–241, 2015.

[4]L. Yu, X. Yang, H. Chen, J. Qin, and P.-A. Heng, “Volumetric ConvNets with Mixed Residual Connections for Automated Prostate Segmentation from 3D MR Images,” Thirty-First AAAI Conf. Artif. Intell., pp. 66–72, 2017.

[5]S. Wu, S. Zhong, and Y. Liu, “Deep residual learning for image steganalysis,” Multimed. Tools Appl., pp. 1–17, 2017.

[6]G. Huang, Y. Sun, Z. Liu, D. Sedra, and K. Weinberger, “Deep Networks with Stochastic Depth,” 2016.

[7]G. Huang, Z. Liu, K. Q. Weinberger, and L. van der Maaten, “Densely Connected Convolutional Networks,” 2016.

[8]L. Yu et al., “Automatic 3D cardiovascular MR segmentation with densely-connected volumetric convnets,” Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics), vol. 10434 LNCS, pp. 287–295, 2017.