1. 程式人生 > >論文筆記 / Mitosis Detection in Breast Cancer Histology Images with Deep Neural Networks

論文筆記 / Mitosis Detection in Breast Cancer Histology Images with Deep Neural Networks

僅供參考,如有翻譯不到位的地方敬請指出。轉載請標明出處!
論文地址:https://link.springer.com/chapter/10.1007/978-3-642-40763-5_51

摘要

我們使用含有最大池化層的深度卷積神經網路來檢測乳腺組織學影象中的有絲分裂。訓練網路以使用以畫素為中心的patch作為上下文對影象中的每個畫素進行分類。 然後將簡單的後處理應用於網路的輸出。我們的方法贏得了ICPR 2012有絲分裂檢測競賽,其表現優於其他參賽者。

1、介紹

組織切片中可見的有絲分裂輪廓的數量是癌症篩查和評估的重要指標。通常由組織學家手動的計數,但自動化過程可以減少其時間和成本(從而使其更接近),最小化錯誤,並提高在不同實驗室中獲得的結果的可比性。

有絲分裂的檢測非常的困難。事實上,在一個細胞核經過各種轉變的期間,有絲分裂是一個複雜的過程。此外,不同的影象區域以不同的組織型別為特徵,其表現出高度可變的外觀。 在用血紅素和曙紅染色的組織學影象中可以觀察到大量不同的結構,特別是許多深藍色斑點,其中大多數對應於細胞核。 只有它們的一部分處於有絲分裂階段並且必須被檢測到。 在大多數階段,有絲分裂核看起來非常像非有絲分裂核,或者像其他深藍色斑點一樣,以至於讓沒有經過大量訓練的人類觀察者無法區分它們(圖1)。 作為一種額外的複雜性,在有絲分裂過程的後期階段,細胞核可能會分裂成兩個深藍色斑點,被視為一個單一的有絲分裂。

我們的方法概念上非常簡單。 我們使用有監督的深度神經網路(DNN)作為強大的畫素分類器。 DNN是最大池化層的(MP)卷積神經網路(CNN)。 它直接對從源影象的方形片中取樣的原始RGB資料進行操作,以畫素本身為中心。 DNN經過訓練,可以將斑塊與所有其他視窗中心附近的有絲分裂核區分開來。 通過在滑動視窗上應用分類器並使用簡單技術對其輸出進行後處理來檢測看不見的影象中的有絲分裂。 由於DNN對原始畫素值進行操作,因此不需要人工輸入:相反,DNN會自動從訓練資料中學習一組視覺特徵。

我們的主要貢獻是DNN的一個新的,重要的,實際的應用,DNN最近在影象分類,分割和檢測方面取得了顯著的成果。 我們的方法在公開可用的資料集上進行測試。 它顯著優於所有競爭技術,具有可管理的計算工作:在標準膝上型電腦上處理400萬畫素影象只需幾分鐘。 本文的補充材料可在以下網站獲得:http://bit.ly/18681Km.

相關工作 幾十年來,不同種類的CNN被用於對物體進行分類。 1980年引入【6】並在接下來的二十年逐步改進,它們與MP結合並展現出深遠和廣闊的全部潛力。 他們擅於從手寫字元到複雜雜亂影象(NORB),面部和自然彩色影象的資料集。 基於DNN的模式識別不限於物件分類,也可以用於檢測。 最近,DNN被用於分割電子顯微鏡和自然場景中神經組織的影象。

生物醫學影象中的許多檢測問題通過畫素分類器來解決,並且其特徵在於待檢測物體的相對明顯的外觀。 由於結塊/接觸可能難以分離和計數的物體,可能會出現困難。 有絲分裂檢測是不同的。 雖然有絲分裂通常是罕見的並且分離良好,但它們很難區分非有絲分裂核。

2、方法

給定輸入RGB影象 I,問題是找到一組D = {d1;d2; ::: ;; dN}檢測,每個檢測單個有絲分裂的質心座標。 通過在具有關於每個可見有絲分裂的質心的給定ground truth資訊的訓練影象上訓練檢測器來解決該問題。 每個畫素被分配兩個可能類別中的一個,有絲分裂或無有絲分裂,前者是有絲分裂質心(或接近有絲分裂質心)的畫素,後者是所有其他畫素。 我們的探測器是基於DNN的畫素分類器。 對於任何給定的畫素p,DNN使用以p為中心的方形影象視窗中的原始RGB值來預測其類別(圖1)。 有絲分裂的視窗包含視窗中心周圍的可見有絲分裂。 其他包含偏心或無有絲分裂。

深度神經網路架構 DNN是一個前饋網路,由連續的卷積和最大池層組成,後面是幾個全連線層。輸入影象的原始畫素強度通過這個通用的,分層特徵提取器。它產生的特徵向量由全連線層分類。通過最小化訓練集上的錯誤分類錯誤率來優化所有權重。

每個卷積層使用矩形濾波器對其輸入對映執行2D卷積。過濾器應用於輸入對映的每個可能位置。如果前一層包含多個對映,則相應卷積的啟用被累加,然後通過非線性啟用函式。

我們的DNN和以前的CNN [11]之間的架構差異之一是最大池化(MP)層而不是子取樣層。它們的輸出由非重疊方形區域上的最大啟用給出。 MP層是固定的,不可訓練的層,選擇獲勝的特徵。典型的DNN也比以前的CNN寬得多,具有更多的連線,權重和非線性。

在這裡插入圖片描述.Fig.1 左上:對應於資料集中表示的50ge 高倍鏡視野之一的一個影象(4M畫素)。 我們檢測到的有絲分裂呈綠色(真陽性)和紅色(假陽性); 青色表示我們的方法未檢測到有絲分裂。 右上角:三個區域的詳細資訊(補充材料中整個資料集的完整大小結果)。 注意有絲分裂核和其他非常相似的非有絲分裂結構的挑戰性外觀。 底部:我們的檢測方法概述。

在幾對卷積和MP層之後,一個完全連線的層進一步將輸出混合成特徵向量。輸出層是一個簡單的完全連線層,每個類有一個神經元(這個問題有兩個),由softmax函式啟用,從而確保每個神經元的輸出啟用可以作為屬於該類的特定輸入的概率。

訓練探測器 使用ground truth資料,我們將每個訓練影象的每個畫素標記為有絲分裂(當比d畫素更接近有絲分裂的質心時)或非有絲分裂(其他地方)。然後,我們構建一個訓練集,其中每個例項將從原始影象取樣的RGB值的方形視窗對映到中心畫素的類。如果視窗部分位於影象邊界之外,則通過映象合成丟失的畫素。

有絲分裂檢測問題是旋轉不變的。**因此,通過應用任意旋轉和/或映象來變換訓練集內的視窗來生成附加訓練例項。**考慮到訓練集中的極少數有絲分裂示例,這一點尤其重要

處理測試影象 為了處理看不見的影象 I,我們將DNN應用於其中心畫素在影象邊界內的所有視窗。 通過映象再次合成影象邊界之外的畫素。 這產生概率圖M,其中每個畫素被指定接近有絲分裂的質心的概率。 理想情況下,除了以每個有絲分裂為中心的d畫素半徑磁碟之外,我們期望M在任何地方都為零。 在實踐中,M非常嘈雜。 因此,M與d畫素半徑磁碟核心卷積,產生平滑概率圖Mf; 預期的區域性最大值Mf位於M的磁碟中心,即每個有絲分裂的質心。

為了獲得影象 I 的一組檢測DI,我們首先初始化DI;然後迭代以下兩步直到Mf中沒有畫素超過給定閾值t。

  • 設pm是Mf中值最大的畫素; DI = DI U (pm,Mf(pm))。
  • 每個p的Mf§ <- 0:|p-pm|<2d(非最大值抑制)。
    這產生了(可能是空的)資料集DI(取決於閾值t),其包含影象 I 中檢測到的所有有絲分裂的質心,以及它們各自的分數。

利用多個網路和旋轉不變性 因為DNN分類器非常靈活並且具有很多自由度,所以預計它會表現出很大的方差和低偏差。事實上,在相關工作中,觀察到具有不同架構的大型網路,即使在相同資料集上進行訓練,也傾向於產生顯著不同的輸出,尤其是對於具有挑戰性的影象部分。我們通過平均具有不同體系結構的多個分類器的輸出來減少這種差異。此外,我們通過分別處理每個輸入影象的旋轉和映象版本並對其結果求平均來利用旋轉不變性。

3、材料,實驗和結果

資料集和效能測量 我們在公共MITOS資料集上評估我們的方法,這個資料集包括50個影象,對應於用Hematosin&Eosin染色的5個不同活檢載玻片中的50個高倍視野。在MITOS中可以看到總共約300個有絲分裂。每個區域代表512x512平方微米的面積,並使用三種不同的設定獲得:兩個幻燈片掃描器和一個多光譜顯微鏡。在這裡,我們考慮通過Aperio XT掃描器獲取影象,這是三者中最廣泛和最易於使用的解決方案。它的解析度為每畫素0.2456微米,每個區域產生2084x2084 RGB影象。病理學專家手動註釋所有可見的有絲分裂。

我們將50個影象劃分成三個子集:T1(26個影象),T2(9個影象)和T3(15個影象)。 T3與2012年ICPR有絲分裂檢測大賽的評估影象一致。在比賽結束之前,所有的ground truth被保留。 T3專門用於計算我們的效能指標一次,以確保與其他演算法的公平比較。

給定資料集T3的一組檢測,根據比賽標準,我們計算真實陽性的數量NTP(即座標距ground truth質心的距離小於5微米(20畫素)的檢測),假陽性(NFP)和 假陰性(NFN)。 我們計算以下效能測量:召回率(R = NTP/(NTP + NFN)),準確率(P = NTP/(NTP + NFP))和F1得分(F1 = 2PR /(P + R))。

我們在兩個不相交的集合T1(訓練)和T2(驗證)中隨機分割剩餘的35個影象,其中有可用的ground truth。 對前者進行訓練的檢測器在後者上進行評估,以確定產生最大F分數的閾值。

構建探測器 對於T1T2中的影象,有絲分裂類被分配給所有視窗,其中心畫素比d = 10畫素更接近ground truth有絲分裂的質心;所有剩餘的視窗都被賦予非有絲分裂類。這導致總共約66000個有絲分裂畫素和1.51億個無有絲分裂畫素。注意,在所有非有絲分裂畫素中,只有一小部分(即那些靠近非有絲分裂核和類似外觀的結構)代表有趣的例項。相比之下,影象區域的最大部分被遠離任何核的背景畫素覆蓋,其類別(非有絲分裂)很難確定。如果從影象中統一取樣類非無菌性的訓練例項,則大部分訓練工作將被浪費。

其他方法通過首先檢測所有細胞核,然後將每個細胞核分別分類為有絲分裂或非有絲分裂來解決該問題。我們遵循一種不同的,更簡單的方法,它不需要任何額外的ground-truth資訊,並且依賴於單個訓練有素的探測器。特別是,我們構建了我們的訓練集,以便很好地代表相對罕見的具有挑戰性的無有絲分裂例項,而明顯屬於無有絲分裂類(在輸入影象中佔優勢)的例項很少出現。這種方法受到增強技術的啟發,使我們能夠將大部分訓練時間用於學習有絲分裂和非有絲分裂核之間的重要差異。我們採用一般方法來構建這樣的訓練集,而不依賴於特定問題的啟發式方法。

  • 我們構建了一個小型訓練集Sd,其中包括所有66000個有絲分裂例項和相同數量的無有絲分裂例項,均來自1.51億個非有絲分裂畫素。
  • 我們使用Sd簡要訓練一個簡單的DNN分類器Cd。 因為Cd是在有限的訓練集上訓練的,其中具有挑戰性的非有絲分裂例項嚴重不足,所以它很容易將大多數非有絲分裂核錯誤分類為有絲分裂類。
  • 我們將Cd應用於T1T2中的所有影象。 設表示Cd分配給畫素p的有絲分裂概率。 對於具有挑戰性的非有絲分裂畫素,D§將很大。
  • 我們構建了由100萬個例項組成的實際訓練集,其中包括所有有絲分裂畫素(6.6%的訓練例項)。 通過向每個畫素p分配權重D§,從非有絲分裂畫素中取樣剩餘的95.4%。

得到的優化的訓練集用於學習兩個網路DNN1和DNN2(表1中概述的架構)。因為該問題是旋轉不變的,所以在每個訓練時期期間,每個補片圍繞其中心進行隨機旋轉並且有50%的映象機會,以便人為地增加訓練集。

每個看不見的影象 I 被處理16次:兩個網路中的每一個被應用於輸入影象的8個變體中的每一個,即 轉動k x 90°,k = 0,1,2,3,有映象和沒有映象。對於每個變體,生成的對映經歷逆變換,以匹配輸入影象。得到的16個對映被平均,產生M,從中確定一組檢測DI,如第2節所述。

首先通過對來自T1的資料進行網路訓練並檢測T2影象中的有絲分裂來執行整個過程。然後確定產生最大F1分數(t0 = 0.35)的閾值。通過對來自T1T2的資料訓練兩個網路來獲得最終檢測器,並在T3上進行評估。

培訓每個網路需要一天的計算和優化的GPU實現。驗證資料達到最低要求不到30個epochs。為了檢測單個影象中的有絲分裂,我們的MATLAB實現需要31秒才能在每個輸入變化上應用每個網路,這相當於每個影象大約8分鐘的總時間。通過平均更少的變化以及最小的效能損失,可以獲得明顯更快的結果(參見表2)。

在這裡插入圖片描述table 1. 13層的網路DNN1框架(左邊)和11層的網路DNN2框架(右邊)。層型別:I-輸入層,C-卷積層,MP-最大池化層,FC-全連線層。

table2中報告了T3資料集的效能和比較效能結果。我們的方法產生的F-分數為0.782,顯著高於最接近的競爭者獲得的F-分數(0.718)。 在圖3的Precision-Recall平面中繪製了相同的資料。

檢測閾值 t 的選擇會影響得到的F分數:圖3(右)顯示該引數不是特別關鍵,因為即使與 t’ 結果有顯著偏差 在有限的效能損失。

在這裡插圖片描述

table 2. 與競爭方法相比,我們的方法(DNN)的效能結果。 我們還報告了我們的方法的更快但不太準確的版本的效能,即 DNNf12,其網路DNN1和DNN2的平均結果而不計算輸入變化(每個影象1分鐘),和DNNf1,其僅根據結果計算 DNN1(每張影象31秒)。

在這裡插入圖片描述
fig.2. T3上的所有143次檢測(每行29次),得分大於0.1,按降序排序。 對於每個,我們報告相應的影象補丁,得分,以及它是有絲分裂(真實,亮綠色背景)還是無有絲分裂(假,深紅色背景)。 得分0.35的垂直虛線報告在T2上確定的檢測閾值t’

在這裡插入圖片描述

fig.3.左圖:與PR平面中的其他方法相比,我們的方法的效能。 右:對閾值選擇的敏感性。

4、結論和未來的工作

我們提出了一種有絲分裂檢測方法,該方法在乳腺癌組織學影象的第一個公共註釋資料集上優於所有競爭對手。

未來的工作將旨在驗證我們在更大的資料集上的方法,並將其效能與專家組織學家進行比較,最終目標是逐步將自動有絲分裂檢測納入臨床實踐。

個人附加

“ground truth”在機器學習方面是一個專有名詞,我也不知道怎麼翻譯才能準確,如有不明白的可以去百度這個單詞的意思:

維基百科對Ground Truth在機器學習領域的解釋是:
在機器學習中,“ground truth”一詞指的是訓練集對監督學習技術的分類的準確性。這在統計模型中被用來證明或否定研究假設。“ground truth”這個術語指的是為這個測試收集適當的目標(可證明的)資料的過程)