1. 程式人生 > >影象分割方法及效能評價綜述

影象分割方法及效能評價綜述

摘 要 對醫學影象分割演算法的客觀評價是推進演算法在臨床上得到應用的關鍵。針對目前對醫學影象分割方法的研究較多,而對分割演算法的評價方法的研究卻很少的問題,提出了一種判斷和比較醫學影象分割演算法優劣的評價方法。首先對現有的幾種評價方法進行了綜述,並總結出了一套評價系統。可靠性、精確性、區域統計特性和效率是評價一個分割方法的4個重要引數,結合醫學影象分割分別對它們的定義進行了說明。這些引數互相影響,評價分割演算法時必須權衡這些指標,根據不同的應用背景賦予它們不同的權重。此外,還介紹瞭如何建立醫學影象分割金標準資料庫的方法。最後,通過InsightToolkit(ITK)軟體包中的兩個演算法例子,結合腦白質分割的醫學背景,演示瞭如何利用本文評價系統來對這兩種分割演算法做出比較。實驗結果表明,該評價方法可行,比較結果具有合理性。該研究為醫學影象分割演算法的評價提供了科學合理的方法,同時也指出了推動醫學影象分割演算法在臨床上應用所應解決的問題。

關鍵詞 影象分割 分割評價 醫學影象 ITK 金標準

中圖法分類號:TP391 文獻標識碼:A 文章編號:100628961(2009)0921872209

TheMethodologyofEvaluatingSegmentation

AlgorithmsonMedicalImage

ZHANGSh,iDONGJian2we,iSHELi2huang

(SchoolofInformationScienceandEngineering,NortheasternUniversity,Shenyang,110004)

Abstract Objectiveevaluationofmedicalimagesegmentationalgorithmsisoneoftheimportantstepstowardestablishingvalidityandclinicalapplicabilityofanalgorithm1Sincetherearealargenumberofarticlespresentingsegmentationmeth2odsonmedicalimage,withfewstudyingtheevaluationmethodsontheirperformance,thispaperpresentsanevaluationmethodfordifferentsegmentationalgorithms1Theauthorfirstgivesasurveyofseveralavailableevaluationmethodsandpresentsasystematicsummary1Reliability,precision,regionstatisticalcharacteristicsandefficiencyarethefourmostim2portantmetrics1Thedefinitionsofthemarethendescribedbasedontheimagesegmentationprocess1Forcomparison,weightsshouldbeaddedtothesemetricsaccordingtotheapplication1Moreover,theauthoralsopresentsamethodonhowtoconstructgoldstandardofmedicalimages1Atlast,withthetaskofbrainwhitemattersegmentation,theauthordemon2strateshowtomakeuseoftheproposedevaluationmethodtocomparetwosegmentationalgorithmsininsighttoolkit(ITK)1Theexperimentresultsshowthatthismethodispracticalandreasonable1Thisstudygivesascientificmethodfortheevalu2ationofsegmentationalgorithmsonmedicalimage1Meanwhile,itpointsouttheproblemstobesolvedbeforethesegmenta2tionalgorithmscouldbeputintouseinclinic1Keywords

magesegmentationi,segmentationevaluation,medicalimage,

insighttoolkit(ITK),goldstandard

收稿日期:2007209206;改回日期:2008206212

第一作者簡介:張 石(1963~ ),男,教授。1998年於瀋陽東北大學獲檢測技術與自動化裝置專業博士學位,研究方向為醫學影像處理與分析,嵌入式系統技術及數字訊號處理。E2mai:[email protected]

1 引 言

影象分割是指將影象中感興趣區域(ROI)的邊界找到,使得邊界內部和外部的畫素分別具備相似的特徵(強度、紋理等)。醫學影象分割是對醫學影象進行其他後續處理的基礎。對影象中目標區域的準確分割對於計算機輔助診斷、制訂手術計劃、目標3維重建以及放射性治療評價等都具有重要意義。近幾十年來,隨著醫學成像裝置的不斷完善,醫學影象的分割演算法也層出不窮,但是很少能夠在臨床上得到廣泛應用。用一個全面的醫學影象資料集合來客觀評價醫學影象分割演算法是將該演算法向臨床應用推進的關鍵一步

[1]

。然而,目前對某一醫學影象分

割演算法的評價,大部分情況都是通過目測分割結果的方法來給出定性的評價,很難給出客觀的、系統的、定量的評價。究其原因,主要存在如下兩個問題:

(1)不同組織或器官,不同成像模式(CT/MRI/PET/US)醫學影象的特點差別很大,一種醫學影象分割方法很可能僅僅對一種影象分割有效,甚至具體到一個特定的部位,無法得到一個通用的分割方法,得到演算法的客觀評價則更難。

(2)對於一幅特定的醫學影象,不同的醫學影象專家很可能給出不同的分割結果,存在因人而異的特點,因此,很難對計算機分割方法得到的分割結果做一客觀評價,缺少關於醫學影象分割的金標準資料庫。

影象分割演算法的評價方法受到關注要遠遠落後於對分割演算法本身的研究,1977年,Yasnoff等人率先提出了/錯誤分類百分比0和/畫素距離誤差0兩個測度,來評價影象分割演算法

[2]

。1986年,Canny

從影象的邊緣檢測角度,提出了3個最優邊緣檢測準則:(1)不漏檢真實存在的邊緣,也不把非邊緣點作為邊緣點檢出;(2)檢測到的邊緣點與實際邊緣的距離最小;(3)實際存在的邊緣點與檢測到的邊緣點一一對應[3]

。1996年,章毓晉對前人的大量工作進行了總結,將評價方法歸結為兩類)))直接法(分析法)和間接法(實驗法),並對每種方法進行了簡要介紹,但其文中卻沒有提及在研究一個特定的分割任務時,尤其是醫學影象分割任務時,如何去選擇和應用合適的評價方法

[425]

。1997年,Chalana

等人提出了一種通過比較計算機分割結果與多個專家手工標記結果,來評價醫學影象分割演算法的方法,並用兩個超聲影象分割的例子演示瞭如何應用其提出的評價方法

[1]

。2006年,Anon提出了一種利用

支援向量機(SVM)學習方法對分割演算法進行無監

督評價的方法[6]

。同年,Udupa等人提出了一個針對醫學影象分割方法評價的框架,他將影象分割問題劃分為目標識別和描述,並提出3個要素)))可靠性、精確性和效率,列舉了很多醫學影象分割的例子,並介紹了各個評價引數的具體計算方法

[7]

。同

年,Ortiz等人提出了一種新的由3個引數組成的測度方法,這3個引數是:正確分類的比例、過度分割

的比例和欠分割的比例[8]

。國內在這方面的研究較少,且沒有專門圍繞醫學影象分割展開討論的文獻。2000年,侯格賢等人將模糊集合的概念應用到分割評價方法中,引入模糊度測度用於評價影象分割的質量

[9]

。其他研究者也在該領域開展了一些

研究工作,但都並不深入,專門研究醫學影象分割演算法的評價方法的文獻則幾乎沒有。在對上述文獻進行分析綜合後,得到如圖1所示的醫學影象分割評價系統的總體執行流程。按照圖1所示的各個環節,對國內外目前研究的幾種評價方法的基本思想做一介紹,重點研究在面臨一個特定的分割任務(例如人腦MRI影象中腦白質的分割)時,如何構建一個分割評價系統以客觀評價和比較所採用的分割演算法。

2 分析法與實驗法

分析法是通過研究分割演算法本身的原理和性質來對分割演算法進行評價。評價指標包括:對先驗知識的利用程度(如利用解剖圖譜的分割),演算法的執行方式(序列、並行),演算法的空間複雜性與時間複雜性以及演算法的抗噪性和穩定性等。分析法評價的意義在於發現演算法的實質性缺陷,並明確演算法改進的方向,特別適合於定性評價。

實驗法則是通過實現一個分割演算法的例項,通過對分割的結果進行研究,來評價該分割演算法。它又分為有監督評價法和無監督評價法。有監督評價法是建立在與可供參考的分割標準進行比較的基礎上,獲得一系列的誤差數值。而無監督法則藉助分割結果自身的統計特性來評價分割演算法。

圖1 醫學影象分割評價系統的執行流程

Fig.1 Processforevaluatingsegmentationalgorithmonmedicalimage

(1)同一個操作者對一幅影象中的特定目標使

3 評價測度

評價測度就是衡量演算法效能優劣的各種數學指

標,目前能夠查閱到的評價測度有很多,這裡僅列舉最典型的4個評價測度:可靠性、精確性、區域統計特性和效率。311 可靠性

可靠性是指利用統計學規律考慮影象分割的各個變化因素對影象進行重複分割,兩次分割結果之間的接近程度;在評價分割演算法的可靠性時,有如下幾個變化因素需要考慮:(1)在成像過程中患者身體位置的不同,會導致影象(目標)的旋轉等;(2)人機互動過程中手工操作的變化,如初始化位置的給定,會導致演算法初始化狀態的不同。可靠性可以通過如下3個方法來考察:

用相同的分割演算法分割n次;

(2)n個操作者對同一幅影象中的特定目標使用相同的分割演算法各分割一次;

(3)同一個操作者對分n次掃描的同一個部位的n幅影象中的特定目標使用同一種分割演算法分別進行分割。

採用上述3種方法可獲得3組分割結果,設S1,S2,,,Sn為其中一組分割結果(區域內畫素集合),則採用如下可靠性計算公式

:

其中,分子表示n次分割結果重疊畫素的個數,分母表示n次分割結果得到的畫素並集中元素的個數。得到的3個可靠性測度P1,P2,P3分別代表了操作

第9期張 石等:醫學影象分割演算法的評價方法

1875

者自身誤差,操作者間誤差和成像裝置誤差(嚴格來說P3也包含操作者自身誤差)。P值越接近於1,代表演算法對外界條件的適應性越強,可重複性就越好。

312 精確性

精確性是指演算法分割結果與真實分割結果(金標準)的一致性程度。它有4種描述方法:畫素法、區域法、點對法和邊界法。畫素法就是計算錯誤分類的畫素數佔參考畫素總數的比重;區域法計算兩個對應區域的重疊比例;點對法是在兩個分割結果的邊界上首先找到對應的點對,然後測量它們的一致程度;邊界法則比較分割的邊界與參考邊界的貼近程度。分割問題可看作將一組畫素點進行分類的問題,因此它可以被看成是一個聚類問題,用於測度一致性或相似性的聚類分析的方法也都可以用來衡量分割結果和金標準的貼近程度。

首先,可以用基於距離的測度來評價基於邊界的分割方法。設分割演算法得到的邊界點的集合為B={bi:i=1,,,K},金標準的邊界點的集合為T={ti:i=1,,,N},點到邊界的距離定義為:d(bi,T)=nIm{1,,in,N}

bi-tn。對於一幅影象,可以計算出如下3個基於距離的測度:

1

K

平均絕對偏差:MAD=

KEi=1

d(bi,T)(2)最大絕對偏差:MaxD=iImax{1,,,K}{d(bi,T)}(3)誤差範圍在e個畫素以內的畫素比例:

PE=

{biIB:d(bi,T)<K

(4)

此外,還可以採用基於區域(面積或體積)的測度。為簡單起見,假設一幅影象僅包含一個目標區域,其他為背景,設集合S代表分割演算法得到的目標區域的畫素點集合,集合T代表金標準的目標區域的畫素點集合,I

表示整幅影象的畫素集合,則定義如下4個測度:

真陽性:TP=S

T

(5)假陽性:FP=S-T(6)假陰性:FN=T-S(7)真陰性:T

N=I-T-S

(8)

這4個測度可以用類似文氏圖的形式表達,如圖2所示。

圖2 基於區域的精確性評價測度示意圖Fig.2

Illustrationofevaluationmetricsforregion2basedalgorithm

在此基礎上再定義如下4個比例:

TPF=

TP

T

(9)FNF=T(10)FPF=I-T(11)TNF=

TNI-T

(12)

TPF表示真陽性目標畫素數佔目標區域所有正確畫素數的比例;FNF表示漏分割目標畫素數佔目標區域所有正確畫素數的比例;FPF表示將背景畫素錯誤地分割為目標畫素的數目佔背景正確畫素數的比例;TNF表示分割出來的背景畫素數佔正確背景畫素數的比例;若影象區域的尺寸與目標區域的尺寸比例合適,則分割演算法可以通過繪製TPF和FPF的接收者操作特性(ROC)曲線得到評價和優化

[10]

。而錯誤比例通過ROC方法來評價不合適,

可以通過下式評價[11]

:

FF=1-FP+FN

T

(13)

將上述結果中的普通集合換成模糊集合,得到的測度就是改進了的模糊集精確性測度[7]

313 區域統計特性

在有些情況下,分割結果沒有金標準可供參考,因此產生了無監督評價方法。它採用區域的統計學特性(灰度均勻性、紋理特徵等)作為測度。基本的測度包括如下3個:區域內均勻性、區域內差異性和區域間差異性。

1876

中國圖象圖形學報 第14卷

區域內均勻性(uniformityofintraregion):通過區域內畫素特徵(如灰度)的相似度計算區域的均勻性

[12213]

,公式為

2

1N

UR=1-

sIE

RgI(s)-

1k

Rk

tIERg

I

(tk

I

E

k=1

2

maxsIR(gI(s))-mk

sIR

in(gI(sk

(14)

這裡:設影象I被分割成N個區域(集合),Rk

表示第k個區域(集合),|I|代表影象I中畫素的總數,gI(s)對應畫素s的灰度級強度函式或其他畫素

特徵函式(顏色、紋理等),Rk代表區域Rk中畫素的總數。

區域內差異性:通過計算區域內畫素灰度的二階導數的平方均值作為區域內差異性的測度[12]

,其

式為

N

2DR=

1

N

E

1k=1

Rk

sE

dgI(s)

IR(15)

k

ds

但是,該測度對於以紋理為區域特徵的影象分割並不適用,對於紋理分割的區域內差異性測度,可參見文獻[14]。

區域間差異性:通過計算兩區域間的不一致性,

獲得區域間差異性[12]

,其式為

N-1

N

IR=EEfI(Ri)-fI(Rj)Di=1j=i+1C2

(16)

NmaxsII(gI(s))-msIiI

n(gI(s))其中,C2

N為區域組合數,gI(s)為畫素灰度特徵函式,fI(Ri)為區域特徵函式,一般為區域平均灰

度。其他無監督評價測度可參見文獻[1]和文獻[4]。

314 效率

效率是指計算機和使用者參與的用於演算法訓練和執行的所有時間總和。完成一次分割任務所用時間也是一項重要的測度,可以分為人工操作時間和計算機運算時間兩部分。人工操作時間又分為初始化演算法時間和訓練演算法時間。計算機運算時間又分為演算法的學習(訓練)時間和演算法運算時間。

值得一提的是,效率不僅僅和採用的演算法本身有關,也和採用的演算法的實現方法(如Matlab,C++等)有關,與採用的軟體硬體平臺(作業系統、處理器、記憶體容量等)有關。因此,在描述演算法效率的同

時,也必須要明確演算法的實現方法及軟硬體的資源情況。

4 綜合評價系統

實際上,前面幾節介紹的這些測度之間並不是互相獨立的,它們互相影響,而且通常很難在保證其他幾個引數不變壞的情況下改善其中一個引數。對分割演算法的評價必須權衡這些指標,根據不同的應用背景賦予它們不同的權重。

綜上所述,一個完整的分割評價系統包含如下5個方面的內容:(1)一套容易計算的、高效的、有意義的測度。(2)若干幅具有代表性的、真實的臨床採集影象。(3)可以用來作為分割參考的對應的金標準。(4)一些用於測試和比較的具有標準輸入輸出的分割演算法模組。(5)一個可以容納分割演算法和評價方法的軟硬體系統。在建立這樣一個評價系統前,還必須明確其應用範圍。應用範圍包括如下3個方面的內容:(1)一個任務:例如腫瘤的分割;(2)分割的部位:例如大腦;(3)影象型別:如MRI2維影象。只有滿足了上述這些條件,對醫學影象分割演算法的評價才是客觀的和有意義的。

5 金標準資料庫的建立

嚴格來說,在很多情況下,絕對客觀的正確的金標準是不可能獲得的,也是不可知的。為此,通常採用如下3種方法來獲取用做分割參考的金標準。

(1)人工標記法 感興趣物件的邊緣或區域由幾位有經驗的專家手工標記。為避免專家們之間分割的不一致性,可採用平均法來獲得最終的金標準,文獻[15]提出了一種期望最大化演算法,也可用來解決不一致性的問題。人工標記法得到的分割結果往往都是一個二值的分割結果,即某個點或者是目標區域中的點,或者不是目標區域中的點。對於邊界模糊的影象,無法給出像模糊集中的隸屬度那樣的一個隸屬度函式(0~1之間的一個小數)。人工標記法還具有如下幾個缺點:(1)需要耗費專家很多的時間和精力,成本較高;(2)易變性,不同的專家或同一個專家在不同時間對同一幅影象所得到的多個分割結果往往不一致,具有可變性;(3)專家在觀看影象時,影象邊緣的模糊性,顯示裝置的設定以及

第9期張 石等:醫學影象分割演算法的評價方法

1877

圖3 一個手工分割例項

Fig.3 Anexampleofmanualsegmentation

專家的視覺特徵都會影響手工分割的結果。如圖3所示為一個此類影象示例。圖3(a)與圖3

(b)具有不同的螢幕對比度,它們與圖3(c)具有不同的放大倍數,導致目標邊界標記不一致。(2)數學建模法 首先設計一個二值化的模擬影象,其中明確定義了目標區域和背景。然後,加入組織間的區域性體效應影響和成像過程中混入的噪聲等,最終生成一幅模擬的醫學影象。這種方法的缺點顯而易見,採用的影象不是通過影像裝置獲取的臨床真實影象,必然與其存在差異,說服力不強。

(3)成像過程模擬法 製作與人體組織或器官的密度和結構相似的人造模型,然後將其放入成像裝置進行成像,則得到的影象即為已知金標準的影象。人造模型也可以用第2種方法的數學模型代替,成像裝置的成像過程可以通過模擬方法生成投影資料,然後再進行反投影變換和影象重建。著名的BrainWeb的MRIsimulator採用的就是該方法,它允許使用者獨立地指定成像引數來生成期望

[16217]

的大腦MRI影象。這種方法的缺點在於人造模型的成本很高,且無法完全符合人體的組織結構,採用的數學模型獲得的影象與真實影象的差別也較大。

從對上述3種方法的分析可見,採用人工標記法的金標準更符合醫學影象分割這一任務的終極目標。將所有的外部可變因素標準化(顯示裝置的亮度、對比度,影象的放大倍數等),將目標區域邊界的過渡區以模糊概率的形式而不是021的形式表達,這樣建立的金標準將具有更大的參考價值。

為了推動醫學影象分割方法的研究,一些組織和機構為了解決研究者難以獲得金標準資料庫的問題,

[18219]

[7]

專門建立了針對不同分割任務的金標準資料庫,其中

[20][17]

以國際腦分割資料庫(IBSR)和BrainWeb最有影響力,如圖4所示為其典型樣本及金標準,圖4(a)來自IBSR,圖4(b)來自BrainWeb,具體內容請參見文獻[17]、[20]相關介紹。

圖4 腦MRI影象及腦白質分割金標準Fig.4 BrainMRIimageanditsgold

standardofwhitematter

醫學影像參考標準資料庫的建立也是目前醫學影象處理研究急需解決的問題,在歐盟醫學資訊學2醫學影象處理工作組(EFMIWGMIP)2006年召開的/醫學影象處理系統有效性0會議上,專門對參考影象資料庫(RID)的現狀、未來和研究計劃展開了討論,並進一步明確瞭如何建立全面的RID以推動醫學影象處理與分析的發展

[21]

6 分割方法比較及評價例項

影象分割評價的目的主要有兩個:一個是研究演算法在不同分割情況中的表現,掌握如何選擇和修正其引數以適應特定的分割任務;另一個是分析比

1878

中國圖象圖形學報 第14卷

較多個分割演算法在面對同一分割任務時的優劣程度

[5]

以選取合適的演算法。演算法優化在前面提過可以用ROC曲線的方法。這裡以腦MRI影象白質分割用於解剖結構研究為例,來評價兩種不同的分割演算法在完成這同一分割任務時的效能差異。採用的兩種演算法及其實現方法均為NIH(nationalinstitutesofhealth)的用於研究醫學影象分割和配準的insighttoolkit(ITK)軟體開發包中的演算法。採用的硬體平臺為AMDsempron119GHzCPU,1GB記憶體。軟

[22]

件平臺為WindowsXP作業系統,C++程式語言和VisualC++610編譯器。

實驗採用的測試圖片為IBSR資料集中的男性T1加權腦MRI影象,編號為788_6的第52層。分割任務為腦白質區域的提取。兩位操作者採用了ITK中的兩個分割演算法,共獲得6個分割結果,具體實驗方法及演算法引數的選擇如表1所示。原圖及其金標準分割結果以及6個計算機獲得的分割結果如圖5所示。

表1 實驗方法及演算法引數選擇

Tab11 Experimentmethodandparameterscorrespondingtothealgorithms

ShapeDetectionLevelSetFilter演算法

實驗序號

操作者1操作者2操作者

3

123

種子點座標(x,y)

(103,148)(126,140)(126,140)

梯度引數D

216216214

實驗序號

456

ConnectedThresholdImageFilter演算法種子點座標(x,y)

(103,148)(126,140)(126,140)

灰度範圍[140190][137184][121229]

圖5 MRI影象腦白質分割演算法評價例項圖片Fig.5 SegmentationresultsofwhitematterfromBrainMRI

在可靠性方面,因對同一部位兩次成像的資料無

法獲得,因此只測量了P1和P2。採用的這兩種分割演算法均屬區域增長法,因此均需要人工指定種子點的位置和終止條件,因操作者自身和之間的差異性,會造成初始化條件等有所不同。實驗結果如表2所示,從表中可以看出,ShapeDetectionLevelSetFilter演算法(以下簡稱為S演算法)的可靠性高,但分割結果不精

確,且耗時較長。ConnectedThresholdImageFilter演算法(以下簡稱為C演算法)可靠性稍差,但分割結果較前一演算法精確,且計算時間短。

由上面的分析可知,兩種演算法各有其優缺點,若要對這兩種方法做出最終比較,必須根據演算法特點和實際應用背景建立綜合評判模型。根據本分割任務,醫生首先需要對演算法的可靠性、精確性和效率設

表2 分割演算法的測度數值

Tab12 Metricsresultsofthesegmentationalgorithms

編號123456

P1(%)P2(%)

TPF(%)24.31

FNF(%)75.6975.4276.6071.4970.9563.31

FPF(%)2.392.212.043.403.624.90

TNF(%)97.6197.7997.9696.6096.3895.10

演算法初始化所用時間(s)演算法完成計算所用時間(s)

335225

8.2348.5788.4530.6560.5930.516

91.0993.1924.5823.4028.51

93.7575.2129.0536.69

置一個底線,在此前提下按/效率>精確性>可靠性0的優先順序排序,為了歸一化各項權重,假設5s的

演算法執行時間等同於一個精度百分點或一個可靠性百分點,則得到下式:

3

難,因此,對評價系統的每一個環節進行標準化也是十分有必要的。需要標準化的內容主要包括:

(1)建立每種分割任務的參考資料集(如IB2SR);

(2)規定統一的演算法實現方法和實驗平臺(如

CSC=L

E

(PSi-PCi)3

-K

i=1

(tS-tC)

+5

ITK);

(3)設計統一的測度指標及統計分析軟體包;

(4)明確在每種分割任務中各個測度的權重。只有這樣,才能真正推動醫學影象分割演算法的

(17)

研究向前發展,使其在臨床上得到應用。

參考文獻(References)

1 ChalanaV,KimY1Amethodologyforevaluationofboundarydetection

algorithmsonmedicalimages[J]1IEEETransactionsonMedicalIm2aging,1997,16(5):6422652.

2 YasnoffWA,MuiJK,BacusJW1Errormeasuresforscene

segmentation[J]1PatternRecognition,1977,9(4):2172231.3 CannyJ1Acomputationalapproachtoedgedetection[J]1IEEE

C#

(TPFS+TNFS)-(TPFC+TNFC)

2

取K=015,C=013,L=012並假設第2和第6組為最優化後的分割結果,P3等於P1,則計算得CSC=-215882,說明S演算法總體來說沒有C演算法好,這與前面的定性分析的結果是一致的,說明該綜合評價公式具有一定的合理性,將測試樣本的數量擴大,最終計算得的平均比較結果將更加具有客觀性。

7 結 論

針對醫學影象分割這一研究課題,提出了一套系統的對分割演算法進行比較評價的方法,並結合ITK演算法包,對該評價方法進行了實驗,並對實驗結果進行了簡要分析。目前,絕大部分研究醫學影象分割的文章,在實驗分析部分均只給出分割前後的影象,只能用肉眼評價其分割結果,且不具有可比性。本文提出的評價系統,再配合大量的臨床影象樣本,對分割演算法的比較以及推動醫學影象分割演算法在臨床上的應用,將具有重大意義。此外,對研究其他影象分割及跟蹤演算法的評價方法也有一定的指導意義。

然而,面對醫學影象分割問題的複雜性,加之演算法實現方法的各異性,演算法之間的比較往往比較困

TransactionsonPatternAnalysisandMachineIntelligence,1986,8(6):6792698.

4 ZhangYJ1Asurveyonevaluationmethodsforimagesegmentation

[J]1PatternRecognition,1996,29(8):133521346.

5 ZHANGYJ1Aclassificationandcomparisonofevaluationtechniques

forimagesegmentation[J]1JournalofImageandGraphics,1996,1(2):1512158.[章毓晉1圖象分割評價技術分類和比較[J]1中國圖象圖形學報,1996,1(2):15121581]

6 Anon1Adaptativeevaluationofimagesegmentationresults[A].

In:Proceedingsofthe18thInternationalConferenceonPatternRecognition[C],HongKong:InstituteofElectricalandElectronicsEngineersInc,2006:3992402.

7 UdupaJK,LeBlancVR,YingZhuge,etal1Aframeworkforevalua2

tingimagesegmentationalgorithms[J]1ComputerizedMedicalIma2gingandGraphics,2006,30(2):75287.

8 OrtizA,OliverG1Ontheuseoftheoverlappingareamatrixforim2

agesegmentationevaluation:Asurveyandnewperformancemeasures[J]1PatternRecognitionLetters,2006,27(16):191621926.

9 HouGe2xian,BiDu2yan,WuCheng2ke1Researchesonevaluationmethodsforimagesegmentation[J]1JournalofImageandGraphics,2000,5(1):39243.[侯格賢,畢篤彥,吳成柯1圖象分割質量評價方法研究[J]1中國圖象圖形學報,2000,5(1):392431]10BemmelJH,MusenMA1MedicalInformatics[M]1Shangha:i

PublisherofShanghaiScienceandTechnology,2002:

2272230.

[BemmelJH,MusenMA著1醫學資訊學[M]1包含飛等譯.上

海:上海科學技術出版社,2002:22722301]

11FensterA,ChiuB1Evaluationofsegmentationalgorithmsformedical

miaging[A]1In:Proceedingsofthe27thAnnualInternationalCon2ferenceoftheEngineeringinMedicineandBiologySociety[C],Shangha:i

InstituteofElectricalandElectronicsEngineersInc1

2005:718627189.

12ChabrierS,EmileB,RosenbergerC,etal.Unsupervisedperform2

anceevaluationofimagesegmentation[J]1EURASIPJournalonAp2pliedSignalProcessing,2006,15:1212.

13LevineMD,NazifAM1Dynamicmeasurementofcomputergenera2

tedimagesegmentations[J]1IEEETransactionsonPatternAnalysisandMachineIntelligence,1985,7(2):1552164.

14ChabrierS,RosenbergerC,LaurentH,etal1Evaluatingtheseg2mentationresultofagray2levelimage[A]1In:Proceedingsof12thEuropeanSignalProcessingConference[C],Vienna:EuropeanAsso2ciationforSigna,lSpeechandImageProcessing,2004:9532956.

15WarfieldSK,ZouKH,WellsWM1Simultaneoustruthandper2

formancelevelestimation(STAPLE):analgorithmforthevalidationofimagesegmentation[J]1IEEETransactionsonMedicalImaging,2004,23(7):9032921.

16KwanRK2S,EvansAC,PikeGB1MRIsimulatio