1. 程式人生 > >結合生成式與判別式方法,Petuum新研究助力醫療診斷

結合生成式與判別式方法,Petuum新研究助力醫療診斷

在過去一年中,我們看到了很多某種人工智慧演算法在某個醫療檢測任務中「超越」人類醫生的研究和報道,例如面板癌、肺炎診斷等。如何解讀這些結果?他們是否真正抓住醫療實踐中的痛點、解決醫生和病人的實際需要? 這些演算法原型如何落地部署於資料高度複雜、碎片化、異質性嚴重且隱含錯誤的真實環境中?這些問題常常在很多「刷榜」工作中迴避了。事實上,從最近 IBM Watson 和美國頂級醫療中心 MD Anderson 合作失敗的例子可以看出,人工智慧對醫療來說更應關注的任務應該是如何幫助醫生更好地工作(例如生成醫療影象報告、推薦藥物等),而非理想化地著眼於取代醫生來做診斷,並且繞開這個終極目標(暫且不論這個目標本身是否可行或被接受)之前各種必須的鋪墊和基礎工作。因此與人類醫生做各種形式對比的出發點本身有悖嚴肅的科學和工程評測原則。這些不從實際應用場景出發的研究,甚至無限放大人機對戰,對人工智慧研究者、醫療從業者和公眾都是誤導。
知名人工智慧創業公司 Petuum 近期發表了幾篇論文,本著尊重醫療行業狀況和需求的研究思路,體現出了一種務實風格,並直接應用於他們的產品。為更好地傳播人工智慧與醫療結合的研究成果,同時為人工智慧研究者和醫療從業者帶來更加實用的參考,機器之心和 Petuum 將帶來系列論文介紹。本文是該系列第四篇,介紹了使用機器學習方法基於實驗室檢測資料協助醫療診斷的研究成果。


誤診是指診斷決策不準確,是一種時有發生的情況。每年都有大約 1200 萬美國成年人經歷誤診,其中有一半可能造成傷害。實際上,有多達 40500 成年病人在重症監護病房(ICU)中死於誤診。誤診的一大主要原因是對臨床資料的次優解讀和使用。如今,醫療資料包含了實驗室檢測資料、生命體徵、臨床記錄、藥物處方等等,資料之多有時讓醫生難以應付。在各種各樣的臨床資料中,實驗室檢測資料發揮了重要的作用。據美國臨床實驗室協會(American Clinical Laboratory Association)稱,實驗室檢測資料在診斷決策中的重要程度超過 70%。不幸的是,全面理解實驗室檢測結果並發現其中潛藏的臨床應用價值卻並非易事。對實驗室檢測資料的錯誤解讀是診斷過程中出問題的主要地方。


實驗室檢測資料為何難以理解?原因有兩方面。首先,缺失值是普遍存在的情況。在某個時間點只仔細檢查一小部分實驗室檢測資料的情況很常見,此時其它大多數監測資料都被忽略了。這些資料的缺失讓醫生無法瞭解病人臨床狀態的全面圖景,從而得到次優的決策。其次,這些實驗室檢測資料的值具有複雜的多變數時間序列結構:在入院期間,在某個特定時間要檢查多個實驗室檢測資料以及同一種檢測可能需要在不同時間點檢查多次。這些多變數時間資料在時間和檢測維度上都表現出了很複雜的模式。瞭解這些模式對診斷而言具有很高的價值,但在技術上卻頗具難度。


在這項工作中,我們研究瞭如何利用機器學習(ML)的能力來自動從複雜的、有噪聲的、不完整的和不規則的實驗室檢測資料中自動提取模式,從而解決上述問題並得到一種用於協助診斷決策的端到端診斷模型。在實驗室檢測資料基礎上用機器學習方法執行診斷的研究已有先例。在這些方法中,處理缺失值、發現多變數時序中的模式、預測疾病這三大主要任務通常是分開執行的。但是這三大任務是緊密關聯的並且可以互相提供幫助。一方面,更好地填補缺失值可以讓我們發現更有資訊的模式,這能提升診斷的準確度。另一方面,在模型訓練期間,對診斷的監督可以為模式發現提供指導,這又能進一步影響對缺失值的填補,從而可以調整被發現的模式和被填補的值,使之適用於診斷任務。分別執行這些任務無法考慮到它們的協同關係,從而會得到次優的解決方案。之前的研究還存在另一個侷限:它們往往是在一種判別式結構(discriminative structure)中提出的——從原理上看,這種結構無法很好地處理缺失值問題和學習可泛化的模式。


論文:結合生成式和判別式學習,根據實驗室檢測資料得出醫療診斷(Medical Diagnosis From Laboratory Tests by Combining Generative and Discriminative Learning)


5369920171207172919.png


論文連結:https://arxiv.org/abs/1711.04329


摘要:計算表型研究(computational phenotype research)的一個主要目標是執行醫療診斷。在醫院裡,醫生依靠大規模臨床資料來進行診斷決策,其中實驗室檢測資料是最重要的資源之一。但是,實驗室檢測資料的縱向性和不完整性給這種資料的解讀和應用帶來了顯著的挑戰,這可能會導致人類醫生和自動診斷系統得出有害的決策。在這項工作中,我們利用了深度生成模型來處理複雜的實驗室檢測資料。具體而言,我們提出了一種端到端的架構,其涉及到一個用於學習穩健且可泛化的特徵的深度生成變分迴圈神經網路和一個用於學習診斷決策的判別式神經網路模型,而且這兩個模型的訓練是聯合進行的。我們的實驗所採用的資料集涉及到 46252 個病人以及用於預測 50 種最常見診斷的 50 種最常用檢測。實驗結果表明我們的模型 VRNN+NN 的表現顯著(p<0.001)超過了其它基準模型。此外,我們還表明:比起通過純粹的生成模型所學到的表徵,通過聯合訓練學習到的表徵具有更豐富的資訊。最後,我們發現我們的模型填補缺失值的方式好得讓人驚訝。


貢獻


在這篇論文中,我們開發了一種端到端的深度神經網路來根據實驗室檢測資料執行診斷。我們的模型將三種任務無縫地整合到了一起並能聯合執行它們——這三種任務分別是填補缺失值、發現多變數時序資料中的模式和預測疾病。我們的模型結合了機器學習領域兩種主要的學習正規化:生成式學習和判別式學習;其中生成式學習元件被用於處理缺失值和發現穩健的且可泛化的模式,而判別式學習元件則被用於根據生成式學習過程中發現的模式來預測疾病。我們在 46252 份 ICU 病人就診資料上對我們提出的模型進行了評估,結果表明我們的模型實現了(1)比基準模型顯著(p<0.001)更優的診斷表現,(2)對缺失值的更好填補,(3)在實驗室檢測資料上的更好的模式發現。


方法


資料預處理


本研究所用的資料來自公開可用的 MIMIC-III。它來自 46252 位病人的實驗室檢測結果,其中包含住院記錄和門診記錄。每個住院時間階段都有 1 到 39 個對應的 ICD-9(國際疾病分類,第九版)編碼,本研究只考慮了其中主要的診斷。這個資料集共有 2789 種不同的診斷和 513 種各不相同的實驗室檢測。因為某些診斷和檢測是相當罕見的,所以我們將我們的研究限制在了 50 種最常見的診斷和 50 種最常用的實驗室檢測上。我們以每天的日期為標準對檢測結果進行了分組,並最終得到了 30931 個住院記錄的時間序列,其中每一個都標註了一種疾病的 ID,分別是從 0 到 49。這些時間序列的長度從 2 到 171 不等,而我們關注的是最近的 100 天。圖 1 給出了這 50 種疾病的 ID 所對應的樣本的數量。我們對該資料集進行了 5 次隨機切分,每一次我們都按特定比例將該資料集分成了訓練集(Train)、開發集(Dev)和測試集(Test),它們的比例為 65%:15%:20%。因此,這三個集合中的樣本的數量分別為 20105、4640 和 6186。


822042.png

圖 1:疾病 ID 對應的樣本的數量


有些檢測資料加了離散的類別值,比如「ABNORMAL(異常)」和「NORMAL(正常)」,我們將這些類別換成了整型值,比如用 0 表示「ABNORMAL」,用 1 表示「NORMAL」。檢測結果用 Z 歸一化(Z-normalization)進行了歸一化處理,即每個檢測值都減去均值,然後再除以標準差。注意,病人不會每天把每種檢測都做一遍,所以我們的資料中缺失值是很普遍的。圖 2 給出了一個病人的實驗室檢測記錄的例子。可以看到其中有大量缺失值。對整個資料集進行簡單的統計後發現,值的平均缺失率大約為 54%,也就是說在每天的記錄中,50 項實驗室檢測中平均僅有 27 項有值。在我們實驗中,我們起初都用 0 來填補這些缺失值。在應用了 Z 歸一化之後,這些值的均值都變成了 0。所以零填補就等同於均值填補。此外,因為我們的模型處於神經網路框架內,所以零輸入不會給計算引入額外的偏差。注意,在基準模型中,這種零填補方法表現得像是缺失值問題的解決方法,而在我們的模型中,它表現得像是缺失值的指示器,然後這些缺失值會由深度生成模型進行進一步的處理。


988103.png

圖 2:一位病人的實驗室檢測記錄示例。y 軸對應於我們所用的 50 項實驗室檢測。x 軸表示記錄的時間。綠點表示有值,否則就缺失值。


模型架構


我們在本研究中提出了兩種模型,分別表示為 VAE+NN 和 VRNN+NN。其中前者是一個靜態模型,可以證明深度生成模型的貢獻;後者則是一個時間模型,是對深度生成學習方法的延展,從而可學習長期時間依賴(long-term temporal dependency)。


150514.png

圖 3:我們的模型的架構:(a)VAE+NN 的架構,(b)VRNN+NN 的架構


VAE+NN


其中 VAE(變分自編碼器)是用於處理缺失值和發現模式的生成模型,標準的神經網路(NN)則被用作分類器,如圖 3(a) 所示。


VRNN+NN 


其中 VRNN(變分迴圈神經網路)用於生成按順序排列的隱藏特徵,NN 模型則會根據這些隱藏特徵的平均來得出決策,如圖 3(b) 所示。


基準


為了進行比較研究,我們構建了幾種基準模型,分別表示為 NN、AE+NN、RNN+NN。其中 NN 和 AE+NN 用於與 VAE+NN 模型進行比較,我們想知道在表徵單個特徵向量時深度生成模型是否能有更好的表現。RNN+NN 模型與之前研究中的模型結構類似,它被用於與我們的 VRNN+NN 模型進行比較。


360725.png

圖 4:基準模型的模型架構:(a)NN 的架構,(b)AE+NN 的架構,(c)RNN+NN 的架構


NN


NN 模型就是一個簡單的多層感知器(MLP),如圖 4(a) 所示。


AE+NN 


AE+NN 基準模型基於標準的自編碼器,如圖 4(b) 所示。AE 與 VAE 類似,但其結構是確定性的,所以生成能力更差。在這個模型中,我們還將 AE 和 NN 的損失結合到了一起。我們使用了均方誤差(MSE)作為 AE 的訓練目標。


RNN+NN


RNN+NN 模型如圖 4(c) 所示。在這個模型中,RNN 處理原始的時間特徵,隱藏狀態的平均被用作 NN 的輸入。


實現細節


在我們的實驗中,模型是在 TensorFlow r1.0 上實現的。所有的 ϕ_τ和 ϕ_d 都是帶有一個隱藏層和 ReLU 啟用的前向神經網路。隱藏層的大小設定為 64。我們使用了 Adam 作為優化器,其中學習率設定為 0.0005,學習率衰減為 0.99。權衡(trade off)引數 η 在所有實驗中都設定為 0.5。


結果


表 1 給出了三組實驗的診斷表現。上面一組值是不同模型在診斷任務上的表現,是根據 F1 值和 AUC 的不同變體測定的。此外,為了測試聯合訓練是否能比無監督生成模型得到更好的表徵,來自 VAE、VAE+NN、VRNN 和 VRNN+NN 的表徵被用來訓練了一個用於診斷決策的新模型。表 1 中間一組資料給出了其結果。最後,為了在缺失值處理方面比較我們的 VRNN+NN 模型和一些啟發式填補方法,我們調查研究了四種填補方法:「zero」是基準模型的預設方法,「last&next」、「row mean」和「NOCB」是三種最廣為人知的填補方法(據研究 [32]):「last&next」是取前一個已知值和後一個已知值的均值;「row mean」是取前一個病人和後一個病人的均值;「NOCB」是填補反向遇到的下一個觀察


742216.png

表 1:三組診斷表現;所有結果都以「均值±標準差」的形式給出


為了評估表 1 中的結果是否可靠,我們應用了配對 t 檢驗(paired t-test)來檢查不同模型的表現差異是否具有統計顯著性。結果在表 2 中給出。


 

912047.png

表 2:在診斷表現上的配對 t 檢驗的 P 值。注:(p<0.001),(p<0.01),(p<0.05)


因為深度生成模型可以重新構建輸入資料,所以我們推測我們的 VRNN+NN 模型有更好的填補缺失值的潛力。為了測試這個推測,我們首先隨機丟棄了原始資料中 10% 的值,然後使用訓練後的 VRNN+NN 來填補這些故意丟棄的值。結果用 MSE 給出,如表 3 所示,其中也給出了啟發式填補方法的 MSE 值。另外也給出了這些方法的配對 t 檢驗結果。


105998.png

表 3:左部分是不同填補方法的填補誤差;右部分是配對 t 檢驗得到的表現比較。注:(p<0.001),(p<0.01),(p<0.05)


擴充套件閱讀



                </div>
在過去一年中,我們看到了很多某種人工智慧演算法在某個醫療檢測任務中「超越」人類醫生的研究和報道,例如面板癌、肺炎診斷等。如何解讀這些結果?他們是否真正抓住醫療實踐中的痛點、解決醫生和病人的實際需要? 這些演算法原型如何落地部署於資料高度複雜、碎片化、異質性嚴重且隱含錯誤的真實環境中?這些問題常常在很多「刷榜」工作中迴避了。事實上,從最近 IBM Watson 和美國頂級醫療中心 MD Anderson 合作失敗的例子可以看出,人工智慧對醫療來說更應關注的任務應該是如何幫助醫生更好地工作(例如生成醫療影象報告、推薦藥物等),而非理想化地著眼於取代醫生來做診斷,並且繞開這個終極目標(暫且不論這個目標本身是否可行或被接受)之前各種必須的鋪墊和基礎工作。因此與人類醫生做各種形式對比的出發點本身有悖嚴肅的科學和工程評測原則。這些不從實際應用場景出發的研究,甚至無限放大人機對戰,對人工智慧研究者、醫療從業者和公眾都是誤導。
知名人工智慧創業公司 Petuum 近期發表了幾篇論文,本著尊重醫療行業狀況和需求的研究思路,體現出了一種務實風格,並直接應用於他們的產品。為更好地傳播人工智慧與醫療結合的研究成果,同時為人工智慧研究者和醫療從業者帶來更加實用的參考,機器之心和 Petuum 將帶來系列論文介紹。本文是該系列第四篇,介紹了使用機器學習方法基於實驗室檢測資料協助醫療診斷的研究成果。


誤診是指診斷決策不準確,是一種時有發生的情況。每年都有大約 1200 萬美國成年人經歷誤診,其中有一半可能造成傷害。實際上,有多達 40500 成年病人在重症監護病房(ICU)中死於誤診。誤診的一大主要原因是對臨床資料的次優解讀和使用。如今,醫療資料包含了實驗室檢測資料、生命體徵、臨床記錄、藥物處方等等,資料之多有時讓醫生難以應付。在各種各樣的臨床資料中,實驗室檢測資料發揮了重要的作用。據美國臨床實驗室協會(American Clinical Laboratory Association)稱,實驗室檢測資料在診斷決策中的重要程度超過 70%。不幸的是,全面理解實驗室檢測結果並發現其中潛藏的臨床應用價值卻並非易事。對實驗室檢測資料的錯誤解讀是診斷過程中出問題的主要地方。


實驗室檢測資料為何難以理解?原因有兩方面。首先,缺失值是普遍存在的情況。在某個時間點只仔細檢查一小部分實驗室檢測資料的情況很常見,此時其它大多數監測資料都被忽略了。這些資料的缺失讓醫生無法瞭解病人臨床狀態的全面圖景,從而得到次優的決策。其次,這些實驗室檢測資料的值具有複雜的多變數時間序列結構:在入院期間,在某個特定時間要檢查多個實驗室檢測資料以及同一種檢測可能需要在不同時間點檢查多次。這些多變數時間資料在時間和檢測維度上都表現出了很複雜的模式。瞭解這些模式對診斷而言具有很高的價值,但在技術上卻頗具難度。


在這項工作中,我們研究瞭如何利用機器學習(ML)的能力來自動從複雜的、有噪聲的、不完整的和不規則的實驗室檢測資料中自動提取模式,從而解決上述問題並得到一種用於協助診斷決策的端到端診斷模型。在實驗室檢測資料基礎上用機器學習方法執行診斷的研究已有先例。在這些方法中,處理缺失值、發現多變數時序中的模式、預測疾病這三大主要任務通常是分開執行的。但是這三大任務是緊密關聯的並且可以互相提供幫助。一方面,更好地填補缺失值可以讓我們發現更有資訊的模式,這能提升診斷的準確度。另一方面,在模型訓練期間,對診斷的監督可以為模式發現提供指導,這又能進一步影響對缺失值的填補,從而可以調整被發現的模式和被填補的值,使之適用於診斷任務。分別執行這些任務無法考慮到它們的協同關係,從而會得到次優的解決方案。之前的研究還存在另一個侷限:它們往往是在一種判別式結構(discriminative structure)中提出的——從原理上看,這種結構無法很好地處理缺失值問題和學習可泛化的模式。


論文:結合生成式和判別式學習,根據實驗室檢測資料得出醫療診斷(Medical Diagnosis From Laboratory Tests by Combining Generative and Discriminative Learning)


5369920171207172919.png


論文連結:https://arxiv.org/abs/1711.04329


摘要:計算表型研究(computational phenotype research)的一個主要目標是執行醫療診斷。在醫院裡,醫生依靠大規模臨床資料來進行診斷決策,其中實驗室檢測資料是最重要的資源之一。但是,實驗室檢測資料的縱向性和不完整性給這種資料的解讀和應用帶來了顯著的挑戰,這可能會導致人類醫生和自動診斷系統得出有害的決策。在這項工作中,我們利用了深度生成模型來處理複雜的實驗室檢測資料。具體而言,我們提出了一種端到端的架構,其涉及到一個用於學習穩健且可泛化的特徵的深度生成變分迴圈神經網路和一個用於學習診斷決策的判別式神經網路模型,而且這兩個模型的訓練是聯合進行的。我們的實驗所採用的資料集涉及到 46252 個病人以及用於預測 50 種最常見診斷的 50 種最常用檢測。實驗結果表明我們的模型 VRNN+NN 的表現顯著(p<0.001)超過了其它基準模型。此外,我們還表明:比起通過純粹的生成模型所學到的表徵,通過聯合訓練學習到的表徵具有更豐富的資訊。最後,我們發現我們的模型填補缺失值的方式好得讓人驚訝。


貢獻


在這篇論文中,我們開發了一種端到端的深度神經網路來根據實驗室檢測資料執行診斷。我們的模型將三種任務無縫地整合到了一起並能聯合執行它們——這三種任務分別是填補缺失值、發現多變數時序資料中的模式和預測疾病。我們的模型結合了機器學習領域兩種主要的學習正規化:生成式學習和判別式學習;其中生成式學習元件被用於處理缺失值和發現穩健的且可泛化的模式,而判別式學習元件則被用於根據生成式學習過程中發現的模式來預測疾病。我們在 46252 份 ICU 病人就診資料上對我們提出的模型進行了評估,結果表明我們的模型實現了(1)比基準模型顯著(p<0.001)更優的診斷表現,(2)對缺失值的更好填補,(3)在實驗室檢測資料上的更好的模式發現。


方法


資料預處理


本研究所用的資料來自公開可用的 MIMIC-III。它來自 46252 位病人的實驗室檢測結果,其中包含住院記錄和門診記錄。每個住院時間階段都有 1 到 39 個對應的 ICD-9(國際疾病分類,第九版)編碼,本研究只考慮了其中主要的診斷。這個資料集共有 2789 種不同的診斷和 513 種各不相同的實驗室檢測。因為某些診斷和檢測是相當罕見的,所以我們將我們的研究限制在了 50 種最常見的診斷和 50 種最常用的實驗室檢測上。我們以每天的日期為標準對檢測結果進行了分組,並最終得到了 30931 個住院記錄的時間序列,其中每一個都標註了一種疾病的 ID,分別是從 0 到 49。這些時間序列的長度從 2 到 171 不等,而我們關注的是最近的 100 天。圖 1 給出了這 50 種疾病的 ID 所對應的樣本的數量。我們對該資料集進行了 5 次隨機切分,每一次我們都按特定比例將該資料集分成了訓練集(Train)、開發集(Dev)和測試集(Test),它們的比例為 65%:15%:20%。因此,這三個集合中的樣本的數量分別為 20105、4640 和 6186。


822042.png

圖 1:疾病 ID 對應的樣本的數量


有些檢測資料加了離散的類別值,比如「ABNORMAL(異常)」和「NORMAL(正常)」,我們將這些類別換成了整型值,比如用 0 表示「ABNORMAL」,用 1 表示「NORMAL」。檢測結果用 Z 歸一化(Z-normalization)進行了歸一化處理,即每個檢測值都減去均值,然後再除以標準差。注意,病人不會每天把每種檢測都做一遍,所以我們的資料中缺失值是很普遍的。圖 2 給出了一個病人的實驗室檢測記錄的例子。可以看到其中有大量缺失值。對整個資料集進行簡單的統計後發現,值的平均缺失率大約為 54%,也就是說在每天的記錄中,50 項實驗室檢測中平均僅有 27 項有值。在我們實驗中,我們起初都用 0 來填補這些缺失值。在應用了 Z 歸一化之後,這些值的均值都變成了 0。所以零填補就等同於均值填補。此外,因為我們的模型處於神經網路框架內,所以零輸入不會給計算引入額外的偏差。注意,在基準模型中,這種零填補方法表現得像是缺失值問題的解決方法,而在我們的模型中,它表現得像是缺失值的指示器,然後這些缺失值會由深度生成模型進行進一步的處理。


988103.png

圖 2:一位病人的實驗室檢測記錄示例。y 軸對應於我們所用的 50 項實驗室檢測。x 軸表示記錄的時間。綠點表示有值,否則就缺失值。


模型架構


我們在本研究中提出了兩種模型,分別表示為 VAE+NN 和 VRNN+NN。其中前者是一個靜態模型,可以證明深度生成模型的貢獻;後者則是一個時間模型,是對深度生成學習方法的延展,從而可學習長期時間依賴(long-term temporal dependency)。


150514.png

圖 3:我們的模型的架構:(a)VAE+NN 的架構,(b)VRNN+NN 的架構


VAE+NN


其中 VAE(變分自編碼器)是用於處理缺失值和發現模式的生成模型,標準的神經網路(NN)則被用作分類器,如圖 3(a) 所示。


VRNN+NN 


其中 VRNN(變分迴圈神經網路)用於生成按順序排列的隱藏特徵,NN 模型則會根據這些隱藏特徵的平均來得出決策,如圖 3(b) 所示。


基準


為了進行比較研究,我們構建了幾種基準模型,分別表示為 NN、AE+NN、RNN+NN。其中 NN 和 AE+NN 用於與 VAE+NN 模型進行比較,我們想知道在表徵單個特徵向量時深度生成模型是否能有更好的表現。RNN+NN 模型與之前研究中的模型結構類似,它被用於與我們的 VRNN+NN 模型進行比較。


360725.png

圖 4:基準模型的模型架構:(a)NN 的架構,(b)AE+NN 的架構,(c)RNN+NN 的架構


NN


NN 模型就是一個簡單的多層感知器(MLP),如圖 4(a) 所示。


AE+NN 


AE+NN 基準模型基於標準的自編碼器,如圖 4(b) 所示。AE 與 VAE 類似,但其結構是確定性的,所以生成能力更差。在這個模型中,我們還將 AE 和 NN 的損失結合到了一起。我們使用了均方誤差(MSE)作為 AE 的訓練目標。


RNN+NN


RNN+NN 模型如圖 4(c) 所示。在這個模型中,RNN 處理原始的時間特徵,隱藏狀態的平均被用作 NN 的輸入。


實現細節


在我們的實驗中,模型是在 TensorFlow r1.0 上實現的。所有的 ϕ_τ和 ϕ_d 都是帶有一個隱藏層和 ReLU 啟用的前向神經網路。隱藏層的大小設定為 64。我們使用了 Adam 作為優化器,其中學習率設定為 0.0005,學習率衰減為 0.99。權衡(trade off)引數 η 在所有實驗中都設定為 0.5。


結果


表 1 給出了三組實驗的診斷表現。上面一組值是不同模型在診斷任務上的表現,是根據 F1 值和 AUC 的不同變體測定的。此外,為了測試聯合訓練是否能比無監督生成模型得到更好的表徵,來自 VAE、VAE+NN、VRNN 和 VRNN+NN 的表徵被用來訓練了一個用於診斷決策的新模型。表 1 中間一組資料給出了其結果。最後,為了在缺失值處理方面比較我們的 VRNN+NN 模型和一些啟發式填補方法,我們調查研究了四種填補方法:「zero」是基準模型的預設方法,「last&next」、「row mean」和「NOCB」是三種最廣為人知的填補方法(據研究 [32]):「last&next」是取前一個已知值和後一個已知值的均值;「row mean」是取前一個病人和後一個病人的均值;「NOCB」是填補反向遇到的下一個觀察


742216.png

表 1:三組診斷表現;所有結果都以「均值±標準差」的形式給出


為了評估表 1 中的結果是否可靠,我們應用了配對 t 檢驗(paired t-test)來檢查不同模型的表現差異是否具有統計顯著性。結果在表 2 中給出。


 

912047.png

表 2:在診斷表現上的配對 t 檢驗的 P 值。注:(p<0.001),(p<0.01),(p<0.05)


因為深度生成模型可以重新構建輸入資料,所以我們推測我們的 VRNN+NN 模型有更好的填補缺失值的潛力。為了測試這個推測,我們首先隨機丟棄了原始資料中 10% 的值,然後使用訓練後的 VRNN+NN 來填補這些故意丟棄的值。結果用 MSE 給出,如表 3 所示,其中也給出了啟發式填補方法的 MSE 值。另外也給出了這些方法的配對 t 檢驗結果。


105998.png

表 3:左部分是不同填補方法的填補誤差;右部分是配對 t 檢驗得到的表現比較。注:(p<0.001),(p<0.01),(p<0.05)


擴充套件閱讀



                </div>