1. 程式人生 > >谷歌Jeff Dean團隊提出利用深度學習對「電子健康記錄」資料進行分析,可提高醫療診斷預測的準確性

谷歌Jeff Dean團隊提出利用深度學習對「電子健康記錄」資料進行分析,可提高醫療診斷預測的準確性

640?wx_fmt=gif&wxfrom=5&wx_lazy=1

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&retryload=1

圖:pixabay

原文來源:arXiv

作者:Alvin Rajkomar、Eyal Oren、Kai Chen、Andrew M. Dai、Nissan Hajaj、Peter J. Liu、Xiaobing Liu, Mimi Sun、Patrik Sundberg、Hector Yee、Kun Zhang、Yi Zhang、Gavin E. Duggan、Gerardo Flores、Michaela Hardt、Jamie Irvine、Quoc Le、Kurt Litsch、Jake Marcus、Alexander Mossin、Justin Tansuwan、De Wang、James Wexler、Jimbo Wilson、Dana Ludwig、Samuel L. Volchenboum、Katherine Chou、Michael Pearson、Srinivasan Madabushi、Nigam H. Shah、Atul J. Butte、

Michael Howell、Claire Cui、Greg Corrado、Jeff Dean

「雷克世界」編譯:嗯~是阿童木呀

可以這樣說,使用電子健康記錄(EHR)資料進行預測建模預計將推動個性化醫療的發展,提高醫療質量。構建預測統計模型通常需要從正則化EHR資料中提取篩選後的預測變數,這是一個勞動密集型過程,將會丟失每個病人記錄中絕大多數的資訊。基於快速醫療保健互操作性資源(FHIR)格式,我們提出了患者的全部原始EHR記錄的表示方法。我們經過實驗證明,使用這種表示的深度學習方法能夠準確預測來自多箇中心的多個醫療事件,而無需站點特定的資料協調。我們使用來自兩個美國學術醫療中心的非識別EHR資料對我們的方法進行驗證,其中216,221名成年患者住院至少24小時。按照我們所提出的序列格式,這一卷EHR資料總共包含了46,864,534,945個數據點,包括臨床說明。深度學習模型在預測諸如住院死亡率(跨站點AUROC為0.93-0.94)、30天計劃外再入院(AUROC為 0.75-0.76)、延長住院時間(AUROC 0.85-0.86)以及所有患者的最終診斷(頻率加權AUROC 為0.90)等任務中取得了較高的準確度。在這些所有情況下,這些模型的效能表現均優於傳統的預測模型。我們還提供了一個神經網路歸因系統的案例研究,用以說明臨床醫生是如何獲得預測的一些透明度的。我們認為,這種方法可以用以為各種臨床情景建立精確的、可擴充套件的預測,並提供完整解釋,直凸顯出病人圖表中所展示的證據。

640?wx_fmt=png

其實,數字醫學的前景部分源於希望,即通過數字化健康資料,我們可以更容易地利用計算機資訊系統理解和改善醫療。實際上,常規收集的患者醫療保健資料在體積和複雜性上正日益接近基因組規模。不幸的是,這些資訊大部分尚未用於臨床醫生可能用以改善醫療服務的預測統計模型中。人們普遍認為,如果成功的話,這樣的努力不僅可以為患者的安全和質量帶來莫大的好處,而且還能夠降低醫療成本。

儘管可用資料具有豐富、潛力大的特點,但預測模型的擴充套件性發展還是存在困難的,因為對於傳統的預測建模技術來說,每一個要預測的結果都需要建立具有特定變數的自定義資料集。人們普遍認為,分析模型中80%的工作都是用於預處理、合併、自定義和清理資料集,而不是用於對其進行分析以獲得結果。這極大地限制了預測模型的可擴充套件性。

640?wx_fmt=png

這個boxplot顯示EHR中的資料量(以對數為單位),以及整個住院過程中的時間變化。

而另一個挑戰是,電子健康記錄(EHR)中潛在預測變數的數量可能輕易就會成千上萬的出現,特別是當來自醫生、護士和其他提供者的自由文字記錄涵蓋在內的時候更是如此。傳統的建模方法通常只是通過選擇數量非常有限的常用收集變數以處理這種複雜性。這是存在問題的,因為所得到的模型可能會產生不準確的預測結果:假陽性預測會使醫生、護士和其他提供者被錯誤警報和隨後的警報疲勞所壓垮,聯合委員會在2014年將其確定為全國患者安全優先事項。而假陰性預測可能錯過大量臨床重要事件,從而導致臨床結果不佳。對整個HER進行整合,包括臨床醫生的自由文字,為克服這些缺點提供了一些希望,但是對於大多數預測建模技術而言,這是無望的,僅僅治標不治本。

最近深度學習和人工神經網路的發展可能使我們能夠解決許多這些挑戰,並解開EHR中的資訊。深度學習是計算機視覺到語音識別等機器感知問題的首選機器學習方法,但最近在自然語言處理,序列預測和混合模態資料設定方面已證明有用。這些系統以處理大量相對混亂的資料的能力而聞名,包括標籤中的錯誤和大量的輸入變數。一個關鍵的優點是調查人員通常不需要指定要考慮哪些潛在的預測變數以及以何種組合;相反,神經網路學習的表示資料本身的關鍵因素和相互作用。

640?wx_fmt=png

 在接收方的曲線下,根據深度學習和基線模型的預測,在住院前和入院後的12小時內,對住院病人的死亡率進行了預測。

我們假設這些技術將能夠很好地轉化到醫療保健中。具體來說,這種深度學習方法可以將涵蓋自由文字在內的整個電子健康記錄結合起來,以產生對一系列臨床問題和結果的預測,且這些預測結果都優於傳統最為先進的預測模型。我們的核心觀點是,與其對HER資料進行明確地協調資料,將其對映到高度篩選後的結構化預測變數中,然後將這些變數饋送到統計模型中,我們可以學習通過直接特徵學習來協調輸入並預測醫療事件。

有這樣一種學習技術,它可以將涵蓋自由文字在內的整個電子健康記錄結合起來,以產生對一系列臨床問題和結果的預測,且這些預測結果都優於傳統最為先進的預測模型。因為我們有興趣瞭解深度學習是否可以在不同的醫療領域進行擴充套件以產生有效的預測,所以我們使用單一資料結構以對重要的臨床結果(死亡)、醫療質量的標準測量(再入院)、資源利用率的度量(停留時間)、以及對患者問題的理解度量(診斷)進行預測。

這種方法代表了在臨床護理預測模型可擴充套件性方面的一個重要進展,原因如下幾個方面:首先,我們的研究方法將整個EHR的單一資料表示作為一系列事件的序列,使得該系統可以用於臨床或操作有用的任何預測,並且只需最少的資料準備。傳統的預測模型需要大量的工作來準備一個手動製作的、具有特定變數的資料集,由專家進行選擇並由分析人員為每個新的預測進行收集組合。這種資料準備和清理通常會消耗任何預測分析專案80%的工作量,從而限制了醫療保健中預測模型的可擴充套件性。其次,使用整個患者圖表進行每一個預測不僅僅是促進了可擴充套件性,還揭示了更多的資料,從而作出準確的預測。而對於患者出院時做出的預測,我們的深度學習模型考慮了超過460億條EHR資料,並且早在住院期間便比傳統模型做出了更為準確的預測。例如,通過對評估住院死亡率所需人數的改進,人們提出了這種改善的臨床影響:深度學習模型將使傳統預測模型的警報數量減少一半,從而導致更少的誤報。

然而,這種方法的新穎之處並不僅僅在於模型效能的改進。相反,這種預測效能是在沒有手動選擇專家認為重要的變數的情況下實現的。取而代之的是,該模型可以為每個患者提供數以萬計的預測因子,包括自由文字,並且瞭解到對於特定預測來說重要的是什麼。

640?wx_fmt=png

患者記錄顯示一名女性患有轉移性乳腺癌,伴有惡性胸腔積液和膿胸。圖頂部的病人時間線包含每個時間步的圓圈,病人至少有一個存在的標記,水平線顯示資料型別。在住院後24小時進行預測之前,可以近距離檢視最近的資料點。我們訓練了用於每種資料型別的模型,並用紅色突出顯示了模型參與的標記——未加亮顯示的文字沒有被關注,而是在上下文中得以顯示。這些模型可以從藥物,護理流程和臨床記錄中選擇特徵進行預測。

我們的研究也存在著重要的侷限性。首先,這是一個回顧性研究,具有所有普遍存在的侷限性。其次,儘管人們普遍認為,準確的預測可以用來改善醫療保健,但這並不是一個必然的結論,並且需要進行前瞻性試驗才能證明這一點。再次,個性化預測的一個必要的含義是,它們利用特定於特定EHR的許多小資料點而不是少數的通用變數。未來的研究需要確定在一個站點進行訓練的模型如何才能最好地應用到另一個站點中,這對於那些歷史資料有限從而難以對模型進行訓練的站點來說尤其有用。作為第一步,我們證明了相同的訓練演算法為兩個地理上不同的衛生系統產生了相似的模型,但是在這一點上還需要進行進一步的研究。最後,我們的方法在計算上非常密集,目前需要專門的專業知識才能夠實施。然而,我們不得不承認,機器學習的可用性和可訪問性正在醫療保健和其他領域迅速擴大。

也許在我們的研究中最具挑戰性的預測是預測病人的全套出院診斷。這個預測之所以很困難,主要存在以下幾個原因:首先,病人可能有1到228次診斷,並且在預測時這個數目是未知的。其次,每個診斷可能是從大約14025個ICD-9診斷程式碼中選擇的,這使得可能的組合的總數呈指數級增長。最後,許多ICD-9程式碼在臨床上相似但在數值上不同(例如,011.30“支氣管結核,未指定”VS 011.31“支氣管結核,細菌學或組織學檢查未完成”)。這具有將隨機誤差引入預測的效果。對於我們的模型來說,當預測具有不止一個結果(例如,多重診斷)時所使用的作為度量指標的微F1評分,要高於具有少量病例的ICU資料集文獻中所報道的那樣。這是一個概念驗證,證明可以從常規的EHR資料中推斷出診斷,這可能有助於觸發決策支援或臨床試驗招募。

使用自由文字(free text)進行預測還可以提高預測的可解釋性。由於其不透明性,臨床醫生歷來不相信神經網路模型。我們展示了我們的方法是如何對模型所“檢視”的每個病人的資料進行視覺化的,臨床醫生可以使用這些資料以確定一個預測是否是基於可信的事實,並可能有助於對行動進行決策。在我們的案例研究中,該模型確定了患者的病史和放射學結果的要素從而進行預測,這也是臨床醫師將要使用的關鍵資料點。這種方法也許能夠解決這種“黑匣子”方法的擔憂。然而,我們還需要進一步研究,從而確認這種方法的認知影響及其臨床效用。

歡迎個人分享,媒體轉載請後臺回覆「轉載」獲得授權,微信搜尋「raicworld」關注公眾號

中國人工智慧產業創新聯盟於2017年6月21日成立,超200家成員共推AI發展,相關動態:

640.png點選下圖加入聯盟

640

640?wx_fmt=gif

關注“雷克世界”後不要忘記置頂

我們還在搜狐新聞、雷克世界官網、騰訊新聞、網易新聞、一點資訊、天天快報、今日頭條、雪球財經……

↓↓↓點選閱讀原文檢視中國人工智慧產業創新聯盟手冊