1. 程式人生 > >癌癥檢測算法頭名_ 附代碼

癌癥檢測算法頭名_ 附代碼

ml

最近,近一萬名數據科學家在數據科學方面參與開發機器學習算法,可以更精確地通過CT掃描檢測癌變病變


數據科學家正在使用機器學習來解決肺癌的檢測。從1月份開始,世界各地近1萬名數據科學家在Kaggle上競爭開發最有效的算法,幫助醫療專業人員更早地準確地檢測肺癌。


2010年,國家肺癌篩查試驗顯示,使用低劑量計算機斷層掃描(CT)進行年度篩查,讓計算機處理X光篇產生高對比度3D圖像,可以減少肺部癌癥死亡人數達20%。然而早期檢測與更傳統的X光片相比,該技術也導致了相對較高的誤報率。


技術分享

來自NCI的匿名高分辨率肺掃描


機器學習公司Kaggle的首席執行官Anthony Goldbloom說:“這是一個非常強大的方法,可以將癌癥死亡率降低20%,但是誤報率非常高。”


所以對於今年的數據科學競賽,Kaggle與合作方Booz Allen 決定引導數據科學和機器學習的能量來解決誤報問題。合作方獲得了由勞拉和約翰·阿諾德基金會資助的100萬美元的獎金,分為前十名參賽選手。


數據科學為社會做好事


Booz Allen高級副總裁兼首席數據科學家Josh Sullivan說,Booz Allen和Kaggle在2015年創建了數據科學競賽,努力將數據科學家重點放在社會上。


他說:“我們想創造出一些讓人們聚集在一起為社會做出貢獻的東西。”


我們如何為社會福利做一些實質的事情?我們希望它能夠讓科學進步,對公眾開放,雖然不利於我們的利益或客戶的利益,但開源會讓更多人受益。


Sullivan說,為了第三屆年度數據科學競賽(以前的數據科學競賽專註於確定海洋健康和檢測心臟病的算法),提交了300多個方案。最終他決定幫助美國國家癌癥研究所(NCI)與拜登癌癥月刊商討,努力加速癌癥研究,為更多的患者提供更多的治療方案,並改善癌癥預防和早期檢測。


NCI為數據科學競賽提供了2000個匿名的高分辨率CT掃描,每個圖像包含千兆字節的數據。Sullivan說,1500個圖像是訓練集,伴隨著最終的診斷。剩下的500張圖像是問題集。使用訓練集,競爭對手的機器學習算法必須學會如何正確地確定其余500幅圖像中肺部病變是否癌變。根據正確診斷的百分比對算法進行評分。



數據已在Kaggle平臺上傳。谷歌在3月份收購的Kaggle由Goldbloom於2010年成立,專門負責預測建模和分析競賽。公司和研究人員發布數據,使數據科學家能夠競爭生產最好的模型。該公司擁有成千上萬的跨越近200個國家的註冊用戶。


在這場比賽中,Kagglers是卷積神經網絡(CNN)的專家,這是一種由生物體內視覺機制啟發的深層學習神經網絡。雖然CNN對許多不同類型的問題很有用,但CNN擅長計算機視覺問題。在以前的Kaggle比賽中,Kagglers競爭創建基於CNN的算法,可以在社交媒體上區分狗和貓的圖片。


Goldbloom說:“這個數據很新奇,NCI提供的CT圖像“。它真的把卷積神經網絡推向了前所未有的高度,因為數據集的大小,醫療數據集總面臨挑戰,互聯網上有多少貓和狗的圖像呢?圖像收集都非常昂貴,CT掃描數據更少。


而Goldbloom解釋說,CNNs很容易出現稱為“過度擬合”的效應,統計模型傾向於描述噪聲而不是基本關系,因為相對於觀測次數參數太多。


Goldbloom說:“構建不過分的卷積神經網絡是困難的,數據集越小越難。“這真的是技術活,它必須在相對較少量的圖像上進行泛化。”


近10,000名Kagglers參加了數據科學碗。他們總共花了15萬多小時,提交了近18,000個算法。許多放射科醫師在Kaggle的論壇上自願提供專業知識,幫助競爭對手完善工作。


數據科學碗獲勝者


最終,中國清華大學的兩位研究人員廖方舟和李哲獲得第一名。荷蘭的軟件和機器學習工程師Julian de Wit和Daniel Hammack取得了第二名。由位於荷蘭的公司工作的成員組成的團隊Aidence占據了第三名。


Sullivan說:“NIH [美國國立衛生研究院] 將最終與FDA [美國] 食品和藥物管理局合作,並希望能夠管理這些數據,以便他們可以進入實際閱讀這些CT掃描的軟件。這是我們試圖推動的最大回報。”


他指出,他希望NIH和FDA能夠查看一些頂級算法。頂級隊伍的得分相差不到百分之幾,有的可能會帶來更多的技術可能性。


Kaggle競賽地址:

https://www.kaggle.com/c/data-science-bowl-2017

第一名團隊代碼:

https://github.com/lfz/DSB2017

Validation, comparison, and combination of algorithms for automatic detection of pulmonary nodules in computed tomography images: the LUNA16 challenge


https://arxiv.org/abs/1612.08012


本文出自 “IT技術學習與交流” 博客,謝絕轉載!

癌癥檢測算法頭名_ 附代碼