1. 程式人生 > >GMIS 2017 大會楊瓊演講:人工智慧+醫療——噱頭,還是未來?

GMIS 2017 大會楊瓊演講:人工智慧+醫療——噱頭,還是未來?

楊瓊2.jpg


全球機器智慧峰會(GMIS 2017),是全球人工智慧產業資訊服務平臺機器之心舉辦的首屆大會,邀請了來自美國、歐洲、加拿大及國內的眾多頂級專家參會演講。本次大會共計 47 位嘉賓、5 個 Session、32 場演講、4 場圓桌論壇、1 場人機大戰,兼顧學界與產業、科技巨頭與創業公司,以專業化、全球化的視角為人工智慧從業者和愛好者奉上一場機器智慧盛宴。


5 月 28 日,機器之心主辦的為期兩天的全球機器智慧峰會(GMIS 2017)進入第二天,全天議程中最受關注的是多位重要嘉賓出席的領袖峰會,包括《人工智慧:一種現代方法》的作者 Stuart Russell、第四正規化聯合創始人兼首席科學家楊強、科大訊飛執行總裁兼消費者事業群總裁胡鬱、阿爾伯塔大學教授及計算機圍棋頂級專家 Martin Müller、Element AI 聯合創始人 Jean-Sebastien Cournoyer 等。


下午,拍醫拍聯合創始人、首席科學家楊瓊,發表了主題為《人工智慧+醫療——噱頭,還是未來?》的主題演講,她探討分享了人工智慧如何推動醫療領域的進步,以及目前存在的困境是什麼。以下是她的演講內容。


拍醫拍是一家致力於將人工智慧技術應用到醫療領域的創業公司,之前我們的主要產品是醫療單據識別,現在我們的產品是智慧影像輔助診斷,包括胸片的分診,肺結節的檢測,糖網的篩查等。

我曾在微軟亞洲研究院,歐洲微電子中心,百度 IDL 工作過,在人工智慧行業從業了 15 年,是什麼促使我投身於醫療呢?


小時候,成為醫生是我的夢想,長大後發現,很多頂級醫生整天陷在日常瑣碎的管理和大量門診工作,不能把主要時間用於真正需要他的病人,而且以前資訊化程度也比較低,醫生無法有效、及時獲得病人的資訊,無法及早干預,也無法有效跟蹤病人的資訊以及愈後情況。


醫生的生存狀況是否能夠得到真正的改善?醫療領域何時發生真正的變革?


人工智慧能否真正幫助醫生、患者,甚至整個醫療行業呢?


最近幾年,變革的契機正在發生。國家醫改力度越來越大,北京已成為醫改的試點,分級診療也在逐步推進。


醫學影像輔助診斷,臨床的決策支援,輔助治療,健康管理,生物醫學研究,新葯研發,人工智慧正在滲透到醫療的各個方面,都有很多成功應用的例子。


2006 年開始,越來越多的公司加入醫療+人工智慧領域,2016 年,比例最大,其次是 2015 年,這說明在過去的四年間,這一行業在迅速發展。


 主要得益於三個因素。首先,人工智慧技術到了前所未有的新高度,AlphaGo、Siri,自動駕駛,充分體現了這一點。其次,電腦科學和神經腦科學的結合,使人類越來越能理解智慧的本質,一定程度上推進了行業發展。再次,網際網路飛速發展,有很多方便獲得的海量資料,而大量開放平臺和開源演算法,都極大推進了產業發展。因為這些因素,我下定決心投身醫療行業。

下面介紹幾個人工智慧在醫療領域應用的案例。


① IBM Watson,這是 IBM Watson 在 2016 年醫療領域的佈局,重點是腫瘤、慢病、健康應用、疾病的治療,其次,佈局精準醫療、體外檢測、醫療影像、大資料、醫療服務。


② Oncology 產品,它的流程是:首先,分析醫療記錄,包括結構化資料和非結構化資料。例如病人病例、患者資訊,包括影像資料、化驗結果、檢查結果、手術記錄、實時監測的各種資料等,通過分析這些資料,為患者提供多種治療方案,而且對方案進行排序,並給出醫學依據,醫生就在這些方案中挑選。


這些過程,包含了大量人工智慧技術,比如分析影像資料,進行結構化,這就涉及智慧影像的輔助診斷技術語音病例的自動錄入,這就是語音識別的技術;對病例進行分析,涉及自然語言理解;提供治療方案,這就是知識推理的過程。


③ 人工智慧在智慧影像輔助診斷的應用。在影像領域,診斷的誤診率非常高,現在中國臨床誤診率平均 27.8%,惡性腫瘤誤診率高達 40%。另外,影像科醫生缺口非常大,每年中國醫療影像資料以 30% 的速度在增長,而影像醫生的增長速度只有 4%,導致影像醫生的工作高強度、高風險、高流量,進一步加大誤診、誤判的概率。因此,我們很需要人工智慧技術,將影像醫生從繁重的勞動中解放出來,並且去幫助他們減少誤診率,提高準確率。


④ 眼科疾病的應用,一個重要應用是糖尿病性視網膜篩查。相對來說,糖尿病患者容易糖網病變,發病率 25-38%,病程越長,年齡越大,發病率越高。糖網還會導致不可逆性致盲性眼病,糖尿病患者患者失明機率比普通人高 25 倍,全球約有 4.15 億糖尿病患者面臨病變風險,中國約有 1.14 億這樣的患者,發病率可以達到 11.6%。利用人工智慧技術做糖網篩查,很有意義。


去年,Google 領導,美國、印度多家公司、研究機構參與,45 名美國醫生以及高階住院醫師,對將近 13 萬的眼底圖進行了分類分級,讓這些資料訓練人工智慧,經過八個月的工作,人工智慧的特異性、敏感性大約達到 90% 的水平。


⑤ 藥物研發。人工智慧可以通過在分子結構資料庫中篩選治療方法,評估出 820 萬種藥物研發的侯選化合物。2015 年,Atomwise 基於現有的侯選藥物應用,人工智慧演算法在一天之內就成功找到控制埃博拉病毒的兩種侯選藥物。一種新葯,從藥物發現到通過 FDA 的批准,平均需要花 97 個月,而進入臨床實驗階段的藥物,平均不到 12% 的藥物真正上市銷售。在人工智慧和機器學習的整合下,人們有望在新葯研發領域,平均每年降低 280 億美金成本。


⑥ 基因測序。以前,要在上萬個基因中發現致病基因,需要從這個家族裡面的幾個患者中進行取樣,無異於海底撈針。現在,通過快速基因測序技術和 SNPs這樣的工具,能快速定位到疾病的基因,分析患病的可能性、風險,甚至可以做個性化的醫療。人工智慧推動了這個領域的發展。


 ⑦ 癌症檢測。以前常用的方式是活體檢測,從患病區域通過切取、鉗取、穿刺獲取病變組織的細胞,進行病理分析,這種方法雖然能使醫生直觀地分析病理圖,但它的侷限性在於,如果只從一個部位取樣,不能充分全面反映病情。而有些患者不適合活檢,比如一些年邁患者。現在液體活檢技術,可以通過病患的血液或者尿液,發現特定 DNA,輔助判斷他患癌症的可能性。

這是人工智慧在醫療領域引用得較成功的方向。實際上,還有很多困難。


① 在資料層面,由於利益的條塊分割,規範化標準的缺乏,資料之間互聯互通非常困難。我們做醫療單據識別就發現,每個醫院列印的醫療單據格式都不統一。全國將近 100 萬家衛生醫療機構,業界以前常用的是基於模板的方法,但是如此多,如此不統一,不規範的資料,我們難道去建一百萬個模板嗎?


針對這個問題,我們首先識別每個個體,分析個體之間的相互關係、邏輯,然後去判斷整體的一致性。具體來說,我們先識別各個識別項,比如檢驗項、檢驗結果、單位、參考範圍、異常值等各個方面,識別各個要素之後,再分析各個要素之間的關係,是否處於同一行,同一列,整張單據的解釋是否符合醫學邏輯。如果這些要素髮生碰撞,粘連在一起,我們會對它進行切分。如果這個醫學的解釋,不同的要素產生的醫學解釋有矛盾,系統會自動尋優,尋找衝突、矛盾最小的方案。通過這種技術,我們支援了全國 31 個地區,超過 10 萬種版面的醫療單據,在詞條識別準確率上達到了 96%。


② 由於資訊孤島,很多機構資料不足,不完備,嚴重不均衡。有些罕見病,比如神經母細胞瘤,發病率只有十萬分之一。各種病的發病率不同,因此,資料嚴重不均衡。


我們如何處理這種情況呢?遷移學習、GNN 這樣的技術足夠了嗎?遷移學習適合處理同一個資料來源或者類似的資料來源,不同任務,但是它無法處理不同資料來源之間的學習,也不適合處理不相關問題之間的學習。


現場做一個提問,腦部疾病患者遠少於呼吸病患者,我們要做腦部 CT 的疾病診斷,我們是否可以使用胸部 CT 圖?我的建議是,可以用所有這些 CT 圖訓練一個預模型,把預模型的中間結果拿出來作為腦部疾病分類的輸入。另外,我們發現,採用多維標註方式能緩解資料不足,嚴重不均衡的問題。比如,糖網篩查,不僅對眼底圖片標註糖網病症的級別,同時還標註是否出血,是否有微動脈瘤,在哪裡有微動脈瘤,有多少微動脈瘤,是否有軟性滲出、硬性滲出,同時還標註視盤的大小、動靜脈比、左眼還是右眼、患者的資訊、年齡、性別等多維資訊。


我們做胸片篩查,不僅告知這是正常或異常,還要告知異常的種類是什麼,是屬於肺大泡,肺氣腫,還是胸部感染,當然,患者的年齡,也是非常重要的資訊。通過多維標註,可以在一定程度上彌補資料的不足。


③ 醫療領域的標註,非常昂貴,需要專業的知識,語音標註、文字標註、人臉標註大部分普通人能做,但醫療資料不行,而醫生的資源又非常稀缺,這就導致在醫療領域,很多資料沒有標註,或者只是簡單標註。


不同醫生採用不同標準標註,每個醫生的水平也各有差異。一些醫院的門診病例,醫生在寫症狀和診斷結果時,比較隨意,不規範,導致標註的資料,存在模糊,甚至衝突的地帶。這類問題,我們該如何處理呢?從一定程度上說明,僅僅是遷移學習,或者是 GNN,或者是多維的標註,是不夠的。


鄧力老師在昨天的演講中提到,無監督學習是未來大方向,我非常贊同,我希望更多人蔘與進來,幫助醫療行業解決問題。


泛化學習、自主學習,深度學習現在是否真正學到知識、總結知識,還只是簡單記憶了這些資料?機器是否能夠真正地自主學習,自主發展,自主成長,自主地發現矛盾,解決矛盾呢?這些都是值得深思、值得研究的課題。


④ 很多時候,醫療屬於弱訊號處理範疇,和自然場景下的圖片不同。比如,胸片的圖本身比較大,但是我們關注的 ROI 區域很小,鈣化點非常小,但又要發現它。再比如,那些非 ROI 區域,周圍的肌肉、骨骼比較亮,訊號很強,而真正的關注區域,比如肺紋理區域訊號是很弱的。這種情況,不能簡單用傳統的深度學習模型,因為這些訊號屬於弱訊號處理範疇,我們要儘早加入類別的監督資訊,而不是等到不斷描述、重構,到最後的幾層再去分類,不斷把分類資訊儘早引入網路結構。


⑤ 越來越多的裝置、檢查從院內轉到院外,而且越來越小型化,便攜化,甚至會植入我們的面板,身體,這要求我們的模型小,運算量小,能耗低。比如在身體埋一個電池,電池至少希望能夠支撐十年以上。另外,計算量不能產生大量熱量,熱量高了,可能灼傷面板或組織,一般至少都要求小於 10 毫瓦,效能要非常穩定。因為我們不能頻繁去維修。因此,這遠高於一般工業級的要求,需要研究界和工業界,共同努力。


而在方法驗證上,人工智慧在醫療中的應用也面臨很大困境,首先驗證的時候,個體差異大,受干擾因素多。一個治療的方案適用某一個人,並不見得適用於另一個人。


我們可以看到,人工智慧帶了很多變革,非常令人振奮。隨著網際網路醫院、第三方影像中心等的發展,可以預見,人工智慧改變傳統的醫療服務方式,將會成為可能。


                </div>

楊瓊2.jpg


全球機器智慧峰會(GMIS 2017),是全球人工智慧產業資訊服務平臺機器之心舉辦的首屆大會,邀請了來自美國、歐洲、加拿大及國內的眾多頂級專家參會演講。本次大會共計 47 位嘉賓、5 個 Session、32 場演講、4 場圓桌論壇、1 場人機大戰,兼顧學界與產業、科技巨頭與創業公司,以專業化、全球化的視角為人工智慧從業者和愛好者奉上一場機器智慧盛宴。


5 月 28 日,機器之心主辦的為期兩天的全球機器智慧峰會(GMIS 2017)進入第二天,全天議程中最受關注的是多位重要嘉賓出席的領袖峰會,包括《人工智慧:一種現代方法》的作者 Stuart Russell、第四正規化聯合創始人兼首席科學家楊強、科大訊飛執行總裁兼消費者事業群總裁胡鬱、阿爾伯塔大學教授及計算機圍棋頂級專家 Martin Müller、Element AI 聯合創始人 Jean-Sebastien Cournoyer 等。


下午,拍醫拍聯合創始人、首席科學家楊瓊,發表了主題為《人工智慧+醫療——噱頭,還是未來?》的主題演講,她探討分享了人工智慧如何推動醫療領域的進步,以及目前存在的困境是什麼。以下是她的演講內容。


拍醫拍是一家致力於將人工智慧技術應用到醫療領域的創業公司,之前我們的主要產品是醫療單據識別,現在我們的產品是智慧影像輔助診斷,包括胸片的分診,肺結節的檢測,糖網的篩查等。

我曾在微軟亞洲研究院,歐洲微電子中心,百度 IDL 工作過,在人工智慧行業從業了 15 年,是什麼促使我投身於醫療呢?


小時候,成為醫生是我的夢想,長大後發現,很多頂級醫生整天陷在日常瑣碎的管理和大量門診工作,不能把主要時間用於真正需要他的病人,而且以前資訊化程度也比較低,醫生無法有效、及時獲得病人的資訊,無法及早干預,也無法有效跟蹤病人的資訊以及愈後情況。


醫生的生存狀況是否能夠得到真正的改善?醫療領域何時發生真正的變革?


人工智慧能否真正幫助醫生、患者,甚至整個醫療行業呢?


最近幾年,變革的契機正在發生。國家醫改力度越來越大,北京已成為醫改的試點,分級診療也在逐步推進。


醫學影像輔助診斷,臨床的決策支援,輔助治療,健康管理,生物醫學研究,新葯研發,人工智慧正在滲透到醫療的各個方面,都有很多成功應用的例子。


2006 年開始,越來越多的公司加入醫療+人工智慧領域,2016 年,比例最大,其次是 2015 年,這說明在過去的四年間,這一行業在迅速發展。


 主要得益於三個因素。首先,人工智慧技術到了前所未有的新高度,AlphaGo、Siri,自動駕駛,充分體現了這一點。其次,電腦科學和神經腦科學的結合,使人類越來越能理解智慧的本質,一定程度上推進了行業發展。再次,網際網路飛速發展,有很多方便獲得的海量資料,而大量開放平臺和開源演算法,都極大推進了產業發展。因為這些因素,我下定決心投身醫療行業。

下面介紹幾個人工智慧在醫療領域應用的案例。


① IBM Watson,這是 IBM Watson 在 2016 年醫療領域的佈局,重點是腫瘤、慢病、健康應用、疾病的治療,其次,佈局精準醫療、體外檢測、醫療影像、大資料、醫療服務。


② Oncology 產品,它的流程是:首先,分析醫療記錄,包括結構化資料和非結構化資料。例如病人病例、患者資訊,包括影像資料、化驗結果、檢查結果、手術記錄、實時監測的各種資料等,通過分析這些資料,為患者提供多種治療方案,而且對方案進行排序,並給出醫學依據,醫生就在這些方案中挑選。


這些過程,包含了大量人工智慧技術,比如分析影像資料,進行結構化,這就涉及智慧影像的輔助診斷技術語音病例的自動錄入,這就是語音識別的技術;對病例進行分析,涉及自然語言理解;提供治療方案,這就是知識推理的過程。


③ 人工智慧在智慧影像輔助診斷的應用。在影像領域,診斷的誤診率非常高,現在中國臨床誤診率平均 27.8%,惡性腫瘤誤診率高達 40%。另外,影像科醫生缺口非常大,每年中國醫療影像資料以 30% 的速度在增長,而影像醫生的增長速度只有 4%,導致影像醫生的工作高強度、高風險、高流量,進一步加大誤診、誤判的概率。因此,我們很需要人工智慧技術,將影像醫生從繁重的勞動中解放出來,並且去幫助他們減少誤診率,提高準確率。


④ 眼科疾病的應用,一個重要應用是糖尿病性視網膜篩查。相對來說,糖尿病患者容易糖網病變,發病率 25-38%,病程越長,年齡越大,發病率越高。糖網還會導致不可逆性致盲性眼病,糖尿病患者患者失明機率比普通人高 25 倍,全球約有 4.15 億糖尿病患者面臨病變風險,中國約有 1.14 億這樣的患者,發病率可以達到 11.6%。利用人工智慧技術做糖網篩查,很有意義。


去年,Google 領導,美國、印度多家公司、研究機構參與,45 名美國醫生以及高階住院醫師,對將近 13 萬的眼底圖進行了分類分級,讓這些資料訓練人工智慧,經過八個月的工作,人工智慧的特異性、敏感性大約達到 90% 的水平。


⑤ 藥物研發。人工智慧可以通過在分子結構資料庫中篩選治療方法,評估出 820 萬種藥物研發的侯選化合物。2015 年,Atomwise 基於現有的侯選藥物應用,人工智慧演算法在一天之內就成功找到控制埃博拉病毒的兩種侯選藥物。一種新葯,從藥物發現到通過 FDA 的批准,平均需要花 97 個月,而進入臨床實驗階段的藥物,平均不到 12% 的藥物真正上市銷售。在人工智慧和機器學習的整合下,人們有望在新葯研發領域,平均每年降低 280 億美金成本。


⑥ 基因測序。以前,要在上萬個基因中發現致病基因,需要從這個家族裡面的幾個患者中進行取樣,無異於海底撈針。現在,通過快速基因測序技術和 SNPs這樣的工具,能快速定位到疾病的基因,分析患病的可能性、風險,甚至可以做個性化的醫療。人工智慧推動了這個領域的發展。


 ⑦ 癌症檢測。以前常用的方式是活體檢測,從患病區域通過切取、鉗取、穿刺獲取病變組織的細胞,進行病理分析,這種方法雖然能使醫生直觀地分析病理圖,但它的侷限性在於,如果只從一個部位取樣,不能充分全面反映病情。而有些患者不適合活檢,比如一些年邁患者。現在液體活檢技術,可以通過病患的血液或者尿液,發現特定 DNA,輔助判斷他患癌症的可能性。

這是人工智慧在醫療領域引用得較成功的方向。實際上,還有很多困難。


① 在資料層面,由於利益的條塊分割,規範化標準的缺乏,資料之間互聯互通非常困難。我們做醫療單據識別就發現,每個醫院列印的醫療單據格式都不統一。全國將近 100 萬家衛生醫療機構,業界以前常用的是基於模板的方法,但是如此多,如此不統一,不規範的資料,我們難道去建一百萬個模板嗎?


針對這個問題,我們首先識別每個個體,分析個體之間的相互關係、邏輯,然後去判斷整體的一致性。具體來說,我們先識別各個識別項,比如檢驗項、檢驗結果、單位、參考範圍、異常值等各個方面,識別各個要素之後,再分析各個要素之間的關係,是否處於同一行,同一列,整張單據的解釋是否符合醫學邏輯。如果這些要素髮生碰撞,粘連在一起,我們會對它進行切分。如果這個醫學的解釋,不同的要素產生的醫學解釋有矛盾,系統會自動尋優,尋找衝突、矛盾最小的方案。通過這種技術,我們支援了全國 31 個地區,超過 10 萬種版面的醫療單據,在詞條識別準確率上達到了 96%。


② 由於資訊孤島,很多機構資料不足,不完備,嚴重不均衡。有些罕見病,比如神經母細胞瘤,發病率只有十萬分之一。各種病的發病率不同,因此,資料嚴重不均衡。


我們如何處理這種情況呢?遷移學習、GNN 這樣的技術足夠了嗎?遷移學習適合處理同一個資料來源或者類似的資料來源,不同任務,但是它無法處理不同資料來源之間的學習,也不適合處理不相關問題之間的學習。


現場做一個提問,腦部疾病患者遠少於呼吸病患者,我們要做腦部 CT 的疾病診斷,我們是否可以使用胸部 CT 圖?我的建議是,可以用所有這些 CT 圖訓練一個預模型,把預模型的中間結果拿出來作為腦部疾病分類的輸入。另外,我們發現,採用多維標註方式能緩解資料不足,嚴重不均衡的問題。比如,糖網篩查,不僅對眼底圖片標註糖網病症的級別,同時還標註是否出血,是否有微動脈瘤,在哪裡有微動脈瘤,有多少微動脈瘤,是否有軟性滲出、硬性滲出,同時還標註視盤的大小、動靜脈比、左眼還是右眼、患者的資訊、年齡、性別等多維資訊。


我們做胸片篩查,不僅告知這是正常或異常,還要告知異常的種類是什麼,是屬於肺大泡,肺氣腫,還是胸部感染,當然,患者的年齡,也是非常重要的資訊。通過多維標註,可以在一定程度上彌補資料的不足。


③ 醫療領域的標註,非常昂貴,需要專業的知識,語音標註、文字標註、人臉標註大部分普通人能做,但醫療資料不行,而醫生的資源又非常稀缺,這就導致在醫療領域,很多資料沒有標註,或者只是簡單標註。


不同醫生採用不同標準標註,每個醫生的水平也各有差異。一些醫院的門診病例,醫生在寫症狀和診斷結果時,比較隨意,不規範,導致標註的資料,存在模糊,甚至衝突的地帶。這類問題,我們該如何處理呢?從一定程度上說明,僅僅是遷移學習,或者是 GNN,或者是多維的標註,是不夠的。


鄧力老師在昨天的演講中提到,無監督學習是未來大方向,我非常贊同,我希望更多人蔘與進來,幫助醫療行業解決問題。


泛化學習、自主學習,深度學習現在是否真正學到知識、總結知識,還只是簡單記憶了這些資料?機器是否能夠真正地自主學習,自主發展,自主成長,自主地發現矛盾,解決矛盾呢?這些都是值得深思、值得研究的課題。


④ 很多時候,醫療屬於弱訊號處理範疇,和自然場景下的圖片不同。比如,胸片的圖本身比較大,但是我們關注的 ROI 區域很小,鈣化點非常小,但又要發現它。再比如,那些非 ROI 區域,周圍的肌肉、骨骼比較亮,訊號很強,而真正的關注區域,比如肺紋理區域訊號是很弱的。這種情況,不能簡單用傳統的深度學習模型,因為這些訊號屬於弱訊號處理範疇,我們要儘早加入類別的監督資訊,而不是等到不斷描述、重構,到最後的幾層再去分類,不斷把分類資訊儘早引入網路結構。


⑤ 越來越多的裝置、檢查從院內轉到院外,而且越來越小型化,便攜化,甚至會植入我們的面板,身體,這要求我們的模型小,運算量小,能耗低。比如在身體埋一個電池,電池至少希望能夠支撐十年以上。另外,計算量不能產生大量熱量,熱量高了,可能灼傷面板或組織,一般至少都要求小於 10 毫瓦,效能要非常穩定。因為我們不能頻繁去維修。因此,這遠高於一般工業級的要求,需要研究界和工業界,共同努力。


而在方法驗證上,人工智慧在醫療中的應用也面臨很大困境,首先驗證的時候,個體差異大,受干擾因素多。一個治療的方案適用某一個人,並不見得適用於另一個人。


我們可以看到,人工智慧帶了很多變革,非常令人振奮。隨著網際網路醫院、第三方影像中心等的發展,可以預見,人工智慧改變傳統的醫療服務方式,將會成為可能。


                </div>