1. 程式人生 > >【論文閱讀筆記】Embedding Electronic Health Records for Clinical Information Retrieval

【論文閱讀筆記】Embedding Electronic Health Records for Clinical Information Retrieval

本文是2018.11.13釋出於Arxiv上的一篇文章,作者Xing Wei, MSc1, Carsten Eickhoff, PhD。

  本文提出一種醫學資訊檢索的方法。由於醫學資訊檢索的標記資料較少而普通的醫學文字資料較豐富,所以文章巧妙的採用了預訓練文字和段落的方法。具體內容如下:

     第一步: 先用Word2Vec對生物醫學文字,GloVe對維基百科文字進行word Embedding,然後將醫學文字分詞後根據上一步的詞向量將文字轉換為embedding Matrix ,通過CNN的卷積和池化獲取到單純使用用Word2Vec和GloV獲取不到的文字段落語義資訊,CNN網路的最後是預測標記,該預測任務只是為了獲得文字或段落的embed vector,因此文中說這一步其實是作為最終的資訊檢索任務的代理(proxy)。

    第二步:將上一步獲取到的文件向量替換資訊檢索模型DRMM中的詞向量,這樣檢索資訊中就包含了語義資訊,檢索更加精確。訓練改進的DRMM模型使用的的取樣樣本是三元的,包含查詢id,和查詢相關的文件的id,和查詢無關的文件id,損失函式使用hinge loss:

    第三步:在實際檢索階段,只需要分別將查詢條件文字和文件庫中的文件分別查詢embed vector,用餘弦相似性得出得分就可以檢索出最相關文件。

本文的可取之處:

1、本文的獲取文字向量的思想及訓練DRMM的思想基本是借鑑了Skip-Gram模型。

2、在標註資料不足時如何使用遷移學習來完成最終的目的。