1. 程式人生 > >基於Anchor的 ner 命名實體識別 醫療實體

基於Anchor的 ner 命名實體識別 醫療實體

賽題說明
本次大賽旨在通過糖尿病相關的教科書、研究論文來做糖尿病文獻挖掘並構建糖尿病知識圖譜。參賽選手需要設計高準確率,高效的演算法來挑戰這一科學難題。第一賽季課題為“基於糖尿病臨床指南和研究論文的實體標註構建”,第二賽季課題為“基於糖尿病臨床指南和研究論文的實體間關係構建”。本次大賽禁止使用外部資料,可以使用外部工具。本次大賽禁止通過構造字典方式來進行實體預測。

檔案標註工作基於brat軟體,http://brat.nlplab.org/。其中.txt檔案為原始文件,.ann檔案為標註資訊,標註實體以T開頭,後接實體序號,實體類別,起始位置和實體對應的文件中的詞。如果需要在brat軟體中檢視標註結果,需要新增.conf檔案。

第一賽季


大賽主辦方提供與糖尿病相關的學術論文以及糖尿病臨床指南,要求選手在學術論文和臨床指南的基礎上,做實體的標註。實體類別共十五類。

類別名稱和定義
疾病相關:
1、疾病名稱 (Disease),如I型糖尿病。
2、病因(Reason),疾病的成因、危險因素及機制。比如“糖尿病是由於胰島素抵抗導致”,胰島素抵抗是屬於病因。
3、臨床表現 (Symptom),包括症狀、體徵,病人直接表現出來的和需要醫生進行查體得出來的判斷。如"頭暈" "便血" 等。
4、檢查方法(Test),包括實驗室檢查方法,影像學檢查方法,輔助試驗,對於疾病有診斷及鑑別意義的專案等,如甘油三酯。
5、檢查指標值(Test_Value),指標的具體數值,陰性陽性,有無,增減,高低等,如”>11.3 mmol/L”。

治療相關:

6、藥品名稱(Drug),包括常規用藥及化療用藥,比如胰島素。
7、用藥頻率(Frequency),包括用藥的頻率和症狀的頻率,比如一天兩次。
8、用藥劑量(Amount),比如500mg/d。
9、用藥方法(Method):比如早晚,餐前餐後,口服,靜脈注射,吸入等。
10、非藥治療(Treatment),在醫院環境下進行的非藥物性治療,包括放療,中醫治療方法等,比如推拿、按摩、鍼灸、理療,不包括飲食、運動、營養等。
11、手術(Operation),包括手術名稱,如代謝手術等。
12、不良反應(SideEff),用藥後的不良反應。

常規實體:
13、部位(Anatomy),包括解剖部位和生物組織,比如人體各個部位和器官,胰島細胞。
14、程度(level),包括病情嚴重程度,治療後緩解程度等。
15、持續時間(Duration),包括症狀持續時間,用藥持續時間,如“頭暈一週”的“一週”。

第二賽季
大賽主辦方瑞金提供與糖尿病相關的學術論文以及糖尿病臨床指南。選手從中抽取實體之間的關係。實體之間關係共十類。

實體關係類別名稱
1、檢查方法 -> 疾病
2、臨床表現 -> 疾病
3、非藥治療 -> 疾病
4、藥品名稱 -> 疾病
5、部位 -> 疾病
6、用藥頻率 -> 藥品名稱
7、持續時間 -> 藥品名稱
8、用藥劑量 -> 藥品名稱
9、用藥方法 -> 藥品名稱
10、不良反應 -> 藥品名稱

評估標準
採用F1-Measure作為評測指標。

選手提交格式
初賽提交結果為zip檔案,參考submit。zip中的檔案需要與測試txt檔案的檔名相同,字尾名為.ann。檔案中每一列以tab分割,共三列:第一列為實體編號,編號自擬且需唯一,不參與評測;第二列包含實體類別和實體的起始和終止位置,以空格分割,注意部分實體可能在第二列有分號,表示該實體跨行;第三列是實體所對應的詞語, 不參與評測 。

文章資料集

NER標註

測試文字:

重視糖尿病與非酒精性脂肪性肝病共存的
不良結局
高鑫
[提要]   回顧近年來關於 2 型糖尿病和非酒精性脂肪性肝病的研究進展,分析和評價兩者之間的密
切關係,探討非酒精性脂肪性肝病是否是 2 型糖尿病的肝臟併發症,2 型糖尿病的肝病結局不容忽視。
[關鍵詞]   非酒精性脂肪性肝病; 糖尿病, 2 型; 非酒精性脂肪性肝炎; 進展性纖維化
Think highly of the poor outcome of non-alcoholic fatty liver disease in type 2 diabetes Gao Xin. Department
of Endocrinology, Zhongshan Hospital, Fudan University, Shanghai 200032, China
[Summary]   Researches in type 2 diabetes and non-alcoholic fatty liver disease have been made in recent
years. The intimate connection between these two diseases has been analysed and explored. Whether non-alcoholic
fatty liver disease is a hepatic complication of type 2 diabetes remains to be elucidated. The poor outcome of liver
disease in patients with type 2 diabetes should be emphasized.
[Key words]   Non-alcoholic fatty liver disease; Diabetes mellitus, type 2; Non-alcoholic steatohepatitis;
Advanced fibrosis
(Chin J Endocrinol Metab, 2014, 30: 1-2)
非酒精性脂肪性肝病(NAFLD)和 2 型糖尿病由
於存在共同的危險因素而常常並存。 兩者的患病率隨
著日益流行的肥胖、胰島素抵抗、代謝綜合徵同步增
長。 流行病學調查顯示,總人群中 NAFLD 的患病率為
20% ~ 30% ,而在 2 型糖尿病人群中脂肪肝的伴隨率
高達 60% ~80% [1]。 越來越多的證據支援,糖尿病的
代謝狀態和 NAFLD 的病理之間存在複雜的相互作用。
NAFLD 和 2 型糖尿病相互預測了彼此的發生,且互為
促進因素。
國內外已有研究證實 2 型糖尿病合併 NAFLD 患
者其胰島素抵抗、糖脂代謝、肝酶水平、炎症因子均較
單純糖尿病患者更加惡化。 更高的糖脂毒性和氧化應
激狀態加重了患者的肝臟負擔和慢性血管併發症風
險,從而增加了肝臟相關死亡率和心血管事件的發生
風險[2]。 研究表明,年齡、糖尿病、肥胖、高血壓和胰
島素抵抗程度是肝纖維化的獨立預測因素,其中 2 型
糖尿病與非酒精性脂肪性肝炎(NASH)、纖維化存在
顯著相關性[3],且肥胖和糖尿病均獨立增加肝細胞肝
癌的發生風險,使 NASH 患者的肝臟相關死亡率上升
10 倍[4]。 目前,國外已有一些小樣本的病理研究顯
示,肝活檢證實 2 型糖尿病患者中,NASH、進展性纖維
化分別為 63% ~78%和 22% ~34% [5,6]。 雖然這些以
糖尿病患者為研究物件的肝臟病理研究樣本量較小,
且得到 NASH 和纖維化的患病率差異較大,但足以引
起研究者們對 2 型糖尿病患者肝臟情況的廣泛關注。
我國 是 糖 尿 病 大 國, 成 人 糖 尿 病 患 病 率 已 高 達
9. 7% [7],估算患者總數達 9 240 萬,遺憾的是國內目
前還沒有這方面的研究資料,我國 2 型糖尿病中確切
的 NASH 尤其是肝纖維化的患病率尚無從知曉。
上述這些研究結果說明 2 型糖尿病患者的遠期肝
髒結局不容樂觀。 而 NAFLD 也惡化了 2 型糖尿病患
者的血糖控制,促進糖尿病重要慢性併發症的發生和
進展[8]。 由於肝穿刺檢查的有創性且技術要求較高,
不宜在糖尿病人群中廣泛開展,限制了 2 型糖尿病中
NASH 及肝纖維化的進一步研究。 本雜誌此期刊登了
3 篇反映 2 型糖尿病伴隨脂肪肝患者肝病不良結局的
論文。 復旦大學附屬中山醫院張林杉等[9]對 435 例住
院 2 型糖尿病患者進行了精確的質子磁共振波譜肝臟
脂肪含量(LFC)測定,發現 LFC 與糖尿病病程呈負相
關。 新診斷 2 型糖尿病中可排除進展性纖維化(纖維
化評分<-1. 455)的 NAFLD 比例顯著高於已診斷 2 型
糖尿病(26. 3%對 15. 5% , P<0. 05);而進展性纖維化
的 NAFLD 患者(纖維化評分>0. 676)中已診斷 2 型糖
尿病所佔比例顯著高於新診斷 2 型糖尿病(79. 2% 對
20. 8% ,P<0. 05),提示隨著糖尿病病程的延長,LFC
的減少與 NAFLD 向進展性纖維化發展相關,預示不良
肝病結局。 姚培培等[10] 也發現隨著年齡和糖尿病病
程增加,NAFLD 檢出率有下降趨勢。 為什麼糖尿病導
致 NAFLD 的進展和不良結局? 同時張林杉等[11]的另
一項研究還發現 2 型糖尿病合併 NAFLD 患者的血清
鐵蛋白(SF)較單純 2 型糖尿病患者顯著升高,NASH
患者的 SF 顯著高於單純性 NAFLD,且 SF 是 2 型糖尿
病中 NAFLD 及 NASH 的獨立危險因素,提示鐵負荷參
與了 NAFLD 的發生及發展,與肝臟的不良結局有關。
令人感興趣的是本期發表的劉學奎等[12] 對該院體檢
的 2 798 名健康者進行為期 5 年的隨訪觀察結果,他
們發現紅細胞壓積(HCT)≤0. 49 L / L 組 NAFLD 發病
率15. 9% , HCT > 0. 49 L / L 組發病率 26. 5% ( P <
0. 01), 隨著 HCT 的增高,發生 NAFLD 的風險增高
(RR=1. 045)。 這一結果與鐵負荷增加存在一定的關
聯 ,具體機制非常值得深入研究。 另外,對 NAFLD 與
糖尿病慢性併發症的關係也日益受到關注。 本期發表
的姚培培等[10] 對 1 205 例住院 2 型糖尿病患者伴隨
NAFLD 與白蛋白尿排洩率的關係進行分析,結果發現
NAFLD 的檢出率與白蛋白尿組負相關,雖然經校正年
齡和病程後二者並無相關性,但是對合並 NAFLD 的糖
尿病患者是否會增加傳統的糖尿病併發症的風險進行
研究是非常有意義的。
早期診斷和干預 NAFLD 對防治 2 型糖尿病的發
生和進展具有重要意義;另一方面,糖尿病與 NAFLD
共患人群中肝病不良結局及肝病相關死亡率增加亟需
引起高度重視,2 型糖尿病的肝臟脂肪變性以及纖維
化進展帶來的肝病結局在某種意義上可視為一種糖尿
病併發症。 然而這方面的研究目前尚處於起步階段,
許多機制尚未闡明,值得我們深入探索。


格式這麼醜跟我沒關係哈,官方給的測試集合就是這樣,坑的是還有\n\r在字串中,並且還要預測被\n\r分割的NER

演算法預測效果:

T1    Disease 1 5    視糖尿病
T2    Disease 6 15    非酒精性脂肪性肝病
T3    Disease 49 58    非酒精性脂肪性肝病
T4    Disease 82 91    非酒精性脂肪性肝病
T5    Disease 95 101    2 型糖尿病
T6    Disease 102 104    肝臟
T7    Disease 108 114    2 型糖尿病
T8    Disease 115 117    肝病
T9    Disease 134 142    酒精性脂肪性肝病
T10    Disease 144 147    糖尿病
T11    Disease 155 163    酒精性脂肪性肝炎
T12    Disease 924 932    酒精性脂肪性肝病
T13    Disease 933 938    NAFLD
T14    Disease 941 947    2 型糖尿病
T15    Disease 980 982    肥胖
T16    Disease 983 988    胰島素抵抗
T17    Disease 989 994    代謝綜合徵
T18    Disease 1015 1020    NAFLD
T19    Disease 1050 1053    脂肪肝
T20    Disease 1085 1088    糖尿病
T21    Disease 1172 1177    NAFLD
T22    Reason 1182 1187    胰島素抵抗
T23    Test 1188 1192    糖脂代謝
T24    Test 1193 1195    肝酶
T25    Test 1198 1202    炎症因子
T26    Disease 1207 1210    糖尿病
T27    Reason 1221 1225    糖脂毒性
T28    Reason 1226 1229    氧化應
T29    Anatomy 1239 1241    肝臟
T30    Anatomy 1260 1262    肝臟
T31    Disease 1268 1273    心血管事件
T32    Disease 1292 1295    糖尿病
T33    Disease 1296 1298    肥胖
T34    Reason 1299 1302    高血壓
T35    Reason 1303 1311    胰 島素抵抗程度
T36    Disease 1312 1316    肝纖維化
T37    Disease 1331 1334    糖尿病
T38    Disease 1335 1344    非酒精性脂肪性肝炎
T39    Disease 1345 1349    NASH
T40    Disease 1367 1369    肥胖
T41    Disease 1370 1373    糖尿病
T42    Disease 1378 1384    肝細胞肝 癌
T43    Disease 1392 1396    NASH
T44    Anatomy 1400 1402    肝臟
T45    Disease 1456 1460    NASH
T46    Disease 1504 1507    糖尿病
T47    Disease 1538 1541    纖維化
T48    Anatomy 1570 1572    肝臟
T49    Disease 1689 1693    肝纖維化
T50    Test 1760 1762    血糖
T51    Disease 1767 1770    糖尿病
T52    Test 1791 1796    肝穿刺檢查
T53    Disease 1812 1815    糖尿病
T54    Disease 1835 1839    NASH
T55    Disease 1841 1845    肝纖維化
T56    Disease 1871 1874    糖尿病
T57    Disease 1876 1879    脂肪肝
T58    Disease 1881 1883    肝病
T59    Test 1935 1942    質子磁共振波譜
T60    Test 1942 1949    肝臟 脂肪含量
T61    Test 1950 1953    LFC
T62    Test 1960 1963    LFC
T63    Disease 1965 1968    糖尿病
T64    Disease 1981 1987    2 型糖尿病
T65    Disease 2015 2020    NAFLD
T66    Disease 2035 2038    糖尿病
T67    Disease 2075 2080    NAFLD
T68    Disease 2121 2127    2 型糖尿病
T69    Disease 2158 2161    糖尿病
T70    Test 2167 2170    LFC
T71    Disease 2186 2189    纖維化
T72    Disease 2199 2201    肝病
T73    Disease 2222 2225    糖尿病
T74    Disease 2231 2236    NAFLD
T75    Disease 2250 2253    糖尿病
T76    Disease 2257 2262    NAFLD
T77    Disease 2294 2300    2 型糖尿病
T78    Disease 2303 2308    NAFLD
T79    Test 2315 2318    鐵蛋白
T80    Disease 2326 2332    2 型糖尿病
T81    Disease 2339 2343    NASH
T82    Disease 2381 2386    NAFLD
T83    Disease 2389 2393    NASH
T84    Test 2404 2407    鐵負荷
T85    Disease 2412 2417    NAFLD
T86    Anatomy 2426 2428    肝臟
T87    Test 2497 2502    紅細胞壓積
T88    Test 2503 2506    HCT
T89    Test_Value 2507 2515    ≤0. 49 L
T90    Disease 2522 2527    NAFLD
T91    Test 2541 2544    HCT
T92    Test 2588 2591    HCT
T93    Disease 2599 2604    NAFLD
T94    Test 2629 2632    鐵負荷
T95    Disease 2663 2668    NAFLD
T96    Disease 2671 2674    糖尿病
T97    Test 2729 2734    NAFLD
T98    Test 2736 2743    白蛋白尿排洩率
T99    Disease 2756 2761    NAFLD
T100    Disease 2802 2807    NAFLD
T101    Disease 2809 2813    糖 尿病
T102    Disease 2823 2826    糖尿病
T103    Disease 2854 2859    NAFLD
T104    Disease 2864 2870    2 型糖尿病
T105    Disease 2889 2892    糖尿病
T106    Disease 2894 2899    NAFLD
T107    Disease 2905 2909    肝病不良
T108    Disease 2912 2914    肝病
T109    Disease 2916 2918    死亡
T110    Disease 2931 2937    2 型糖尿病
T111    Reason 2938 2944    肝臟脂肪變性
T112    Disease 2955 2957    肝病
T113    Disease 2970 2974    糖尿 病
 

效果很棒

本演算法思路歸結如下,採用不同大小的anchor,基於FeatureMap做分類預測並對大小作迴歸,類似於YOLO的思路了。把影象中目標檢測的思路,移植到了NLP中。

比賽才開始,我就透露了思路,總是忍不住想更新CSDN。

最新的predict效果如圖:val_acc已經92%+,電腦配置比較差,跑一個epoch要4個小時,不想玩這個比賽了。

相關推薦

基於Anchorner 命名實體識別 醫療實體

賽題說明 本次大賽旨在通過糖尿病相關的教科書、研究論文來做糖尿病文獻挖掘並構建糖尿病知識圖譜。參賽選手需要設計高準確率,高效的演算法來挑戰這一科學難題。第一賽季課題為“基於糖尿病臨床指南和研究論文的實體標註構建”,第二賽季課題為“基於糖尿病臨床指南和研究論文的實體間關係構建”

神經網絡結構在命名實體識別NER)中的應用

field edi most 好的 向量 後來 目標 領域 png 神經網絡結構在命名實體識別(NER)中的應用 近年來,基於神經網絡的深度學習方法在自然語言處理領域已經取得了不少進展。作為NLP領域的基礎任務—命名實體識別(Named Entity Recogni

基於深度學習做命名實體識別

note 深度學習 以及 效果 數據集 pre 之前 得到 高達 基於CRF做命名實體識別系列 用CRF做命名實體識別(一) 用CRF做命名實體識別(二) 用CRF做命名實體識別(三) 摘要 1. 之前用CRF做了命名實體識別,效果還可以,最高達到0.9293,當然這是自己

NLP入門(四)命名實體識別NER

  本文將會簡單介紹自然語言處理(NLP)中的命名實體識別(NER)。   命名實體識別(Named Entity Recognition,簡稱NER)是資訊提取、問答系統、句法分析、機器翻譯等應用領域的重要基礎工具,在自然語言處理技術走向實用化的過程中佔有重要地位。一般來說,命名實體識

基於CRF的中文命名實體識別模型

條件隨機場(Conditional Random Fields,簡稱 CRF)是給定一組輸入序列條件下另一組輸出序列的條件概率分佈模型,在自然語言處理中得到了廣泛應用。 新建corpus_process類 import re import sklearn_crfsuite from

一文詳解深度學習在命名實體識別(NER)中的應用

近幾年來,基於神經網路的深度學習方法在計算機視覺、語音識別等領域取得了巨大成功,另外在自然語言處理領域也取得了不少進展。在NLP的關鍵性基礎任務—命名實體識別(Named Entity Recognition,NER)的研究中,深度學習也獲得了不錯的效果。最近,筆者閱讀了一系列基於深度學習的NE

BILSTM+CRF實現命名實體識別NER

#第一步:資料處理 #pikle是一個將任意複雜的物件轉成物件的文字或二進位制表示的過程。 #同樣,必須能夠將物件經過序列化後的形式恢復到原有的物件。 #在 Python 中,這種序列化過程稱為 pickle, #可以將物件 pickle 成字串、磁碟上的檔案或者任何類似於檔案的物件, #也可以

BiLSTM-CRF模型做基於字的中文命名實體識別

      在MSRA的簡體中文NER語料(我是從這裡下載的,非官方出品,可能不是SIGHAN 2006 Bakeoff-3評測所使用的原版語料)上訓練NER模型,識別人名、地名和組織機構名。嘗試了兩種模型:一種是手工定義特徵模板後再用CRF++開源包訓練CRF模型;另一種是

神經網路結構在命名實體識別NER)中的應用

  近年來,基於神經網路的深度學習方法在自然語言處理領域已經取得了不少進展。作為NLP領域的基礎任務—命名實體識別(Named Entity Recognition,NER)也不例外,神經網路結構在NER中也取得了不錯的效果。最近,我也閱讀學習了一系列使用神經網路結構進行

基於BERT命名實體識別程式碼的理解

我一直做的是有關實體識別的任務,BERT已經火了有一段時間,也研究過一點,今天將自己對bert對識別實體的簡單認識記錄下來,希望與大家進行來討論 BERT官方Github地址:https://github.com/google-research/bert ,其中對BERT模型進行了

自然語言處理之命名實體識別-tanfordcorenlp-NER(一)

轉載請註明出處:https://blog.csdn.net/HHTNAN 簡介 CoreNLP 專案是Stanford開發的一套開源的NLP系統。包括tokenize, pos , parse 等功能,與SpaCy類似。SpaCy號稱是目前最快的NLP系統, 並且提供現成的pyt

基於條件隨機場的命名實體識別

一. 理論基礎 1. 條件隨機場簡介 條件隨機場(conditional random fields,CRF) 2. 二. 具體實現 1. 資料預處理 2. 特徵選取 3. 模型訓練和測試 4. 實體識別

NLP入門(五)用深度學習實現命名實體識別NER

前言   在文章:NLP入門(四)命名實體識別(NER)中,筆者介紹了兩個實現命名實體識別的工具——NLTK和Stanford NLP。在本文中,我們將會學習到如何使用深度學習工具來自己一步步地實現NER,只要你堅持看完,就一定會很有收穫的。   OK,話不多說,讓我們進入正題。   幾乎所有的NLP都依賴一

使用Stanford Word Segmenter and Stanford Named Entity Recognizer (NER)實現中文命名實體識別

簡介     Stanford NER是命名實體識別(NER,Named Entity Recognizer)的一個Java實現。NER可以標記文字中詞的序列,如人名、公司名、基因名或者蛋白質名等。它自帶精心設計的用於NER的特徵提取器,和用於定義特徵提取器的許多選項

命名實體識別NER)的發展歷程

命名實體識別(Named Entity Recognition,NER)簡單說就是從一段自然語言文字中找出相關實體,並標註出其位置以及型別。一般我們歸為序列標註問題(sequence labeling problem)中的一種。與分類問題相比,序列標註問題中當前的預測標籤不僅與當

基於crf的CoNLL2002資料集命名實體識別模型實現-pycrfsuite

下面是用python的pycrfsuite庫實現的命名實體識別,是我最初為了感知命名實體識別到底是什麼,調研命名實體識別時跑的案例,記錄在下面,為了以後查閱。 案例說明: 內容:在通用語料庫CoNLL2002上,用crf方法做命名實體識別(地點、組織和人名)。 工具:Anacond

【NLP】基於CRF條件隨機場的命名實體識別原理詳解

1. 命名實體用來做什麼? 在自然語言處理應用領域中,命名實體識別是資訊檢索、知識圖譜、機器翻譯、情感分析、問答系統等多項自然語言處理應用的基礎任務,例如,我們需要利用命名實體識別技術自動識別使用者的查詢,然後將查詢中的實體連結到知識圖譜對應的結點上其識別的準確率將會直接影

基於深層神經網路的命名實體識別技術

引言 命名實體識別(Named Entity Recognition,後文簡稱NER)是指從文字中識別具有特定類別的實體(通常是名詞),例如人名、地名、機構名、專有名詞等。命名實體識別是資訊檢索,查詢分類,自動問答等問題的基礎任務,其效果直接影響後續處理的效果,因此是自然語言處理研究的一個基礎問題。 傳統

用深度神經網路處理NER命名實體識別問題

本文結構: 什麼是命名實體識別(NER) 怎麼識別? cs224d Day 7: 專案2-用DNN處理NER問題 課程專案描述地址 什麼是NER? 命名實體識別(NER)是指識別文字中具有特定意義的實體,主要包括人名、地名、機構名、專有