1. 程式人生 > >【論文筆記】《基於深度學習的中文命名實體識別研究》閱讀筆記

【論文筆記】《基於深度學習的中文命名實體識別研究》閱讀筆記

作者及其單位:北京郵電大學,張俊遙,2019年6月,碩士論文

摘要

實驗資料:來源於網路公開的新聞文字資料;用隨機欠取樣和過取樣的方法解決分類不均衡問題;使用BIO格式的標籤識別5類命名實體,標註11種標籤。

學習模型:基於RNN-CRF框架,提出Bi-GRU-Attention模型;基於改進的ELMo可移植模型。

一,緒論

1,研究背景及意義

研究背景主要介紹的是時代背景及NER的應用領域。

2,研究現狀

1)基於規則和詞典的方法;

2)基於統計的方法:語言的N元模型,隱馬爾科夫模型,最大熵模型,條件隨機場,支援向量機,決策樹,基於轉換的學習方法;

3)基於深度學習的方法:基於雙向迴圈神經網路與條件隨機場結合的框架;基於標籤轉移與視窗滑動的方法;注意力機制(Attention

);

4)基於遷移學習的方法。

面臨挑戰:

1)中文命名實體界限難劃分;

2)中文命名實體結構更多樣複雜;

3)中文命名實體分類標準不同,劃分標註結果不同。

3,研究內容

1)資料集收集與預處理;

2)基於雙向迴圈神經網路與條件隨機場模型的研究;

3)基於ELMo的可移植模型研究。

二,相關技術

1,基於迴圈神經網路方法的技術

1)神經單元結構:迴圈是指一個神經單元的計算是按照時間順序展開依次進行的過程。具有記憶特徵,常用來處理與序列相關的問題。

2)迴圈神經網路的發展:LSTM取代CNN,主要是解決CNN單元的反向傳播的計算問題。

3)深層網路搭建:Dropout常被用作防止模型過擬合,減少網路冗餘度,增加模型魯棒性;批量歸一化策略是批量梯度下降演算法過程的一項操作;clip

是一種有效控制梯度爆炸的演算法。

4)目標函式,即損失函式,衡量經過模型計算的預測結果和事實上的結果之間的差距。如:平方差,交叉熵,softmax

5)注意力機制:論文研究了在LSTM中引入注意力機制。

6)Adam優化演算法:適合解決梯度稀疏或噪音較高的優化問題。

2,基於遷移學習方法的技術

1)基本思想:

(1)預訓練的兩種基本思路:

a)基於共同表示形式的思路:電子文字大多以某種向量形式(詞,句,段,文字)表示輸入到網路中,如ELMo模型。

b)基於網路微調的思想:借鑑機器視覺領域的模型思想,在預訓練好的模型上加入針對任務的功能層,在對後幾層進行結構和引數設定的精調。

2)語言模型:雙向語言模型

3)詞向量技術:One-hot向量,稀疏向量和稠密向量。

(1)基於統計的方法

a)基於共現矩陣的方法:在設定的視窗大小內,統計了一個句子中詞語前後相鄰出現的次數,使用這個次數構成的向量當作詞向量,這個向量比較稀疏。

b)奇異值分解的方法:可以看作一種降維過程,把稀疏矩陣壓縮為稠密矩陣的過程。

(2)基於語言模型的方法:

a)跳字模型(skip-gram):使用一個詞來預測上下文詞語;

b)連續詞袋模型(CBOW):使用周圍詞語預測中心詞;

c)ELMo模型:詞向量表達過程是動態的,即一詞多義下的詞向量完全不同。

4)混淆矩陣:資料科學,資料分析和機器學習中統計分類的實際結果和預測結果的表格表示。

三,命名實體識別任務與資料集

1,命名實體識別任務

1)定義:命名實體識別屬於序列標註類問題,分為三大類(實體類,數量類,時間類),七小類(人名,地名,組織名,日期,時間,貨幣或者百分比)。

2)任務過程:準確劃分出命名實體的邊界,並將命名實體進行正確的分類。

3)判別標準:(1)準確劃分出命名實體的邊界;(2)命名實體的標註分類正確;(3)命名實體內部位置標註有序。
$$
準確率=\frac{標註結果正確的數量}{標註結果的數量}\times{100%} \召回率=\frac{標註命名實體正確的數量}{標註命名實體的數量}\times{100%}\F_1=\frac{(\beta^{2}+1)\times 準確率\times 召回率}{(\beta^{2}\times 準確率) + 召回率}\times{100%}
$$

2,資料集收集與處理

1)資料來源:本論文資料來源於搜狗實驗室公開的2012年6月到7月期間的國內外國際、體育、社會、娛樂等18類新聞文字。

2)資料處理:jieba+盤古工具,本文研究NER分為五類:人名(58136),地名(87412),機構名(5142),時間(75491),數量(148392)。資料集(句子個數)分:訓練集(197828),驗證集(8994),測試集(3485)。

四,基於改進的神經網路與注意力機制結合的研究

1,RNN-CRF框架

1)框架結構:以Bi-LSTM-CRF模型為例,包括字嵌入層(字量化表示,輸入到神經網路),Bi-LSTM神經網路層(雙向網路記錄了上下文資訊,據此共同訓練計算當前的字的新向量表示,其輸出字或詞的向量維度與神經單元數量有關),CRF層(進行進一步標籤順序的規則學習)。

2)模型原理:將輸入的語句轉換為詞向量,然後輸入到LSTM網路計算,接著在CRF層中計算輸出標籤,根據定義的目標函式計算損失,使用梯度下降等演算法更新模型中的引數。

2,改進與設計

1)改進的思想與結構設計:改進思路就是簡化神經單元結構,本文使用雙向的GRU結構代替LSTM單元結構,使用神經網路與注意力機制結合。

2)改進的模型設計

3,實驗與分析

1)實驗思路是以Bi-LSTM-CRF為基礎,並進行網路優化,對比本文提出的Bi-GRU-Attention模型。

實驗一:Bi-LSTM網路引數

引數名稱 數值
batch_size 20
max_num_steps 20
優化器 Admin
初始學習率 0.001
衰減率 0.8
clip 5
one-hot_dim 11

實驗二:GRU-Attention模型實驗引數

引數 數值
batch_size 20
char_dim 100
max_num_steps 20
神經單元數 128
優化器 Adam
初始學習率 0.001
衰減率 0.8
one-hot_dim 11
epoch 100

實驗結果如下:

分類/F1/模型 Bi-LSTM-CRF Bi-LSTM-Attention Bi-GRU-CRF Bi-GRU-Attention
人名 82.32% 82.45% 82.22% 82.42%
地名 89.97% 90.19% 89.93% 91.06%
機構名 91.94% 91.96% 91.94% 91.95%
數量 94.98% 95.06% 95.01% 95.26%
時間 96.05% 96.14% 96.06% 96.14%

五,基於ELMo的可移植模型研究

1,改進的ELMo模型設計

ELMo模型在2018年由Peter提出,Peter團隊使用雙層的迴圈神經網路實現模型的預先訓練。本章基於PeterELMo模型設計,提出了直通結構,實現詞向量的提前訓練模型。

1)模型原理:Peters使用CNN-BIG-LSTM網路實現模型,使用卷積神經網路實現字元編碼,使用兩層雙向迴圈神經網路實現詞向量的訓練模型。

2)改進與設計:本文使用改進的ELMo預先訓練模型包含輸入層,卷積神經網路7層,雙向神經網路2層,輸出層結構。

2,基於ELMo的嵌入式模型設計

1)連線結構:在模型嵌入的銜接層中,本文使用維度對映的方法,將不同維度的輸入輸出維度進行統一。

2)模型設計:本文的嵌入ELMo模型,包含ELMo層,銜接層,神經網路層,注意力層和輸出調整層結構。

3,實驗

實驗引數配置如下:

1)ELMo模型實驗引數

引數名稱 數值
word_dim 100
char_dim 50
activation ReLU
每層神經單元數目 512
優化器 Adam
初始學習率 0.001
lr_decay 0.8
clip 3

2)卷積神經網路引數

卷積層 輸出詞向量維度 過濾器個數
conv1 32 32
conv2 32 32
conv3 64 64
conv4 128 128
conv5 256 256
conv6 512 512
conv7 1024 1024

3)移植模型實驗引數

引數名稱 數值
batch_size 20
char_dim 100
max_num_steps 20
神經單元數 128
優化器 Adam
初始化學習率 0.001
clip 5
dropout 0.1
one-hot_dim 11
epoch 100

實驗結果對比:

分類/F1/模型 Bi-LSTM-CRF Bi-GRU-Attention 改進的ELMo嵌入模型
人名 82.32% 82.42% 83.14%
地名 89.97% 91.06% 92.36%
機構名 91.94% 91.95% 93.02%
數量 94.98% 95.26% 96.13%
時間 96.05% 96.14% 96.55%

六,總結與展望

1,總結

本文主要研究了基於深度學習的中文命名實體識別任務,提出了Bi-GRU-Attention模型減少訓練時間,提升模型準確率;提出了基於改進的ELMo可移植模型,用於應對少量資料集和快速移植不同場景的問題。

2,不足與發展趨勢

1)公開的權威的中文文字資料集不足;

2)可以劃分更細的領域或分類,分別涉及分類器;

3)基於遷移學習的多工模型研究是熱點。

閱讀心得:緒論內容相對詳細,結構中規中矩,美中不足缺乏對研究物件現狀的介紹,國內外研究現狀,要解決的問題以及達到的預期效果未盡闡述。技術要點論述詳盡,本文設計實驗充分且多角度論證,擴充套件實驗與改進設計也具有一定創新性。通過本篇論文研究學習,在NER領域收穫頗多,很多知識有待彌補,如ELMo模型,遷移學習方面需要加強學習。

本文由部落格群發一文多發等運營工具平臺 OpenWrite 釋出