論文閱讀筆記：《Contextual String Embeddings for Sequence Labeling》

阿新 • • 發佈：2018-11-14

文章引起我關注的主要原因是在CoNLL03 NER的F1值超過BERT達到了93.09左右，名副其實的state-of-art。考慮到BERT訓練的資料量和引數量都極大，而該文方法只用一個GPU訓了一週，就達到了state-of-art效果，值得花時間看看。

一句話總結：使用BiLSTM模型，用動態embedding取代靜態embedding，character-level的模型輸出word-level的embedding. 每個詞的embedding和具體任務中詞所在的整句sequence都有關，算是解決了固定embedding在一詞多義方面的短板，綜合了上下文資訊。

文章重點內容記錄：

目前三種主流embedding:

A. 經典embedding

B. character-level 基於特定任務的embedding，不需要預訓練，與任務的訓練過程同步完成

C. 基於上下文的，由深度LSTM各層hidden state的線性組合而成的embedding

本文模型特點：

A. 模型以character為原子單位，在網路中，每個character都有一個對應的hidden state. -- 這個特點對需要多一步分詞的中文來說可能有避免分詞錯誤導致下游function繼續錯誤的弊端。

B. 輸出以word為單位的embedding, 這個embbeding由前向LSTM中，該詞最後一個字母的hidden state 和反向LSTM中該詞第一個字母的hidden state拼接組成，這樣就能夠兼顧上下文資訊。具體說明見下圖：

實驗結果：

表格中PROPOSED表示文中提出的embedding, word代表經典預訓練embedding, char表示任務相關的embedding，可以看出本文的動態embedding + 經典預訓練embedding的組合最有效，char-embedding加不加基本沒有影響。

模型訓練相關引數：

語料庫：英文 - 10億詞語料庫德文-5億詞語料庫

訓練過程： 1個GPU跑了一週

時間效能：

10個單詞左右句子產生embedding需要10ms左右，20個單詞句子基本就漲到20ms，對生產環境來說勉強可以接受。

正在嘗試訓一版中文動態embedding, 稍晚會補充結果。

如果有理解不到位的地方，歡迎指正。

原創文章，轉載請註明出處。

論文閱讀筆記：《Contextual String Embeddings for Sequence Labeling》

論文閱讀筆記：《Contextual String Embeddings for Sequence Labeling》

人臉識別網路mobilefacenet,的改進介紹論文閱讀筆記：MobileFaceNets: Efficient CNNs for Accurate RealTime Face Verification on Mobile Devices

論文閱讀筆記：Perceptual Losses for Real-Time Style Transfer and Super-Resolution

ECCV 2018 論文閱讀筆記——Acquisition of Localization Confidence for Accurate Object Detection

[論文閱讀筆記]Two-Stream Convolutional Networks for Action Recognition in Videos

論文閱讀筆記——《Crafting a Toolchain for Image Restoration by Deep Reinforcement Learning》

論文閱讀 | FPN：Feature Pyramid Networks for Object Detection

論文閱讀筆記：SSD: Single Shot MultiBox Detector

[論文閱讀筆記]U-Net: Convolutional Networks for Biomedical Image Segmentation

圖割論文閱讀筆記：Min-cut/Max-flow

[論文閱讀筆記] metapath2vec: Scalable Representation Learning for Heterogeneous Networks

[論文閱讀筆記] node2vec Scalable Feature Learning for Networks

論文閱讀筆記《The Contextual Loss for Image Transformationwith Non-Aligned Data》（ECCV2018 oral）

論文閱讀筆記十八：ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation

論文閱讀筆記二十：LinkNet: Exploiting Encoder Representations for Efﬁcient Semantic Segmentation(CVPR2017)

論文閱讀筆記二十三：Rich feature hierarchies for accurate object detection and semantic segmentation Tech report(R-CNN CVPR2014)

論文閱讀筆記二十四：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition（SPPNet CVPR2014）

論文閱讀筆記二十九：One pixel attack for fooling deep neural networks（CVPR2017）

part-aligned系列論文：1707.Deep Representation Learning with Part Loss for Person ReID 論文閱讀筆記

論文閱讀筆記（二十二）：Feature Pyramid Networks for Object Detection（FPN）

論文閱讀筆記：《Contextual String Embeddings for Sequence Labeling》

相關推薦