1. 程式人生 > >用深度學習做命名實體識別(三):文字資料標註過程

用深度學習做命名實體識別(三):文字資料標註過程

上一篇文章,我們介紹了brat的安裝和配置,當成功安裝和配置好了brat,我們就可以進行文字標註了。

首先,在brat專案的data目錄下新建一個project目錄,然後在brat專案的主目錄下找到以下檔案,複製到project目錄:

  • 主目錄:/var/www/html/brat

  • project目錄:/var/www/html/brat/data/project

  • 要複製的檔案:

我們來看一下這幾個檔案分別是做什麼的。

  • annotation.conf
    這個是配置檔案,內容如下:
[entities]
# Definition of entities.
# Format is a simple list with one type per line.
時間
地點
人名
組織名
公司名
產品名

 

  • visual.conf

這也是配置檔案,可以配置不同的類別用不同的顏色顯示,找到如下段落,更新內容:

[drawing]
時間 bgColor:yellow
地點 bgColor:blue, fgColor:white
人名 bgColor:deepskyblue
組織名 bgColor:green, fgColor:white
公司名 bgColor:purple, fgColor:white
產品名 bgColor:pink

 

  • mayun.txt

這是我們要標註的原檔案,裡面的內容片段如下(這裡已經根據句號進行過分句處理,是因為不希望每個訓練樣本太長,建議控制在500字元內):

1964年9月10日,馬雲出生在杭州。
幼年的馬雲在人們的眼中是典型的壞孩子:叛逆、倔強、愛打架、逞強、頑皮淘氣。
馬雲的父親雖然是典型的江南人,但脾氣卻很火暴,馬雲從小在父親拳腳下長大。
馬雲是看金庸的武俠小說長大的,行俠仗義、打抱不平的“俠義”情結在少年馬雲的內心深處早已生根、萌芽。

 

mayun.ann是一個空檔案,使用brat對mayun.txt的標註結果,會記錄在ann檔案中。

此時我們通過瀏覽器訪問brat專案介面,開啟project目錄下的mayun.txt檔案(記得要先登入),看到的介面如下:

然後我們選擇目標實體,比如“馬雲”,進行實體類別標註,效果如下:

此時,你可以邀請其他人用他們的帳號登入brat,也開啟這個txt,和你一起標註。
標註之後,再看看ann檔案內容,如下:

  • T1,T2所在的列,表示標註的型別和序號,比如如果是標註的實體間的關係會用R表示,這裡因為只討論命名實體,不涉及實體間的關係,所以只要知道這個T表示什麼就可以了;
  • 人名,公司名所在列表示標註詞彙的實體類別;
  • 第三、四列是標註詞彙在整個txt中的起始和(結束索引+1)
  • 最後一列是就是標註的詞彙列

標註完成後,我們就有了mayun.txt和mayun.ann兩個對應的檔案。關於如何使用這兩個檔案,將在下一篇《用深度學習做命名實體識別(四):模型訓練》中介紹。

ok,本篇就這麼多內容啦~,感謝閱讀O(∩_∩)O,88~

&n