1. 程式人生 > >同義替換:哈工大同義詞詞林擴充套件版

同義替換:哈工大同義詞詞林擴充套件版

一、前言

《同義詞詞林》是梅家駒等人於1983年編纂而成,年代較為久遠,對於目前的使用不太適合,哈工大實驗室基於該詞林進行擴充套件,完成了詞林擴充套件版。
下載地址:https://www.ltp-cloud.com/download/

二、使用說明

擴充套件版同義詞詞林分為5層結構,

隨著級別的遞增,詞義刻畫越來越細,到了第五層,每個分類裡詞語數量已經不大,很多隻有一個詞語,已經不可再分,可以稱為原子詞群、原子類或原子節點。不同級別的分類結果可以為自然語言處理提供不同的服務,例如第四層的分類和第五層的分類在資訊檢索、文字分類、自動問答等研究領域得到應用。有研究證明,對詞義進行有效擴充套件,或者對關鍵詞做同義詞替換可以明顯改善資訊檢索、文字分類和自動問答系統的效能。
這裡寫圖片描述

下載後的詞典檔案如下所示:

Aa01A01= 人 士 人物 人士 人氏 人選
Aa01A02= 人類 生人 全人類
Aa01A03= 人手 人員 人口 人丁 口 食指
Aa01A04= 勞力 勞動力 工作者
Aa01A05= 匹夫 個人

上述檔案編碼代表含義見圖:
這裡寫圖片描述

表中的編碼位是按照從左到右的順序排列。第八位的標記有3 種,分別是“=”、“#”、“@”, “=”代表“相等”、“同義”。末尾的“#”代表“不等”、“同類”,屬於相關詞語。末尾的“@”代表“自我封閉”、“獨立”,它在詞典中既沒有同義詞,也沒有相關詞。

三、其他