1. 程式人生 > >資源 | 騰訊開源800萬中文詞的NLP資料集

資源 | 騰訊開源800萬中文詞的NLP資料集

640?wx_fmt=png

本文經AI新媒體量子位(公眾號ID:qbitai)授權轉載,轉載請聯絡出處。

本文約1200字,建議閱讀6分鐘。

本文為你介紹鵝廠近期正式開源的一個大規模、高質量的中文詞向量資料集。


鵝廠開源,+1 again~


又一來自騰訊AI實驗室的資源帖。


騰訊AI實驗室宣佈,正式開源一個大規模、高質量的中文詞向量資料集。


該資料集包含800多萬中文詞彙,相比現有的公開資料,在覆蓋率、新鮮度及準確性上大幅提高。


在對話回覆質量預測、醫療實體識別等自然語言處理方向的業務應用方面,騰訊內部效果提升顯著。


640?wx_fmt=jpeg


資料集特點


總體來講,騰訊AI實驗室此次公開的中文詞向量資料集包含800多萬中文詞彙,其中每個詞對應一個200維的向量。


具體方面,騰訊自稱,該資料集著重在3方面進行了提升:


1. 覆蓋率(Coverage):


該詞向量資料包含很多現有公開的詞向量資料所欠缺的短語,比如“不念僧面唸佛面”、“冰火兩重天”、“煮酒論英雄”、“皇帝菜”、“喀拉喀什河”等。


以“喀拉喀什河”為例,利用騰訊AI Lab詞向量計算出的語義相似詞如下:


墨玉河、和田河、玉龍喀什河、白玉河、喀什河、葉爾羌河、克里雅河、瑪納斯河


2. 新鮮度(Freshness):


該資料包含一些最近一兩年出現的新詞,如“戀與製作人”、“三生三世十里桃花”、“打call”、“十動然拒”、“供給側改革”、“因吹斯汀”等。


以“因吹斯汀”為例,利用騰訊AI Lab詞向量計算出的語義相似詞如下:


一顆賽艇、因吹斯聽、城會玩、厲害了word哥、emmmmm、扎心了老鐵、神吐槽、可以說是非常爆笑了


3. 準確性(Accuracy):


由於採用了更大規模的訓練資料和更好的訓練演算法,所生成的詞向量能夠更好地表達詞之間的語義關係,如下列相似詞檢索結果所示:


640?wx_fmt=jpeg


在開源前,騰訊內部經歷了多次測評,認為該資料集相比於現有的公開資料,在相似度和相關度指標上均達到了更高的分值。


資料集構建經驗


那麼這樣的資料集,騰訊AI實驗室是如何構建的呢?


他們圍繞3方面分享了構建及優化經驗:


1. 語料採集:


訓練詞向量的語料來自騰訊新聞和天天快報的新聞語料,以及自行抓取的網際網路網頁和小說語料。


大規模多來源語料的組合,使得所生成的詞向量資料能夠涵蓋多種型別的詞彙。


而採用新聞資料和最新網頁資料對新詞建模,也使得詞向量資料的新鮮度大為提升。


2. 詞庫構建:


除了引入維基百科和百度百科的部分詞條之外,還實現了Shi等人於2010年提出的語義擴充套件演算法,可從海量的網頁資料中自動發現新詞——根據詞彙模式和超文字標記模式,在發現新詞的同時計算新詞之間的語義相似度。


3. 訓練演算法:


騰訊AI Lab採用自研的Directional Skip-Gram (DSG)演算法作為詞向量的訓練演算法。


DSG演算法基於廣泛採用的詞向量訓練演算法Skip-Gram (SG),在文字視窗中詞對共現關係的基礎上,額外考慮了詞對的相對位置,以提高詞向量語義表示的準確性。


640?wx_fmt=jpeg


意義


最後,表揚一下鵝廠的開源之舉。


目前針對英語環境,工業界和學術界已釋出了一些高質量的詞向量資料,並得到了廣泛的使用和驗證。


其中較為知名的有谷歌公司基於word2vec演算法、斯坦福大學基於GloVe演算法、Facebook基於fastText專案釋出的資料等。


然而,目前公開可下載的中文詞向量資料還比較少,並且資料的詞彙覆蓋率有所不足,特別是缺乏很多短語和網路新詞。


所以有資源有能力的騰訊,還有心做這樣的事情,對業界實屬利好。


希望騰訊AI實驗室的開源之舉,多多益善吧~


傳送門


資料下載地址:

https://ai.tencent.com/ailab/nlp/embedding.html


— 完 —


640?wx_fmt=png640?wx_fmt=jpeg