騰訊AI Lab開源大規模高質量中文詞向量資料,800萬中文詞隨你用
本文由機器之心經授權轉載自 ofollow,noindex" target="_blank">騰訊AI實驗室 ,未經授權禁止二次轉載。
今日,騰訊AI Lab 宣佈開源大規模、高質量的中文詞向量資料。該資料包含800多萬中文詞彙,相比現有的公開資料,在覆蓋率、新鮮度及準確性上大幅提高,為對話回覆質量預測和醫療實體識別等自然語言處理方向的業務應用帶來顯著的效能提升。針對業界現有的中文詞向量公開資料的稀缺和不足,騰訊 AI Lab此次開源,可為中文環境下基於深度學習的自然語言處理(NLP)模型訓練提供高質量的底層支援,推動學術研究和工業應用環境下中文NLP任務效果的提升。
資料下載地址: https://ai.tencent.com/ailab/nlp/embedding.html
近年來,深度學習技術在自然語言處理領域中得到了廣泛應用。基於 深度神經網路 的模型已經在詞性標註、命名實體識別、情感分類等諸多工上顯著超越了傳統模型。用深度學習技術來處理自然語言文字,離不開文字的向量化,即把一段文字轉化成一個n維的向量。在大量任務中,作為千變萬化的文字向量化網路架構的共同底層,嵌入層(Embedding Layer)負責詞彙(文字的基本單元)到向量(神經網路計算的核心物件)的轉換,是自然語言通向 深度神經網路 的入口。大量的學界研究和業界實踐證明,使用大規模高質量的詞向量初始化嵌入層,可以在更少的訓練代價下得到效能更優的深度學習模型。
目前,針對英語環境,工業界和學術界已釋出了一些高質量的詞向量資料,並得到了廣泛的使用和驗證。其中較為知名的有谷歌公司基於word2vec演算法[1]、斯坦福大學基於GloVe演算法[2]、Facebook基於fastText專案[3]釋出的資料等。然而,目前公開可下載的中文詞向量資料[3,4]還比較少,並且資料的詞彙覆蓋率有所不足,特別是缺乏很多短語和網路新詞。
騰訊AI Lab詞向量的特點
騰訊AI Lab此次公開的中文詞向量資料包含800多萬中文詞彙,其中每個詞對應一個200維的向量。相比現有的中文詞向量資料,騰訊AI Lab的中文詞向量著重提升了以下3個方面,相比已有各類中文詞向量大大改善了其質量和可用性:
⒈ 覆蓋率(Coverage):
該詞向量資料包含很多現有公開的詞向量資料所欠缺的短語,比如“不念僧面唸佛面”、“冰火兩重天”、“煮酒論英雄”、“皇帝菜”、“喀拉喀什河”等。以“喀拉喀什河”為例,利用騰訊AI Lab詞向量計算出的語義相似詞如下:
墨玉河、和田河、玉龍喀什河、白玉河、喀什河、葉爾羌河、克里雅河、瑪納斯河
⒉ 新鮮度(Freshness):
該資料包含一些最近一兩年出現的新詞,如“戀與製作人”、“三生三世十里桃花”、“打call”、“十動然拒”、“供給側改革”、“因吹斯汀”等。以“因吹斯汀”為例,利用騰訊AI Lab詞向量計算出的語義相似詞如下:
一顆賽艇、因吹斯聽、城會玩、厲害了word哥、emmmmm、扎心了老鐵、神吐槽、可以說是非常爆笑了
⒊ 準確性(Accuracy):
由於採用了更大規模的訓練資料和更好的訓練演算法,所生成的詞向量能夠更好地表達詞之間的語義關係,如下列相似詞檢索結果所示:
得益於覆蓋率、新鮮度、準確性的提升,在內部評測中,騰訊AI Lab提供的中文詞向量資料相比於現有的公開資料,在相似度和相關度指標上均達到了更高的分值。在騰訊公司內部的對話回覆質量預測和醫療實體識別等業務場景中,騰訊AI Lab提供的中文詞向量資料都帶來了顯著的效能提升。
騰訊AI Lab詞向量的構建
為了生成高覆蓋率、高新鮮度、高準確性的詞向量資料,騰訊AI Lab主要從以下3個方面對詞向量的構建過程進行了優化:
⒈ 語料採集:
訓練詞向量的語料來自騰訊新聞和天天快報的新聞語料,以及自行抓取的網際網路網頁和小說語料。大規模多來源語料的組合,使得所生成的詞向量資料能夠涵蓋多種型別的詞彙。而採用新聞資料和最新網頁資料對新詞建模,也使得詞向量資料的新鮮度大為提升。
⒉ 詞庫構建:
除了引入維基百科和百度百科的部分詞條之外,還實現了Shi等人於2010年提出的語義擴充套件演算法 [5],可從海量的網頁資料中自動發現新詞——根據詞彙模式和超文字標記模式,在發現新詞的同時計算新詞之間的語義相似度。
⒊ 訓練演算法:
騰訊AI Lab採用自研的Directional Skip-Gram (DSG)演算法 [6] 作為詞向量的訓練演算法。DSG演算法基於廣泛採用的詞向量訓練演算法Skip-Gram (SG),在文字視窗中詞對共現關係的基礎上,額外考慮了詞對的相對位置,以提高詞向量語義表示的準確性。
此份中文詞向量資料的開源,是騰訊AI Lab依託公司資料來源優勢,對自身基礎AI能力的一次展示,將為中文環境下基於深度學習的NLP模型訓練提供高質量的底層支援,推動學術研究和工業應用環境下中文NLP任務效果的提升。
除釋出此份中文詞向量資料外,騰訊AI Lab長期以來在文字表示學習方面有著持續的投入,相關研究成果近期在ACL、EMNLP、IJCAI等自然語言處理及人工智慧頂級會議上發表[7,8,9,10],並被應用於多個落地場景。未來,騰訊AI Lab將著眼於常規文字與社交媒體文字兩種不同的文字型別,繼續探索詞彙、片語/實體、句子/訊息、篇章/對話等各粒度文字物件的語義建模和理解,為自然語言處理領域的重要應用提供基礎支援。
[1] Tomas Mikolov, Ilya Sutskever, Kai Chen, Gregory S. Corrado, and Jeffrey Dean:Distributed Representations of Words and Phrases and their Compositionality. NIPS 2013.
[2] Jeffrey Pennington,Richard Socher, andChristopher D. Manning.GloVe: Global Vectors for Word Representation. EMNLP 2014.
[3] P. Bojanowski, E. Grave, A. Joulin, T. Mikolov, Enriching Word Vectors with Subword Information. TACL 2017 (5).
[4] Shen Li, Zhe Zhao, Renfen Hu, Wensi Li, Tao Liu, Xiaoyong Du. Analogical Reasoning on Chinese Morphological and Semantic Relations. ACL 2018.
[5] Shuming Shi, Huibin Zhang, Xiaojie Yuan, and Ji-Rong Wen. Corpus-based Semantic Class Mining: Distributional vs. Pattern-Based Approaches. COLING 2010.
[6] Yan Song, Shuming Shi, Jing Li, and Haisong Zhang. Directional Skip-Gram: Explicitly Distinguishing Left and Right Context for Word Embeddings. NAACL 2018.
[7] Jialong Han, Yan Song, Wayne Xin Zhao, Shuming Shi, and Haisong Zhang. hyperdoc2vec: Distributed Representations of Hypertext Documents. ACL 2018.
[8] Jichuan Zeng, Jing Li, Yan Song, Cuiyun Gao, Michael R. Lyu, and Irwin King. Topic Memory Networks for Short TextClassification. EMNLP 2018.
[9] Yan Song and Shuming Shi. Complementary Learning of Word Embeddings. IJCAI 2018.
[10] Yan Song, Shuming Shi, and Jing Li. Joint Learning Embeddings for Chinese Words and their Components via Ladder Structured Networks. IJCAI 2018.
本文由機器之心經授權轉載自 騰訊AI實驗室 ,原文連結: https://mp.weixin.qq.com/s/2StourAzxe-gCZOM5YXiAw