1. 程式人生 > >史上最全的中文詞彙資料集

史上最全的中文詞彙資料集

        騰訊正式開源一個大規模、高質量的中文詞向量資料集。資料集中有800多萬中文詞彙,相比現有搜狗實驗室,清華和哈工大公佈的語料庫,覆蓋率、新鮮度及準確性上有大幅的提高。

1、介紹

        該語語料庫給超過800萬個中文單詞和短語提供了200維向量,有了這些詞向量我們可以輕鬆的用於計算餘弦相似度,海明距離,詞向量距離等,可以廣泛應用與具體的NLP處理、人工智慧方向的應用。

        與現有的漢語嵌入語料庫相比,語料庫的優越性主要在於覆蓋率,新鮮度和準確性。

        (1)覆蓋率。語料庫包含大量特定領域的詞彙或詞彙俚語,如“喀拉喀什河”,“皇帝菜”,“不念僧面唸佛面”,“冰火兩重天”,“煮酒論”英雄“,大多數現有的嵌入語料庫都沒有涵蓋。

        (2)新鮮度。語料庫包含最近出現或流行的新詞,如“戀與製作人”,“三生三世十里桃花”,“打電話”,“十動然拒”,“因吹斯汀”等。

        (3)準確性。可以更好地嵌入中文單詞或短語的語義,這都歸因於大規模資料和精心設計的訓練演算法。

2、train

        (1)資料來源。訓練的資料包含從新聞,網頁和小說收集的大型文字。來自不同域的文字資料使得能夠覆蓋各種型別的單詞和短語。此外,最近收集的網頁和新聞資料能夠學習最新的語義表示。

        (2)詞彙建設。為了豐富的詞彙,我們涉及維基百科和百度百科優質的短語。用這些語料進行充分發掘中,使用的分散式叢集進行訓練,極大的增加了AI訓練的算力,最大限度的增強了新新短語的覆蓋範圍。

       (3)訓練演算法。我們的語料庫使用Directional Skip-Gram演算法進行訓練:明確區分用於單詞嵌入的左右上下文,其基於單詞共現和單詞對的方向,即在上下文視窗中哪個單詞在左側。

3、使用效果

       用詞向量計算餘弦相似度求解詞語的相似度,看看效果:

4、感謝

       當前中文語料是十分匱乏的,搜狗實驗室分享了批新聞語料,但獲取難度和整理成本實在太大。清華和哈工大也分享了批語料但太少,以至於我有時需要把英文語料翻譯成中文使用,感謝騰訊開源瞭如此大規模的中文分詞資料集,我相信這對工業界還是學術界將啟動良好的促進作用。

5、傳送門

        獲取資料集地址:https://item.taobao.com/item.htm?spm=a1z10.1-c.w4004-20016008650.12.77d41edeF3D9kg&id=580138201544

請多多支援,謝謝!