資源 | 騰訊開源800萬中文詞的NLP資料集

阿新 • • 發佈：2018-11-01

640?wx_fmt=png

本文經AI新媒體量子位（公眾號ID：qbitai）授權轉載，轉載請聯絡出處。

本文約1200字，建議閱讀6分鐘。

本文為你介紹鵝廠近期正式開源的一個大規模、高質量的中文詞向量資料集。

鵝廠開源，+1 again~

又一來自騰訊AI實驗室的資源帖。

騰訊AI實驗室宣佈，正式開源一個大規模、高質量的中文詞向量資料集。

該資料集包含800多萬中文詞彙，相比現有的公開資料，在覆蓋率、新鮮度及準確性上大幅提高。

在對話回覆質量預測、醫療實體識別等自然語言處理方向的業務應用方面，騰訊內部效果提升顯著。

640?wx_fmt=jpeg

資料集特點

總體來講，騰訊AI實驗室此次公開的中文詞向量資料集包含800多萬中文詞彙，其中每個詞對應一個200維的向量。

具體方面，騰訊自稱，該資料集著重在3方面進行了提升：

1. 覆蓋率（Coverage）：

該詞向量資料包含很多現有公開的詞向量資料所欠缺的短語，比如“不念僧面唸佛面”、“冰火兩重天”、“煮酒論英雄”、“皇帝菜”、“喀拉喀什河”等。

以“喀拉喀什河”為例，利用騰訊AI Lab詞向量計算出的語義相似詞如下：

墨玉河、和田河、玉龍喀什河、白玉河、喀什河、葉爾羌河、克里雅河、瑪納斯河

2. 新鮮度（Freshness）：

該資料包含一些最近一兩年出現的新詞，如“戀與製作人”、“三生三世十里桃花”、“打call”、“十動然拒”、“供給側改革”、“因吹斯汀”等。

以“因吹斯汀”為例，利用騰訊AI Lab詞向量計算出的語義相似詞如下：

一顆賽艇、因吹斯聽、城會玩、厲害了word哥、emmmmm、扎心了老鐵、神吐槽、可以說是非常爆笑了

3. 準確性（Accuracy）：

由於採用了更大規模的訓練資料和更好的訓練演算法，所生成的詞向量能夠更好地表達詞之間的語義關係，如下列相似詞檢索結果所示：

640?wx_fmt=jpeg

在開源前，騰訊內部經歷了多次測評，認為該資料集相比於現有的公開資料，在相似度和相關度指標上均達到了更高的分值。

資料集構建經驗

那麼這樣的資料集，騰訊AI實驗室是如何構建的呢？

他們圍繞3方面分享了構建及優化經驗：

1. 語料採集：

訓練詞向量的語料來自騰訊新聞和天天快報的新聞語料，以及自行抓取的網際網路網頁和小說語料。

大規模多來源語料的組合，使得所生成的詞向量資料能夠涵蓋多種型別的詞彙。

而採用新聞資料和最新網頁資料對新詞建模，也使得詞向量資料的新鮮度大為提升。

2. 詞庫構建：

除了引入維基百科和百度百科的部分詞條之外，還實現了Shi等人於2010年提出的語義擴充套件演算法，可從海量的網頁資料中自動發現新詞——根據詞彙模式和超文字標記模式，在發現新詞的同時計算新詞之間的語義相似度。

3. 訓練演算法：

騰訊AI Lab採用自研的Directional Skip-Gram (DSG)演算法作為詞向量的訓練演算法。

DSG演算法基於廣泛採用的詞向量訓練演算法Skip-Gram (SG)，在文字視窗中詞對共現關係的基礎上，額外考慮了詞對的相對位置，以提高詞向量語義表示的準確性。

640?wx_fmt=jpeg

意義

最後，表揚一下鵝廠的開源之舉。

目前針對英語環境，工業界和學術界已釋出了一些高質量的詞向量資料，並得到了廣泛的使用和驗證。

其中較為知名的有谷歌公司基於word2vec演算法、斯坦福大學基於GloVe演算法、Facebook基於fastText專案釋出的資料等。

然而，目前公開可下載的中文詞向量資料還比較少，並且資料的詞彙覆蓋率有所不足，特別是缺乏很多短語和網路新詞。

所以有資源有能力的騰訊，還有心做這樣的事情，對業界實屬利好。

希望騰訊AI實驗室的開源之舉，多多益善吧~

傳送門

資料下載地址：

https://ai.tencent.com/ailab/nlp/embedding.html

— 完 —

640?wx_fmt=png 640?wx_fmt=jpeg

資源 | 騰訊開源800萬中文詞的NLP資料集

本文經AI新媒體量子位（公眾號ID：qbitai）授權轉載，轉載請聯絡出處。本文約1200字，建議閱讀6分鐘。本文為你介紹鵝廠近期正式開源的一個大規模、高質量的中文詞向量資料集。鵝廠開源，+1 again~ 又一來自騰訊AI實驗室的資源帖。

中文文字蘊含計算專案(88萬中文文字蘊含資料集+中文文字蘊含模型)

ChineseTextualInference ChineseTextualInference project including chinese corpus build and inferecence model, 中文文字推斷專案,包括88萬文字蘊含中文文字蘊含資料集的翻譯與構建,

Blade - 騰訊開源的構建系統 c/c++編譯環境

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

號稱幣圈微信的“幣應”涉抄襲被騰訊索賠1000萬！

內容概述 2018年10月30日訊息，據海淀法院網訊息，因認為幣應軟體全面抄襲微信，騰訊科技（深圳）有限公司、深圳市騰訊計算機系統有限公司以不正當競爭糾紛為由將幣應軟體開發商Chips Limited及運營商北京風氣雲飛科技有限公司訴至法院，要求判令Chips Limited停止侵權行為，

Omi 5.0.5 釋出，騰訊開源的下一代 Web 框架

Omi 5.0.5 已釋出，更新內容如下： [Fix] fix host [Add] supports defineElement for amd env, it's the same as define Omi 是騰訊開源的下一代 Web 框架，去萬物糟粕，合精

xLua 2.1.13 釋出，騰訊開源的手遊熱更新解決方案

新增特性新增AdaptByDelegate注入模式；新增xlua.get_generic_method，用於呼叫泛型函式；支援類似CS.System.Collections.Generic.List(CS.System.Int32)的泛型寫法；注入新選項

騰訊開源的Paxos庫PhxPaxos程式碼解讀---Prepare階段(一)

簡單的畫了一下PhxPaxos在Prepare階段的邏輯,主要是正常的邏輯,異常邏輯和超時後面再寫了; 熟悉PhxPaxos程式碼最好的方法是編譯執行sample目錄下的三個例子,編譯方法在另一篇部落格已經寫了,這裡忽略; 　　　　一: Proposor在Pre

騰訊開源手遊熱更新方案Xlua嚐鮮（三）——C#訪問Lua

C#訪問Lua 這裡指的是C#主動發起對Lua資料結構的訪問。一、獲取一個全域性基本資料型別訪問LuaEnv.Global就可以了，上面有個模版Get方法，可指定返回的型別。 luaenv.Global.Get<int>("a"); luaenv.Globa

騰訊開源的 Paxos庫 PhxPaxos 程式碼解讀---Accept階段(一)

騰訊開源的 Paxos庫 PhxPaxos 程式碼解讀---Accept階段(一) 在看Accept階段程式碼之前, 我們再回想一下 Basic Paxos演算法; 1. Basic Paxos 演算法是為了使叢集中的Acc

【騰訊開源】iOS爆記憶體問題解決方案-OOMDetector元件

元件介紹 OOMDetector是手Q自研的IOS記憶體監控元件，騰訊內部目前已有多個App接入了OOMDetector，它主要有以下兩個功能：爆記憶體堆疊統計：負責記錄程序記憶體分配堆疊和記憶體塊大小，在爆記憶體時Dump堆疊資料到磁碟記憶體洩漏檢測

【安卓-自定義佈局】安卓App開發思路一步一個腳印（十）實現內嵌在app中的webview 騰訊開源X5 高效安全

實現內嵌在app中的webview 採用騰訊開源X5 高效安全 webview在app的使用中，十分頻繁，原生的webview載入速度相對來說很慢，而且很費流量。騰訊開源了x5的webview

騰訊開源手遊熱更新方案Xlua嚐鮮（四）——Lua呼叫C#

new C#物件你在C#這樣new一個物件： var newGameObj = new UnityEngine.GameObject(); 對應到Lua是這樣： local newGameObj =CS.UnityEngine.GameObject() 基本類似，除了：

【騰訊開源】LivePool：基於Node.js的跨平臺Web抓包替換工具

LivePool 是一個基於 NodeJS，類似 Fiddler 能夠支援抓包和本地替換的 Web 開發除錯工具，是Tencent AlloyTeam 在開發實踐過程總結出的一套的便捷的工作流以及除錯方案。背景在 Windows 平臺上，Fiddler 作為一款非常便捷好用的 Web 除錯工具

騰訊開源手遊熱更新方案，Unity3D下的Lua程式設計

xLua是Unity3D下Lua程式設計解決方案，自2016年初推廣以來，已經應用於十多款騰訊自研遊戲，因其良好效能、易用性、擴充套件性而廣受好評。現在騰訊已經將xLua開源到GitHub。 2016年12月末，xLua剛剛實現新的突破：全平臺支援用Lua修復C#程式碼bug。目前Unity下的Lua熱

借騰訊開源 VasDolly，談談 Android 簽名和多渠道打包的原理！

一、前言 Hi，大家好，我是承香墨影！當我們需要釋出一款 App 到應用市場的時候，一般需要我們針對不同的市場生產不同的渠道包，它們使用的是同一套程式碼，只是會包含一些各自的渠道資訊，用於我們做資料分析。前幾天，企鵝電競團隊開源了自己的 And

聯邦學習開源框架FATE助力騰訊神盾沙箱，攜手打造資料安全合作生態

近日，微眾銀行聯邦學習FATE開源社群迎來了兩位新貢獻者——來自騰訊的劉洋及秦姝琦，作為雲端計算安全領域的專家，兩位為FATE構造

廣告行業中那些趣事系列7：實戰騰訊開源的文字分類專案NeuralClassifier

摘要：本篇主要分享騰訊開源的文字分類專案NeuralClassifier。雖然實際專案中使用BERT進行文字分類，但是在不同的場景下我們可能還需要使用其他的文字分類演算法，比如TextCNN、RCNN等等。通過NeuralClassifier開源專案我們可以方便快捷的使用這些模型。本篇並不會重點剖析某

基於騰訊雲CLB實現K8S v1.10.1集群高可用+負載均衡

開源可能管理平臺可用 st3 tab OS 1.10 style 概述：最近對K8S非常感興趣,同時對容器的管理等方面非常出色，是一款非常開源，強大的容器管理方案,最後經過1個月的本地實驗，最終決定在騰訊雲平臺搭建屬於我們的K8S集群管理平臺~ 采購之後已經在本

爬蟲自動抓取騰訊視訊評論 -- json的使用和資料解析

　　這周和大家分享下騰訊視訊評論抓取爬蟲，實際抓下來的資料裡面除了評論還有其他不少有價值的資訊，有部分使用者資料可以使用的，不過具體就看大家自己怎麼用了。　　這個demo的具體原始碼在最後面，下文將對這個demo的實現過程進行說明。　　其實我挺期待有人評

騰訊雲ClickHouse如何實現自動化的資料均衡？

一、引言 ClickHouse 是一個用於聯機分析( OLAP )的列式資料庫管理系統( DBMS )。它於 2016 年以 Apache 2.0 協議開源，以優秀的查詢效能，深受廣大大資料工程師歡迎。為了服務客戶業務，騰訊雲於 2020 年 4 月正式上線 Clic

資源 | 騰訊開源800萬中文詞的NLP資料集

資料集特點

資料集構建經驗

意義

傳送門

相關推薦