1. 程式人生 > >乾貨 | 史上最全中文分詞工具整理

乾貨 | 史上最全中文分詞工具整理

作者 | fendouai

一.中文分詞

 分詞服務介面列表

二.準確率評測:

THULAC:與代表性分詞軟體的效能對比

我們選擇LTP-3.2.0 、ICTCLAS(2015版) 、jieba(C++版)等國內具代表性的分詞軟體與THULAC做效能比較。我們選擇Windows作為測試環境,根據第二屆國際漢語分詞測評(The SecondInternational Chinese Word Segmentation Bakeoff)釋出的國際中文分詞測評標準,對不同軟體進行了速度和準確率測試。

在第二屆國際漢語分詞測評中,共有四家單位提供的測試語料(Academia Sinica、 City University 、Peking University 、MicrosoftResearch), 在評測提供的資源icwb2-data中包含了來自這四家單位的訓練集(training)、測試集(testing), 以及根據各自分詞標準而提供的相應測試集的標準答案(icwb2-data/scripts/gold).在icwb2-data/scripts目錄下含有對分詞進行自動評分的perl指令碼score。

我們在統一測試環境下,對上述流行分詞軟體和THULAC進行了測試,使用的模型為各分詞軟體自帶模型。THULAC使用的是隨軟體提供的簡單模型Model_1。評測環境為 Intel Core i5 2.4 GHz 評測結果如下:

評測結果1

除了以上在標準測試集上的評測,我們也對各個分詞工具在大資料上的速度進行了評測,結果如下:

CNKI_journal.txt(51 MB)

評測結果2

分詞資料準備及評測由BosonNLP完成:11 款開放中文分詞引擎大比拼(2015年釋出)

分詞的客觀量化測試離不開標註資料,即人工所準備的分詞“標準答案”。在資料來源方面,我們將測試分為: 1.新聞資料:140篇,共30517詞語; 2.微博資料:200篇,共12962詞語; 3.汽車論壇資料(汽車之家)100篇:共27452詞語; 4.餐飲點評資料(大眾點評):100條,共8295詞語。

準確度計算規則:

將所有標點符號去除,不做比較

參與測試的部分系統進行了實體識別,可能造成詞語認定的不統一。我們將對應位置替換成了人工標註的結果,得到準確率估算的上界。

經過以上處理,用SIGHAN 分詞評分指令碼比較得到最終的準確率,召回率和F1值。

以上所有資料採用北大現代漢語基本加工規範對所有資料進行分詞作為標準。具體資料下載地址請參見附錄。通過這四類資料綜合對比不同分詞系統的分詞準確度。

不同分詞系統的分詞準確度對比

三.付費價格:

阿里雲:

 阿里雲付費價格

騰訊雲:

騰訊雲付費價格

玻森中文

免費額度:

 玻森中文免費額度

付費價格:

 玻森中文付費價格

四.官網

開源工具

HanLP:

https://github.com/hankcs/HanLP

結巴分詞:

https://github.com/fxsjy/jieba

盤古分詞:

http://pangusegment.codeplex.com/

庖丁解牛:

https://code.google.com/p/paoding/

SCWS中文分詞:

http://www.xunsearch.com/scws/docs.php

高校工具

FudanNLP:

https://github.com/FudanNLP/fnlp

LTP:

http://www.ltp-cloud.com/document

THULAC:

http://thulac.thunlp.org/

NLPIR:

http://ictclas.nlpir.org/docs

商業服務

BosonNLP:

http://bosonnlp.com/dev/center   

百度NLP:

https://cloud.baidu.com/doc/NLP/NLP-API.html

搜狗分詞:

http://www.sogou.com/labs/webservice/

騰訊文智:

https://cloud.tencent.com/document/product/271/2071

騰訊價格單:

https://cloud.tencent.com/document/product/271/1140

阿里雲NLP:

https://data.aliyun.com/product/nlp

新浪雲:

http://www.sinacloud.com/doc/sae/python/segment.html

測試資料集

1、SIGHANBakeoff 2005 MSR, 560KB 

http://sighan.cs.uchicago.edu/bakeoff2005/

2、SIGHANBakeoff 2005 PKU, 510KB 

http://sighan.cs.uchicago.edu/bakeoff2005/

3、人民日報 2014,65MB 

https://pan.baidu.com/s/1hq3KKXe

前兩個資料集是SIGHAN於2005年組織的中文分詞比賽所用的資料集,也是學術界測試分詞工具的標準資料集,本文用於測試各大分詞工具的準確性,而最後一個數據集規模較大,用於測試分詞速度。

相關推薦

乾貨 | 中文工具整理

作者 | fendouai 一.中文分詞  分詞服務介面列表 二.準確率評測: THULAC:與代表性分詞軟體的效能對比 我們選擇LTP-3.2.0 、ICTCLAS(2015版) 、jieba(C++版)等國內具代表性的分詞軟體與THULAC做效能

面的Docker構建工具教程

onf -name engine .json usr art 倉庫 version 地址 Docker 是一個開源的應用容器引擎,基於 Go 語言] 並遵從Apache2.0協議開源。Docker 可以讓開發者打包他們的應用以及依賴包到一個輕量級、可移植的容器中,然後發布到

BAT 大廠面試題整理

主要分為以下幾部分:(1)java面試題(2)Android面試題(3)高階技術面試題(4)非技術性問題&HR問題彙總1java面試題熟練掌握java是很關鍵的,大公司不僅僅要求你會使用幾個api,更多的是要你熟悉原始碼實現原理,甚至要你知道有哪些不足,怎麼改進,還有

自媒體推廣工具

自媒體推廣 推號網: http://www.37code.com 圖文排版編輯器 ●秀米:xiumi.us ●易點編輯器:wxedit.yead.net ●135微信編輯器:http://www.135edi

的常用開發工具類收集(持續更新中)

API checkBankCard : 校驗銀行卡卡號是否合法 getBankCardCheckCode: 從不含校驗位的銀行卡卡號採用 Luhm 校驗演算法獲得校驗位 getNameOfBank : 通過銀

脈搏心率傳感器PulseSensor資料(電路圖+中文說明書+源代碼)

提取 變換 時間 AR 測量 使用 VM 一是 detail 準確度說明: 1 輸入引腳一定要接在模擬輸入口上 ESP-D1 只有一個模擬輸入口 A0 0-3.3V 心跳不要接在5v上,否則電壓不準 ESP-D1開發板有一個5V和一個3.3v 普通

中文詞彙資料集

        騰訊正式開源一個大規模、高質量的中文詞向量資料集。資料集中有800多萬中文詞彙,相比現有搜狗實驗室,清華和哈工大公佈的語料庫,覆蓋率、新鮮度及準確性上有大幅的提高。 1、介紹         該語

乾貨的Tensorflow學習資源彙總

  轉自 |  磐創AI 作者 |  AI小昕   在之前的Tensorflow系列文章中,我們教大家學習了Tensorflow的安裝、Tensorflow的語法、基本操作、CNN的一些原理和專案實戰等。本篇文

vimrc檔案配置的全文收錄(,附帶中文解釋)

一、vi與vim的不同vi類似於windows的記事本,比較適合編輯普通文字,但是用於編寫指令碼程式碼就不太合適了,缺少高亮顯示程式碼、自動縮排等重要功能;而vim類似於windows下的高階編輯器,為了提高開發效率,需要使用vim而不是vi。因此,首先做如下調整,以便只使用vim作為開發指令碼的功能工具:

vimrc文件配置的全文收錄(,附帶中文解釋)

更新 普通 鈴聲 echo rec expand 開發 空格 缺少 一、vi與vim的不同vi類似於windows的記事本,比較適合編輯普通文本,但是用於編寫腳本代碼就不太合適了,缺少高亮顯示代碼、自動縮進等重要功能;而vim類似於windows下的高級編輯器,為了提高開發

Phoenix綜述(Phoenix中文文件)

1. Phoenix定義 Phoenix最早是saleforce的一個開源專案,後來成為Apache基金的頂級專案。 Phoenix是構建在HBase上的一個SQL層,能讓我們用標準的JDBC APIs而不是HBase客戶端APIs來建立表,插入資料和對HBase資料進行查詢。 put

【JasperReport+Ireport】jasperreport+ireport解決中文不顯示問題 (例子)

最近專案需要java+jasperreport生成pdf並下載,琢磨了若干天終於研究出來。 如果你JDK環境不是1.8,可以忽略此行,在jdk1.8環境下開啟irport時,圖示會一閃而過,然後沒任何反映。 原因及解決方法: 原因: iReport-5.6.0不支

軟體測試用例(軟體測試乾貨

咚咚咚,橋黑板!注意聽講!今天來點測試乾貨,純純的乾貨啊,堪稱史上最全。今天來發一篇軟體測試用例設計時需要關注的點,前輩總結的非常詳細,基本上素有的測試點都包含在其中了,純純的圖片。快下載儲存本圖吧,遇

乾貨總結】:可能是的MySQL和PGSQL對比材料

【乾貨總結】:可能是史上最全的MySQL和PGSQL的對比材料 運維了MySQL和PGSQL已經有一段時間了,最近接到一個數據庫選型需求,於是便開始收集資料整理了一下,然後就有了下面的對比表 關鍵詞:PostgreSQL 11、MySQL5.7   比較版本:PostgreSQL 1

【轉載】:TensorFlow 好玩的技術、應用和你不知道的黑科技

tube map 高性能 知識 seq 出現 執行時間 mes lex 【導讀】TensorFlow 在 2015 年年底一出現就受到了極大的關註,經過一年多的發展,已經成為了在機器學習、深度學習項目中最受歡迎的框架之一。自發布以來,TensorFlow 不斷在完善並增加新

: svn與git的對照(二):svn與git的相關概念

fill 來看 out avi head clas 相關 iss b2c 如圖1是svnserver端數據的文件夾結構 以下是gitserver端的文件夾結構 縱觀svn和git服務端的文件夾結構我們非常easy發現 1.有些目錄還是蠻像的。甚

React Native常用第三方組件匯總-- 之一

提示 存儲 ext upload body ner board pup wan 把我認為最好的知識,拿來與他人分享,是這一生快事之一! React Native 項目常用第三方組件匯總: react-native-animatable 動畫 react-na

掛載文件系統出現"kernel panic..." 解決方案

某個文件 table sha mount nic mic 2.6 完成 又是   問:掛載自己制作的文件系統卡在這裏:    NET: Registered protocol family 1    NET: Registered protocol family 17   

的Ajax

tool 復制 last 毫秒 如何實現 mon adding ast turn 本章內容: 簡介 偽 AJAX 原生 AJAX XmlHttpRequest 的屬性、方法、跨瀏覽器支持 jQuery AJAX 常用方法 跨域 AJAX JsonP

oracle表空間查詢維護命令大全之中的一個(數據表空間)

ava 劃分 man max rac 帳戶 oca nio msi 表空間是數據庫的邏輯劃分,一個表空間僅僅能屬於一個數據庫。全部的數據庫對象都存放在建立指定的表空間中。但主要存放的是表, 所以稱作表空間。在oracle 數據庫中至少存在