【文字分類】最強中文分詞系統ICTCLAS
ICTCLAS中文詞法分析是中文資訊處理的基礎與關鍵。中國科學院計算技術研究所在多年研究工作積累的基礎上,研製了漢語詞法分析系統ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System),主要功能包括中文分詞;詞性標註;命名實體識別;新詞識別;同時支援使用者詞典;支援繁體中文;支援gb2312、GBK、UTF8等多種編碼格式。 ICTCLAS分詞速度單機500KB/s,分詞精度98.45%,API不超過100kb,各種詞典資料壓縮後不到3M,是世界上最好的漢語詞法分析器。
官方網站http://ictclas.org/ictclas_introduction.html
下載測試使用後發現windows64位編譯時提示無法找到API函式,經測試無法使用,32Bit庫下載後可以編譯執行,呼叫成功。
原始語料:中華人民共和國,我們是黨員
分詞結果如下:
中華人民共和國/ns ,/w 我們/r 是/v 黨員/n
ns:名稱地名
w:標點符號
v:動詞
n:名詞
詳細資訊可參考API手冊及漢語詞性標註集合2個文件。
相關推薦
【文字分類】最強中文分詞系統ICTCLAS
ICTCLAS中文詞法分析是中文資訊處理的基礎與關鍵。中國科學院計算技術研究所在多年研究工作積累的基礎上,研製了漢語詞法分析系統ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System
【每日題解#10】UOJ#192. 【UR #14】最強跳蚤
clu for null 出現 滿足 隨機數 根節點 code hid 題目鏈接 http://uoj.ac/problem/192 暑期課第二天 樹上問題進階 具體內容看筆記博客吧 題意 n個節點的樹T 邊有邊權w 求滿足(u, v)上所有邊權乘積為完全平方數的路徑
【Apache Solr系列】使用IKAnalyzer中文分詞以及自定義分詞字典
之前寫的Apache Solr只介紹了簡單的搭建以及匯入資料等功能,最近由於專案要求,新增索引分詞和搜尋分詞功能;分詞的專案有包括好幾個:smartcn、ictclas4j、IK、jeasy、庖丁、mmseg4j; 以上幾種分詞器各有優缺點,根據不同場景可分可定製和不可定
Hadoop學習之自己動手做搜尋引擎【網路爬蟲+倒排索引+中文分詞】
一、使用技術 Http協議 正則表示式 佇列模式 Lucenne中文分詞 MapReduce 二、網路爬蟲 專案目的 通過制定url爬取介面原始碼,通過正則表示式匹配出其中所需的資源(這裡是爬取csdn部落格url及部落格名),將爬到的資源存
【原創】中文分詞系統 ICTCLAS2015 的JAVA封裝和多執行緒執行(附程式碼)
本文針對的問題是 ICTCLAS2015 的多執行緒分詞,為了實現多執行緒做了簡單的JAVA封裝。如果有需要可以自行進一步封裝其它介面。 首先ICTCLAS2015的傳送門(http://ictclas.nlpir.org/),其對中文分詞做的比較透徹,而且有一定的可調式性。但是應用到實際開發中的話
【文字分類】文字分類流程及演算法原理
分類體系 分類:給定一個物件,從一個事先定義好的分類體系中挑出一個或多個最適合該物件的類別。 文字分類(TC, Text Categorization):在給定的分類體系下,根據文字內容自動的確定文字關聯的類別。從數學角度看,文字分類是一個對映的過程,它將未標明類別的文字對
【文字分類】 特徵抽取之資訊增益
作者:Jasper (from BlogJava) 在前面的《文字分類概述》文章中,我們講到了基於統計學習的方法進行分類的關鍵在於對訓練集語料的特徵選擇的好壞。那麼訓練集中哪些詞可以作為特徵,哪些詞則不能呢?我們必須對訓練集中所有詞語量化其重要程度。資訊增益 (IG, Information Gain
【POJ 1201】 Intervals(差分約束系統)
sub 代碼 idt ear ces oid std one space 【POJ 1201】 Intervals(差分約束系統) 11 1716的升級版 把原本固定的邊權改為不固定。 Intervals Time Limit: 2000MS Memor
乾貨 | 史上最全中文分詞工具整理
作者 | fendouai 一.中文分詞 分詞服務介面列表 二.準確率評測: THULAC:與代表性分詞軟體的效能對比 我們選擇LTP-3.2.0 、ICTCLAS(2015版) 、jieba(C++版)等國內具代表性的分詞軟體與THULAC做效能
【POJ 3159】 Candies(差分約束系統)
During the kindergarten days, flymouse was the monitor of his class. Occasionally the head-teacher brought the kids of flymouse’s class a large bag of can
中文分詞系統NLPIR(2015版)的Java介面使用學習
前言: 這幾天資料探勘的大作業又用到分詞了,首先想到的肯定是中科院的分詞系統NLPIR,但是之前用的事2013版的,2015版的有了新的變化。增加了函式和效率自是不必說,由於我是用的j
【中文分詞】最大熵馬爾可夫模型MEMM
Xue & Shen '2003 [2]用兩種序列標註模型——MEMM (Maximum Entropy Markov Model)與CRF (Conditional Random Field)——用於中文分詞;看原論文感覺作者更像用的是MaxEnt (Maximum Entropy) 模型而非MEM
【轉】中文分詞之HMM模型詳解
實現 含義 jieba 順序 清晰 bsp 中國 matrix 統計 關於HMM模型的介紹,網上的資料已經爛大街,但是大部分都是在背書背公式,本文在此針對HMM模型在中文分詞中的應用,講講實現原理。 盡可能的撇開公式,撇開推導。結合實際開源代碼作為例子,爭取做到雅俗共賞,
《數學之美》讀書記錄【思維導圖記錄】:第四章,談談中文分詞
post IT .cn splay top style title mage blog 《數學之美》讀書記錄【思維導圖記錄】:第四章,談談中文分詞
【看一看】最強翻譯機哪個好用呢?【音樂天使】告訴你!
過去 看球 降落 inf 避免 www 是個 targe blank 近期的俄羅斯世界足球杯,讓不少球迷都為之瘋狂,我也不例外,為此訂了一張機票直飛俄羅斯的喀山,自己不會俄語,為了避免尷尬我購買了一部翻譯機-音樂天使隨身攜帶,而且剛好因為世界杯,俄羅斯那邊免簽證30天,對於
【中文分詞系列】 8 更好的新詞發現演算法
分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!  
【NLP】【一】中文分詞之jieba
宣告:本文參考jieba官方文件而成,官方連結:https://github.com/fxsjy/jieba 【一】jieba安裝 pip install jieba 【二】jieba簡介 簡介可見jieba官方說明:https://pypi.org/project/jieba/
【NLP學習筆記】中文分詞
分詞通俗的講就是如何將一個句子劃分成詞語,大多數情況下不同的劃分方式會導致不同的語義。 分詞方法分類 自動分詞主要分為三個流派:規則分詞、統計分詞和混合分詞(規則+統計) 1、規則分詞 通過維護一個詞典,在切分語句時,將語句的每個字串與表中的詞進行逐一匹配,找到
【Python】中文分詞並過濾停用詞
中文分詞並過濾停用詞,python程式碼如下。 #coding=utf-8 import jieba input_path='../data/train_pos_100.txt' output_path='../data/train_pos_100_seg.txt' st
【智慧駕駛】最全、最強的無人駕駛技術學習路線
作者:許小巖 來源:AI腦力波 授權 產業智慧官 轉載。近兩年,國內外掀起了一場空前的無人駕