1. 程式人生 > >中科院分詞系統(NLPIR)常見錯誤處理JAVA

中科院分詞系統(NLPIR)常見錯誤處理JAVA

沒有熟悉這個分詞器用起來真的讓人很崩潰,遇到bug都不知道怎麼辦,但是如果熟悉了用起來還是蠻得心應手的,是一個很不錯的分詞工具哦!強烈推薦!
下載地址:http://ictclas.nlpir.org/downloads,下載最新的NLPIR/ICTCLAS2014分詞系統下載包。
如果要用JAVA來使用NLPIR,需要通過JNA呼叫NLPIR的函式來實現。下面通過一個示例來進行說明:

首先新建一個JAVA專案,匯入JNA的jar包(可從下載包中的sample\JnaTest_NLPIR\lib資料夾中拷貝),將下載包中的Data資料夾拷貝到專案根目錄中,再將lib資料夾中與你作業系統對應的資料夾中的NLPIR.dll和NLPIR.lib檔案拷貝到系統根目錄中,不妨新建一個名為source的資料夾,放到那裡面去。
我的目錄如下圖所示:
檔案目錄


我定義的載入檔案介面為:
這裡寫圖片描述
在main中實現該操作,如果成功那麼恭喜你了!但在除錯過程中出現如下問題那也恭喜你了,因為我也出現過,下面講講最常見的兩種錯誤吧!
錯誤一:
Unable to load library
這裡寫圖片描述

那是因為定義並初始化介面的靜態變數時的路徑錯了:
CLibrary Instance = (CLibrary) Native.loadLibrary(
“E://xiazai//漢語分詞20140928//sample//Java//JNA//JnaTest_NLPIR//source//NLPIR”, CLibrary.class);
一定要為NLPIR.lib中的路徑


這裡寫圖片描述

最後給大家看看我分詞成功的樣子吧!
這裡寫圖片描述

相關推薦

中科院系統NLPIR常見錯誤處理JAVA

沒有熟悉這個分詞器用起來真的讓人很崩潰,遇到bug都不知道怎麼辦,但是如果熟悉了用起來還是蠻得心應手的,是一個很不錯的分詞工具哦!強烈推薦! 下載地址:http://ictclas.nlpir.org/downloads,下載最新的NLPIR/ICTCLAS2

java中科院配置ICTCLAS

之前零零散散用過幾次,配置好了就沒管過。後來再用的時候就忘了怎麼配置,又找了很多資料(太麻煩了)。現總結一下當作筆記: 首先,下載中科院分詞專案。 github網址:https://github.com/NLPIR-team/NLPIR/tree/master/NLPIR%20SDK/NLPIR-ICTCL

改進的中科院系統NLPIR程式碼加入使用者詞典,去停用,檔案讀寫+情感分析字典包+工具包+論文包

NLPIR分詞,加入使用者詞典,去停用詞,檔案讀寫等 原始碼下載地址 優化的分詞系統程式碼 原始碼下載地址 NLPIR分詞系統 優化的分詞系統程式碼 以下是核心程式碼 完整程式碼可以直接執行分詞,點我跳轉 public cl

NLP之CRF訓練

分鐘 -c data ++ del 控制 rdquo 進制 文本 分三步1、先分詞2、做BEMS標註,同時做詞性標註3、訓練模型 1、對語料進行分詞 拿到測試部的語料或者其他渠道的語料,先對語料進行分詞,我剛剛開始是用NS分詞的,等CRF模型訓練好後

lucene英文StandarAnalyzer中會被忽略的stopWords

使用Lucene進行索引查詢時發現有一部分詞會被分詞器直接忽略掉了,被忽略的分詞稱為stopWords,在英文中通常是一些語氣助詞或者無法表達明確含義的詞。 在定義含有stopWords分詞器的時候都會指定stopWords,如果沒有指定可以引用預設的stop

淺談演算法4基於字的方法CRF

目錄 前言 目錄 條件隨機場(conditional random field CRF) 核心點 線性鏈條件隨機場 簡化形式 CRF分詞 CRF VS HMM 程式碼實現 訓練程式碼 實驗結果 參考文獻

中文系列 雙陣列Tire樹(DART)詳解

雙陣列Tire樹是Tire樹的升級版,Tire取自英文Retrieval中的一部分,即檢索樹,又稱作字典樹或者鍵樹。下面簡單介紹一下Tire樹。 1.1 Tire樹 Trie是一種高效的索引方法,它實際上是一種確定有限自動機(DFA),在樹的結構中,每一個結點對應一個DFA狀態,每一個從父結點指向子結點

中文IK的配置檔案

中文(IK)分詞器是在IKAnalyzer分詞包中使用的,使用前請自行下載相應的jar包 將這個檔案(IKAnalyzer.cfg.xml)放入到src的的目錄先, <?xml version="1.0" encoding="UTF-8"?> &

HMM最大匹配演算法Python

正向最大匹配演算法是我國最早提出的解決中文分詞問題的演算法,因其簡單易操作,至今仍作為機器分詞的粗分演算法,在今天看來,這種演算法的準確率遠不夠高,無法達到令人滿意的要求。這只是一次練習。 待切分

統計使用訊飛語言云進行統計

最近想取一個網名,想起中國文化博大精深,如果用古代的唐詩宋詞組合一定有一個意向不到的名字。組合首先要分詞,想起錘子手機有一個很火的功能叫BigBang,它用的是訊飛的語言云,是免費提供的,所以這次使用訊飛的語言云進行分詞,然後隨機組合。另外,還可以進行有趣的資料統計,看看古

Spark 大資料中文統計 開發環境搭建

          幾年前搞BI專案時就聽說過大資料技術,當時也買了書,可惜沒有認真去學。幾年5月份 開始,報名參加王家林老師的大資料蘑菇雲行動,才算真正開始學習Spark,學習大資料技術。           網上很多Spark的例子都是經典的WordCount exam

資料庫查詢的優缺點以及英文和中文各自的方法

1.為什麼需要資料庫分詞查詢  假設有一個數據庫表,表中有一個title欄位 table1 假如有300萬的資料 id為主鍵,title也設定了索引 id title 1 這是計算機,

NLP舞動之中文淺析

一、簡介        針對現有中文分詞在垂直領域應用時,存在準確率不高的問題,本文對其進行了簡要分析,對中文分詞面臨的分詞歧義及未登入詞等難點進行了介紹,最後對當前中文分詞實現的演算法原理(基於詞表、統計以及序列標註等演算法)進行了簡要闡述,並對比了現有技術的優缺點,

Android Studio專案打包常見錯誤:Execution failed for task ':app:mergeReleaseResources'等等

    Generate Signed APK: Errors while building APK. You can find the errors in the 'Messages' view. 錯誤1: AAPT: libpng error: Not

ROS實踐N-常見錯誤

一 找不到opencv 錯誤: [email protected]:~/dev/rosbook/chapter3_tutorials# rospack depends chapter3_tutorials [rospack] Error: package 'cha

JavaScript錯誤處理機制

image || .cn final nta 構造函數 n) 示例 發生 1.Error()構造函數 javascript解析或執行語句時,一旦發生錯誤,js引擎會將其拋出! JavaScript原生提供了Error()構造函數,所有拋出的錯誤都是這個構造函數的實例(即對象

基於任務的異步編程模式TAP錯誤處理

null private 狀態 引用 url www cond 信息 res 在前面講到了《基於任務的異步編程模式(TAP)》,但是如果調用異步方法,沒有等待,那麽調用異步方法的線程中使用傳統的try/catch塊是不能捕獲到異步方法中的異常。因為在異步方法執行出現異常之前

ant design pro 十三advanced 錯誤處理

一、概述 原文地址:https://pro.ant.design/docs/error-cn 二、詳細 2.1、頁面級報錯 2.1.1、應用場景 路由直接引導到報錯頁面,比如你輸入的網址沒有匹配到任何頁面,可以由路由引導到預設的 404 頁面。 程式碼控制跳轉到報錯頁面,比如根據請求

Django面試題系列1——migrate錯誤處理

面試題1:migrate怎麼判斷哪些遷移指令碼需要執行: 他會將程式碼中的遷移指令碼和資料庫中django_migrations中的遷移指令碼進行對比,如果發現數據庫中,沒有這個遷移指令碼,那麼就會執行這個遷移指令碼。 面試題2:migrate做了什麼事

中文系統NLPIR2015版Java介面使用學習

前言:         這幾天資料探勘的大作業又用到分詞了,首先想到的肯定是中科院的分詞系統NLPIR,但是之前用的事2013版的,2015版的有了新的變化。增加了函式和效率自是不必說,由於我是用的j