1. 程式人生 > >配置Hanlp自然語言處理進階

配置Hanlp自然語言處理進階

 

中文分詞

中文分詞中有眾多分詞工具,如結巴、hanlp、盤古分詞器、庖丁解牛分詞等;其中庖丁解牛分詞僅僅支援java,分詞是HanLP最基礎的功能,HanLP實現了許多種分詞演算法,每個分詞器都支援特定的配置。接下來我將介紹如何配置Hanlp來開啟自然語言處理之旅,每個工具包都是一個非常強大的演算法集合,所以小編以後將花一些時間去看看裡面原始碼如何。

下載jar、property和data檔案

下載jar檔案,(下載hanlp壓縮包)解壓之後獲得jar和property檔案如下:

其中property問配置檔案,jar檔案為外部引用檔案。

然後下載data檔案:

【https://】pan.baidu.com/s/1o8Rri0y (前面的括號自行去掉)

解壓壓縮包之後就能獲取data目錄了。

一切就緒之後下面就是配置了。

配置hanlp

新建一個空專案,包括一個新建的java檔案的test.java,

1.package com;

2.import com.hankcs.hanlp.HanLP;

3.public class Test {

4.public static void main(String[] args) {

5.    System.out.println(HanLP.segment("你好,歡迎使用HanLP!"));

6.    }

7.}  

目錄結構如下圖:

如果是在linux中的話,你可以將property檔案放在classpath中,windows中也可以,配置環境變數,將property檔案的絕對路徑加上就可以了,然後執行一下這個java檔案:

你會發現如下錯誤

 

1.十二月 11, 2017 9:59:37 下午 com.hankcs.hanlp.HanLP$Config <clinit>

2.嚴重: 沒有找到hanlp.properties,可能會導致找不到data

3.========Tips========

4.請將hanlp.properties放在下列目錄:

5.D:\ ideaWorkSpace\ hanlp_mavenHanlp\ target\classes

6.Web專案則請放到下列目錄:

7.Webapp/WEB-INF/lib

8.Webapp/WEB-INF/classes

9.Appserver/lib

10.JRE/lib

11.並且編輯root=PARENT/path/to/your/data

 

然後將property放到相應的目錄就可以了,注意property配置只需要修改root的配置就行了。

 

1.本配置檔案中的路徑的根目錄,根目錄+其他路徑=絕對路徑Windows使用者請注意,路徑分隔符統一使用/

2.root=D:/ideaWorkSpace/hanlp_mavenHanlp/src/main/java

 

就比如我的解壓後的data資料夾是放在D:/ideaWorkSpace/hanlp_mavenHanlp/src/main/java目錄下的那我就改這個就可以了,其餘的配置不用修改

 

執行成功如下圖:

---------------------

作者:學zaza