1. 程式人生 > >如何在java中去除中文文字的停用詞

如何在java中去除中文文字的停用詞

1.  整體思路

第一步:先將中文文字進行分詞,這裡使用的HanLP-漢語言處理包進行中文文字分詞。

第二步:使用停用詞表,去除分好的詞中的停用詞。

2.  中文文字分詞環境配置

使用的HanLP-漢語言處理包進行中文文字分詞。

·HanLP-漢語言處理包下載,可以去github上下載

·HanLP 的環境配置有兩種方式:方式一、Maven;方式二、下載jar、data、hanlp.properties。

·官方環境配置步驟也可以在github上查詢到。

·環境配置好後,java使用HanLP進行中文分詞文件如下:hanlp.linrunsoft.com/doc.html

3.  下載停用詞表

停用詞表可以去百度或者其他搜尋引擎檢索一份,很容易就找到!

4.  去除停用詞工具類

使用這個工具類的之前,請先完成中文文字分詞環境配置,並測試一下。停用詞 .txt 檔案路徑請修改為自己的本地路徑。

圖1

5.  工具類測試

5.1  測試程式碼

public class test {

    public static void main(String args[]) {

        try {

            System.out.println(FormatUtil.RemovalOfStopWords("床前明月光,疑是地上霜。舉頭望明月,低頭思故鄉。"));

        } catch (IOException e) {

            e.printStackTrace();

        }

    }

 

5.2  測試結果

相關推薦

no