自然語言處理基於java實現(1) 之中文分詞

阿新 • • 發佈：2019-01-11

下一篇<自然語言處理基於java實現(2) 之詞性註釋>
程式原始碼下載
一. 題目如下:
1、針對人民日報語料，編寫程式：
抽取詞表
統計總詞數、不同的詞及其次數。輸出檔案格式：
第一行是語料庫中的總詞數，之後每行一個詞及其次數，按照詞頻從小到大排序。如：
總詞數：10000
#韓國：169
#民族：571
……
去除語料中的分詞和詞性標記，形成未加工的語料（原始文字）
2、基於上述詞表，編寫一個正向最大匹配分詞程式。程式功能：
輸入：沒有分過詞的檔案或一段文字
輸出：分過詞的檔案或一段文字。
3、編寫一個評價程式，自動評價分詞結果的準確率。

人民日報語料擷取小部分如下:
19980101-02-002-001/m 忠誠/a 的/u 共產主義/n 戰士/n ，/w 久經考驗/l 的/u 無產階級/n 革命家/n 劉/nr 瀾濤/nr 同志/n 逝世/v
19980101-02-002-002/m （/w 附/v 圖片/n １/m 張/q ）/w
19980101-02-002-003/m 根據/p 劉/nr 瀾濤/nr 同志/n 生前/t 遺願/n 和/c 家屬/n 的/u 意見/n ，/w 劉/nr 瀾濤/nr 同志/n 的/u 喪事/n 從簡/v ，/w 不/d 舉行/v 儀式/n 、/w 不/d 保留/v 骨灰/n 。/w

二. 我們的目的是:
1. 將如”忠誠”,”的”等等(除去19980101-02-002-001/m,以及詞性標註/w等等)詞,進行統計
2. 對統計的詞進行出現次數升序排序
3. 基於詞庫,用最大正向匹配演算法,對任意句子進行分詞
4. 寫一個評價程式

三. 直接上程式碼:

package experiment1;

import java.util.ArrayList;
import java.util.Collections;
import java.util.Comparator;
import java.util.HashMap;
import java.util.List;
import 
 java.util.Map;
import java.util.Map.Entry;


/**
 * 詞庫
 */
public class  Thesaurus{

    /**
     * 儲存結構為：
     * Entry<單詞，次數>
     */
    private  List<Entry<String, Integer>> list = new ArrayList<>();

    /**
     * 載入詞庫,初始化
     */
    public Thesaurus(String content){
        //進行分詞統計
        final Map<String,Integer> MAP = createMAP(content);
        //排序並存入list中
        sortMapByValue(MAP);
    }

    /**
     * 分詞
     * @param str 分詞的句子
     * @param symbol 分割的符號
     * @return
     */
    public String spitWord(final String str,final String symbol){
        StringBuilder target = new StringBuilder();
        int start = 0;
        while(start<str.length()){
            boolean noWord = true;
            for(int end = str.length();end>start;end--){
                String now = str.substring(start, end);
                for(Entry<String,Integer> e:list){
                    if(e.getKey().equals(now)){
                        target.append(symbol).append(now);
                        start = end;
                        noWord = false;
                        break;
                    }
                }
            }
            if(noWord){
                target.append(symbol).append(str.charAt(start++));
            }
        }
        return target.substring(symbol.length()).toString();
    }

    public int numOfSize(){
        return list.size();
    }

    /**
     * 分詞
     * @param str 要分詞的句子
     * @return 分詞後的字串陣列
     */
    public  String[] spitWord(final String str){
        return spitWord(str,",,,,").split(",,,,");
    }

    /**
     * 對map按照value排序,並存入list中
     * @param map
     */
    private void sortMapByValue(Map<String, Integer> map) {
        //這裡將map.entrySet()轉換成list  
        list.addAll(map.entrySet());  
        //然後通過比較器來實現排序  
        Collections.sort(list,new Comparator<Map.Entry<String,Integer>>() {  
            //升序排序  
            public int compare(Entry<String, Integer> o1,  
                    Entry<String, Integer> o2) {  
                return o1.getValue().compareTo(o2.getValue());  
            }  
        });  
    }

    /**
     * 對文字alls的內容進行分詞統計,存入map中
     * @param alls
     * @return 
     */
    private Map<String, Integer> createMAP(String alls) {
        final Map<String,Integer> map = new HashMap<String,Integer>();
        //去掉空白符號
        StringBuilder  sb = new StringBuilder (alls.replaceAll("\\s", ""));
        int start = 0;
        while(start<sb.length()){
            int end = sb.indexOf("/",start+1);
            if(sb.charAt(end+1)!='m'){
                String s = sb.substring(start, end);
                if(map.containsKey(s)){
                    map.put(s, map.get(s)+1);
                }else{
                    map.put(s, 1);
                }
            }
            start = end+2;
        }
        return map;
    }

    public List<Entry<String, Integer>> getList() {
        return list;
    }   
}

三. 實現步驟:
0. 建一個詞庫類,不需要解釋吧

 **// 儲存結構為：
// Entry<單詞，出現次數>
private  List<Entry<String, Integer>> list = new ArrayList<>();**

第一步,將文字進行字串切割成詞
第二步,統計詞彙
以下把第一二步一次性實現了

/**
     * 對文字alls的內容進行分詞統計,存入map中
     * @param alls
     * @return 
     */
    private Map<String, Integer> createMAP(String alls) {
        final Map<String,Integer> map = new HashMap<String,Integer>();
        //去掉空白符號
        StringBuilder sb = new StringBuilder (alls.replaceAll("\\s", ""));
        int start = 0;
        while(start<sb.length()){
            int end = sb.indexOf("/",start+1);
            if(sb.charAt(end+1)!='m'){
                String s = sb.substring(start, end);
                if(map.containsKey(s)){
                    map.put(s, map.get(s)+1);
                }else{
                    map.put(s, 1);
                }
            }
            start = end+2;
        }
        return map;
    }

3.對獲得的統計容器map進行排序:

/**
     * 對map按照value排序,並存入list中
     * @param map
     */
    private void sortMapByValue(Map<String, Integer> map) {
        //這裡將map.entrySet()轉換成list  
        list.addAll(map.entrySet());  
        //然後通過比較器來實現排序  
        Collections.sort(list,new Comparator<Map.Entry<String,Integer>>() {  
            //升序排序  
            public int compare(Entry<String, Integer> o1,  
                    Entry<String, Integer> o2) {  
                return o1.getValue().compareTo(o2.getValue());  
            }  
        });  
    }

4.正向最大匹配:
正向最大匹配是怎麼回事呢?
比如句子:美國政府把視線轉向亞太地區
1) 向詞庫查詢,”美國政府把視線轉向亞太地區”是否是一個詞,是,則成功匹配,否則執行2)
2) 向詞庫查詢,”美國政府把視線轉向亞太地”是否是一個詞,是,則成功匹配,否則執行3)
3) 向詞庫查詢,”美國政府把視線轉向亞太”是否是一個詞,是,則成功匹配,否則按照規律繼續執行,直至匹配成功

寫了兩個方法,方便不同情況的呼叫

/**
     * 分詞
     * @param str 分詞的句子
     * @param symbol 分割的符號
     * @return
     */
    public String spitWord(final String str,final String symbol){
        StringBuilder target = new StringBuilder();
        int start = 0;
        while(start<str.length()){
            boolean noWord = true;
            for(int end = str.length();end>start;end--){
                String now = str.substring(start, end);
                for(Entry<String,Integer> e:list){
                    if(e.getKey().equals(now)){
                        target.append(symbol).append(now);
                        start = end;
                        noWord = false;
                        break;
                    }
                }
            }
            if(noWord){
                target.append(symbol).append(str.charAt(start++));
            }
        }
        return target.substring(symbol.length()).toString();
    }

    /**
     * 分詞
     * @param str 要分詞的句子
     * @return 分詞後的字串陣列
     */
    public  String[] spitWord(final String str){
        return spitWord(str,",,,,").split(",,,,");
    }

5.評價程式
以下是一個簡單的實現:

package experiment1;

import java.util.HashMap;
import java.util.Map;

public class Assess {

    /**
     * 獲得s1和s2分詞的相似分數0-100分
     * @param s1
     * @param s2
     * @return
     */
    public static int get(String s1, String s2) {
        Map<Integer,Integer> map1 = get(s1);
        Map<Integer,Integer> map2 = get(s2);
        int goal = 0;
        for(int key:map1.keySet()){
            if(map1.get(key)==map2.get(key)){
                goal++;
            }
        }
        return goal*100/map1.size();
    }

    /**
     * 獲得分詞序列號
     * @param s
     * @return
     */
    public static Map<Integer,Integer> get(String s) {
        int start = 0;
        int num = 0;
        Map<Integer,Integer> map = new HashMap<Integer,Integer>();
        while(start<s.length()){
            int end = s.indexOf("'",start+1);
            if(end==-1){
                end = s.length();
            }
            map.put(start-num, end-num);    
            num++;
            start = end+1;
        }
        return map;
    }

}

6.最後,寫個測試吧:
1) Junit測試

package test;

import static org.junit.Assert.*;

import org.junit.Ignore;
import org.junit.Test;

import experiment1.Assess;


public class AssessTest {

    @Test
    public void testGet() {
        //           0   2  3  4  5  6   8
        String s1 = "你問'我'愛'你'有'多深";
        //           0 1 2  3  4  5  6   8
        String s2 = "你'問'我'愛'你'有'多深";
        assertEquals(83, Assess.get(s1,s2));

        String s3 = "我們'去'小王'家'休息'一會";
        String s4 = "我們'去'小王'家'休息'一'會";
        assertEquals(83, Assess.get(s3, s4));

    }

    @Ignore
    @Test
    public void testGet2() {
        //           0   2  3  4  5  6   8
        String s1 = "你問'我'愛'你'有'多深";
        //           0 1 2  3  4  5  6   8
        String s2 = "你'問'我'愛'你'有'多深";
        assertEquals(Assess.get(s1).keySet(), Assess.get(s2).keySet());

        String s3 = "休息'一會";
        String s4 = "休息'一'會";
        assertEquals(Assess.get(s3).keySet(), Assess.get(s4).keySet());

    }
}

2) main測試

package test;

import java.util.ArrayList;
import java.util.List;
import java.util.Scanner;

import experiment1.Assess;
import experiment1.Thesaurus;
import util.FileRW;


/**
 * 測試實驗一
 * @author Administrator
 *
 */
public class Test1 {

    public static void main(String[] args) {
        Thesaurus thesaurus = new Thesaurus(FileRW.read("199801.txt"));
        Scanner in = new Scanner(System.in);
        List<Integer> list = new ArrayList<>();
        System.out.println("請輸入測試的次數");
        int times = in.nextInt();
        in.nextLine();
        while(times-->0){
            System.out.println("請輸入句子:");
            String s1 = in.nextLine();
            System.out.println("請輸入標準答案(請用'分詞):");
            String s2 = in.nextLine();
            String s3 = thesaurus.spitWord(s1, "'");
            System.out.println("系統分詞結果:\n"+s3);
            list.add(Assess.get(s2,s3));
        }
        int average = 0;
        System.out.print("每句分詞成績: ");
        for(int goal :list){
            System.out.print(goal+"  ");
            average += goal;
        }
        average = average/list.size();
        System.out.println("\n平均得分: "+average);
        in.close();
    }

}

自然語言處理基於java實現(1) 之中文分詞

自然語言處理基於java實現(1) 之中文分詞

Python自然語言處理實戰（3）：中文分詞技術

自然語言處理工具HanLP-N最短路徑分詞

Java呼叫ICTCLAS2016 之中文分詞

基於python的自然語言處理分類和標註詞彙之5.5N-gram標註

python自然語言處理（NLP）1------中文分詞1，基於規則的中文分詞方法

自然語言處理之中文分詞器詳解

python自然語言處理（一）之中文分詞預處理、統計詞頻

自然語言處理之中文分詞器－jieba分詞器詳解及python實戰

利用Tensorflow進行自然語言處理（NLP）系列之二高階Word2Vec

第六章（1.2）自然語言處理實戰——打造屬於自己的中文word2vector工具

自然語言處理(NLP) - 數學基礎(1) - 總述

自然語言處理(NLP) - 數學基礎(1) - 排列組合

HanLP《自然語言處理入門》筆記--1.新手上路

中文自然語言處理向量合集(字向量,拼音向量,詞向量,詞性向量,依存關係向量)

ElasticSearch-6.4.1安裝中文分詞器Analysis-ik.

hanlp原始碼解析之中文分詞演算法詳解

基於高版本Lucene的中文分詞器（IK分詞器）的DEMO

Hanlp原始碼解析之中文分詞演算法

python_NLP實戰之中文分詞技術

自然語言處理基於java實現(1) 之 中文分詞

相關推薦

自然語言處理基於java實現(1) 之中文分詞