中文分詞實現——雙向最大匹配

阿新 • • 發佈：2019-01-12

關於中文分詞的一些基本介紹，可以看這篇部落格《中文分詞方法總結》。這裡就不再進行詳細介紹了。

雙向最大匹配方法

雙向最大匹配方法是一種基於詞典的分詞方法。基於詞典的分詞方法是按照一定策略將待分析的漢字串與一個“大機器詞典”中的詞條進行匹配，若在詞典中找到某個字串，則匹配成功。

按照掃描方向的不同：正向匹配和逆向匹配

按照長度的不同：最大匹配和最小匹配

正向最大匹配思想FMM

1.從左向右取待切分漢語句的m個字元作為匹配欄位，m為大機器詞典中最長詞條個數。

2.查詢大機器詞典並進行匹配。若匹配成功，則將這個匹配欄位作為一個詞切分出來。

若匹配不成功，則將這個匹配欄位的最後一個字去掉，剩下的字串作為新的匹配欄位，進行再次匹配，重複以上過程，直到切分出所有詞為止。

逆向最大匹配演算法BMM

該演算法是正向最大匹配的逆向思維，匹配不成功，將匹配欄位的最前一個字去掉，實驗表明，逆向最大匹配演算法要優於正向最大匹配演算法。

雙向最大匹配法(Bi-directction Matching method,BM)

雙向最大匹配法是將正向最大匹配法得到的分詞結果和逆向最大匹配法的到的結果進行比較，從而決定正確的分詞方法。據SunM.S. 和 Benjamin K.T.（1995）的研究表明，中文中90.0％左右的句子，正向最大匹配法和逆向最大匹配法完全重合且正確，只有大概9.0％的句子兩種切分方法得到的結果不一樣，但其中必有一個是正確的（歧義檢測成功），只有不到1.0％的句子，或者正向最大匹配法和逆向最大匹配法的切分雖重合卻是錯的，或者正向最大匹配法和逆向最大匹配法切分不同但兩個都不對（歧義檢測失敗）。這正是雙向最大匹配法在實用中文資訊處理系統中得以廣泛使用的原因所在。

在本文實現的方法中，是綜合考慮了正向和逆向最大匹配的結果，加入了一些啟發式的規則來對分詞結果進行進一步消歧的。

啟發式規則：

1.如果正反向分詞結果詞數不同，則取分詞數量較少的那個。

2.如果分詞結果詞數相同

a.分詞結果相同，就說明沒有歧義，可返回任意一個。

b.分詞結果不同，返回其中單字較少的那個。

下面是具體實現

package Segment;
import java.io.BufferedReader;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.util.HashSet;
import java.util.Set;
import java.util.Vector;


public class FBSegment {
	private static Set<String> seg_dict;
	
	//載入詞典
	public static void Init(){
		seg_dict = new HashSet<String>();
		String dicpath = "data/worddic.txt";
		String line = null;
		
		BufferedReader br;
		try{
			br = new BufferedReader( new InputStreamReader( new FileInputStream(dicpath)));	
			while((line = br.readLine()) != null){
				line = line.trim();
				if(line.isEmpty())
					continue;	
				seg_dict.add(line);
			}
			br.close();
		}catch(IOException e){
			e.printStackTrace();
		}
		
	}
	/**
	 * 前向演算法分詞
	 * @param seg_dict 分詞詞典
	 * @param phrase 待分詞句子
	 * @return 前向分詞結果
	 */
	private static Vector<String> FMM2( String  phrase){
		int maxlen = 16;
		Vector<String> fmm_list = new Vector<String>();
		int len_phrase = phrase.length();
		int i=0,j=0;
		
		while(i < len_phrase){
			int end = i+maxlen;
			if(end >= len_phrase)
				end = len_phrase;
			String phrase_sub = phrase.substring(i, end);
			for(j = phrase_sub.length(); j >=0; j--){
				if(j == 1)
					break;
				String key =  phrase_sub.substring(0, j);
				if(seg_dict.contains(key)){
					fmm_list.add(key);
					i +=key.length() -1;
					break;
				}
			}
			if(j == 1)
				fmm_list.add(""+phrase_sub.charAt(0));
			i+=1;
		}
		return fmm_list;
	}
	
	/**
	 * 後向演算法分詞
	 * @param seg_dict 分詞詞典
	 * @param phrase 待分詞句子
	 * @return 後向分詞結果
	 */
	private static Vector<String> BMM2( String  phrase){
		int maxlen = 16;
		Vector<String> bmm_list = new Vector<String>();
		int len_phrase = phrase.length();
		int i=len_phrase,j=0;
		
		while(i > 0){
			int start = i - maxlen;
			if(start < 0)
				start = 0;
			String phrase_sub = phrase.substring(start, i);
			for(j = 0; j < phrase_sub.length(); j++){
				if(j == phrase_sub.length()-1)
					break;
				String key =  phrase_sub.substring(j);
				if(seg_dict.contains(key)){
					bmm_list.insertElementAt(key, 0);
					i -=key.length() -1;
					break;
				}
			}
			if(j == phrase_sub.length() -1)
				bmm_list.insertElementAt(""+phrase_sub.charAt(j), 0);
			i -= 1;
		}
		return bmm_list;
	}
		
	/**
	 * 該方法結合正向匹配和逆向匹配的結果，得到分詞的最終結果
	 * @param FMM2 正向匹配的分詞結果
	 * @param BMM2 逆向匹配的分詞結果
	 * @param return 分詞的最終結果
	 */
	public static Vector<String> segment( String phrase){
		Vector<String> fmm_list = FMM2(phrase);
		Vector<String> bmm_list = BMM2(phrase);
		//如果正反向分詞結果詞數不同，則取分詞數量較少的那個
		if(fmm_list.size() != bmm_list.size()){
			if(fmm_list.size() > bmm_list.size())
				return bmm_list;
			else return fmm_list;
		}
		//如果分詞結果詞數相同
		else{
			//如果正反向的分詞結果相同，就說明沒有歧義，可返回任意一個
			int i ,FSingle = 0, BSingle = 0;
			boolean isSame = true;
			for(i = 0; i < fmm_list.size();  i++){
				if(!fmm_list.get(i).equals(bmm_list.get(i)))
					isSame = false;
				if(fmm_list.get(i).length() ==1)
					FSingle +=1;
				if(bmm_list.get(i).length() ==1)
					BSingle +=1;
			}
			if(isSame)
				return fmm_list;
			else{
				//分詞結果不同，返回其中單字較少的那個
				if(BSingle > FSingle)
					return fmm_list;
				else return bmm_list;
			}
		}
	}
	public static void main(String [] args){
		String test = "我是一個學生";
		FBSegment.Init();
		System.out.println(FBSegment.segment(test));
	}
}

輸出：[我, 是, 一個, 學生]

參考：

中文分詞演算法筆記 http://www.cnblogs.com/lvpei/archive/2010/08/04/1792409.html;

中文分詞演算法總結 http://blog.csdn.net/chenlei0630/article/details/40710325;

中文分詞實現——雙向最大匹配

雙向最大匹配方法

正向最大匹配思想FMM

逆向最大匹配演算法BMM

雙向最大匹配法(Bi-directction Matching method,BM)

中文分詞實現——雙向最大匹配

詞法分析-中文分詞技術-正向最大匹配法與逆向最大匹配法

中文分詞的逆向最大匹配演算法(2016年)

中文分詞之正向最大匹配演算法

中文分詞演算法之最大正向匹配演算法（Python版）

分詞演算法:正向最大匹配演算法

雙向最大匹配演算法——基於詞典規則的中文分詞(Java實現)

自己動手寫分詞引擎——逆向最大、正向最大、雙向最大分詞演算法的實現

Python下的中文分詞實現

中文分詞--最大正向匹配算法python實現

一個簡單最大正向匹配（Maximum Matching）MM中文分詞演算法的實現

中文分詞--逆向最大匹配

用最大熵模型進行字標註中文分詞（Python實現）

用正向和逆向最大匹配演算法進行中文分詞（續）

中文分詞——正向最大匹配法

深度解析中文分詞器演算法（最大正向/逆向匹配）

基於Tire樹和最大概率法的中文分詞功能的Java實現

HMM最大匹配分詞演算法（Python）

【中文分詞】最大熵馬爾可夫模型MEMM

最大熵模型進行中文分詞

中文分詞實現——雙向最大匹配

雙向最大匹配方法

正向最大匹配思想FMM

逆向最大匹配演算法BMM

雙向最大匹配法(Bi-directction Matching method,BM)

相關推薦