三叉搜尋樹（Ternary Search Trie）和中文分詞原理分析

阿新 • • 發佈：2019-01-20

三叉搜尋樹（Ternary Search Trie）

三叉搜尋樹是二叉搜尋樹和數字搜尋樹的混合體。它有和數字搜尋樹差不多的速度但是隻需要和二叉搜尋樹一樣相對較少的記憶體空間。在一個三叉搜尋樹中，每一個節點包含一個字元，和數字搜尋樹不同，三叉搜尋樹只有三個指標：一個指向左邊的樹；一個指向右邊的樹；還有一個向下，指向單詞的下一個資料單元。

三叉樹是否平衡取決於單詞的讀入順序。單詞的讀入順序對於建立平衡的三叉搜尋樹很重要，但對於二叉搜尋樹就不太重要。通過選擇一個排序後資料單元集合的中間值，並把它作為開始節點，我們可以建立一個平衡的三叉樹。可以寫一個專門的過程來生成平衡的三叉樹詞典。

取得平衡的單詞排序類似於洗撲克牌。假想有若干張撲克牌，每張牌對應一個單詞，先把牌排好序，然後取最中間的一張牌，單獨放著。剩下的牌分成了兩摞，左邊一摞牌中也取最中間的一張放在取出來的那張牌後面。右邊一摞牌中也取最中間的一張放在取出來的牌後面，以此類推。

/**
	 * 在呼叫此方法前，先把詞典陣列dict排好序
	 * 
	 * @param fp
	 *            寫入平衡序的詞典
	 * @param dict
	 *            排好序的詞典陣列
	 * @param offset
	 *            偏移量
	 * @param len
	 *            長度
	 * @throws IOException
	 */
	public void outputBalanced(BufferedWriter fp, ArrayList<String> dict, int offset, int len) throws IOException {
		int temp;
		if ( len < 1 ) return;
			
		temp = len >> 1;   // temp=len/2

		String item = dict.get( temp + offset );
		fp.write(item);// 把詞條寫入到檔案
		fp.write("\n");

		outputBalanced(fp, dict, offset, temp); // 輸出左半部分
		outputBalanced(fp, dict, offset + temp + 1, len - temp - 1); // 輸出右半部分
	}

以有序的資料單元（as at be by he in is it of on or to）為例。首先我們把關鍵字"is"作為中間值並且構建一個包含字母"i"的根節點。它的直接後繼節點包含字母"s"並且可以儲存任何與"is"有關聯的資料。對於"i"的左樹，我們選擇"be"作為中間值並且建立一個包含字母"b"的節點，字母"b"的直接後繼節點包含"e"。該資料儲存在"e"節點。對於"i"的右樹，按照邏輯，選擇"on"作為中間值，並且建立"o"節點以及它的直接後繼節點"n"。最終的三叉樹如圖：

垂直的虛線代表一個父節點下的直接後繼節點。只有父節點和它的直接後繼節點才能形成一個數據單元的關鍵字

；"i"和"s"形成關鍵字"is"，但是"i"和"b"不能形成關鍵字，因為它們之間僅用一條斜線相連，不具有直接後繼關係。圖中帶圈的節點為終止節點，如果查詢一個詞以終止節點結束，則說明三叉樹包含這個詞。從根節點開始查詢單詞，以搜尋單詞"is"為例，向下到相等的孩子節點"s"，在兩次比較後找到"is"。查詢"ax"時，執行三次比較達到首字元"a"，然後經過兩次比較到達第二個字元"x"，返回結果是"ax"不在樹中。

TernarySearchTrie本身儲存關鍵字到值的對應關係，可以當做HashMap物件來使用。關鍵字按照字元拆分成許多節點，以TSTNode的例項存在。值儲存在TSTNode的data屬性中。TSTNode的實現程式碼如下:

public final class TSTNode {
	/** 節點的值 */
	public Data			data	= null;	// data屬性可以儲存 詞原文和詞性、詞頻等相關的資訊

	protected TSTNode	loNode;		// 左邊節點
	protected TSTNode	eqNode;		// 中間節點
	protected TSTNode	hiNode;		// 右邊節點

	protected char		splitchar;		// 本節點表示的字元

	/**
	 * 構造方法
	 * 
	 * @param splitchar
	 *            該節點表示的字元
	 */
	protected TSTNode(char splitchar) {
		this.splitchar = splitchar;
	}

	public String toString() {
		return "splitchar:" + splitchar;
	}
}

查詢詞典的基本過程是：輸入一個詞，返回這個詞對應的TSTNode物件，如果該詞不在詞典中則返回空。在查詢詞典的過程中，從樹的根節點匹配Key，按Char從前往後匹配Key。charIndex表示Key當前要比較的Char的位置。

protected TSTNode getNode(String key, TSTNode startNode) {
		if (key == null) {
			return null;
		}
		int len = key.length();
		if (len == 0)
			return null;
		TSTNode currentNode = startNode; // 匹配過程中當前節點的位置
		int charIndex = 0;
		char cmpChar = key.charAt(charIndex);
		int charComp;
		while (true) {
			if (currentNode == null) {// 沒找到
				return null;
			}
			charComp = cmpChar - currentNode.splitchar;
			if (charComp == 0) {// 相等
				charIndex++;
				if (charIndex == len) {// 找到了
					return currentNode;
				} else {
					cmpChar = key.charAt(charIndex);
				}
				currentNodecurrentNode = currentNode.eqNode;
			} else if (charComp < 0) {// 小於
				currentNodecurrentNode = currentNode.loNode;
			} else {// 大於
				currentNodecurrentNode = currentNode.hiNode;
			}
		}
	}

三叉樹的建立過程也就是在Trie樹上建立和單詞對應的節點。實現程式碼如下:

// 向詞典樹中加入一個單詞的過程
	private TSTNode addWord(String key) {
		TSTNode currentNode = root; // 從樹的根節點開始查詢
		int charIndex = 0; // 從詞的開頭匹配
		while (true) {
			// 比較詞的當前字元與節點的當前字元
			int charComp = key.charAt(charIndex) - currentNode.splitchar;
			if (charComp == 0) {// 相等
				charIndex++;
				if (charIndex == key.length()) {
					return currentNode;
				}
				if (currentNode.eqNode == null) {
					currentNode.eqNode = new TSTNode(key.charAt(charIndex));
				}
				currentNodecurrentNode = currentNode.eqNode;
			} else if (charComp < 0) {// 小於
				if (currentNode.loNode == null) {
					currentNode.loNode = new TSTNode(key.charAt(charIndex));
				}
				currentNodecurrentNode = currentNode.loNode;
			} else {// 大於
				if (currentNode.hiNode == null) {
					currentNode.hiNode = new TSTNode(key.charAt(charIndex));
				}
				currentNodecurrentNode = currentNode.hiNode;
			}
		}
	}

相對於查詢過程，建立過程在搜尋過程中判斷出連結的空值後建立相關的節點，而不是碰到空值後結束搜尋過程並返回空值。

同一個詞可以有不同的詞性，例如"朝陽"既可能是一個"區"，也可能是一個"市"。可以把這些和某個詞的詞性相關的資訊放在同一個連結串列中。這個連結串列可以儲存在TSTNode 的Data屬性中。

中文分詞的原理

中文分詞有以下兩類方法。

機械匹配的方法：例如正向最大長度匹配（ForwardMaximum Match）的方法和逆向最大長度匹配（Reverse Maximum Matching）的方法。

統計的方法：例如最大概率分詞方法和最大熵分詞方法等。

正向最大長度匹配的分詞方法實現起來很簡單。每次從詞典中查詢和待匹配串字首最長匹配的詞，如果找到匹配詞，則把這個詞作為切分詞，待匹配串減去該詞；如果詞典中沒有詞與其匹配，則按單字切分。

例如："有意見分歧"這句話，正向最大長度切分的結果是"有意/見/分歧"，逆向最大長度切分的結果是"有/意見/分歧"。因為漢語的主幹成分後置，所以逆向最大長度切分的精確度稍高。

例如，Trie樹結構的詞典中包括如下的詞語：

大大學大學生活動生活中中心心

為了形成平衡的Trie樹，把詞先排序，結果為：

中中心大大學大學生心活動生活

按平衡方式生成的詞典Trie樹如圖所示，其中粗黑顯示的節點可以作為匹配終止節點。

例如：要搜尋“大學生活動中心”。按照正向最大長度匹配原則，將字串“大學生活動中心”拆分為：大學生、活動、中心。

從Trie樹搜尋最長匹配單詞的方法如下所示：

public String matchLong(String key, int offset) { // 輸入字串和匹配的開始位置
		String ret = null;
		if (key == null || rootNode == null || "".equals(key)) {
			return ret;
		}
		TSTNode currentNode = rootNode;
		int charIndex = offset;
		while (true) {
			if (currentNode == null) {
				return ret;
			}
			int charComp = key.charAt(charIndex) - currentNode.spliter;

			if (charComp == 0) {
				charIndex++;

				if (currentNode.data != null) {
					ret = currentNode.data; // 候選最長匹配詞
				}
				if (charIndex == key.length()) {
					return ret; // 已經匹配完
				}
				currentNodecurrentNode = currentNode.eqNode;
			} else if (charComp < 0) {
			} else {
			}
		}
	}

測試matchLong方法如下所示：

 String sentence = "大學生活動中心";//輸入字串  
 int offset = 0;//匹配的開始位置  
 String ret = dic.matchLong(sentence,offset); 
 System.out.println(sentence+" match:"+ret);

返回結果如下所示：

大學生活動中心match:大學生

正向最大長度分詞的實現程式碼如下所示：

	public void wordSegment(String sentence) {// 傳入一個字串作為要處理的物件
		int senLen = sentence.length();// 首先計算出傳入的字串的字元長度
		int i = 0;// 控制匹配的起始位置

		while (i < senLen) {// 如果i小於此字串的長度就繼續匹配
			String word = dic.matchLong(sentence, i);// 正向最大長度匹配
			if (word != null) {// 已經匹配上
				// 下次匹配點在這個詞之後
				i += word.length();
				// 如果這個詞是詞庫中的那麼就打印出來
				System.out.print(word + " ");
			} else {// 如果在詞典中沒有找到匹配上的詞，就按單字切分
				word = sentence.substring(i, i + 1);
				// 列印一個字
				System.out.print(word + " ");
				++i;// 下次匹配點在這個字元之後
			}
		}
	}

因為採用了Trie樹結構查詢單詞，所以和用HashMap查詢單詞的方式比較起來，這種實現方法程式碼更簡單，而且切分速度更快。

三叉搜尋樹（Ternary Search Trie）和中文分詞原理分析

三叉搜尋樹（Ternary Search Trie）和中文分詞原理分析

二叉搜尋樹（binary search tree）

自定義樹（2）：二分搜尋樹（Binary Search Tree）

【資料結構05】紅-黑樹基礎----二叉搜尋樹（Binary Search Tree）

二分搜尋樹（Binary Search Tree）

“樹”據結構一：二叉搜尋樹（Binary Search Tree, BST）

資料機構與演算法：二叉查詢樹（Binary Search Tree）Java實現

二叉查詢樹（binary search tree）——python實現

二叉查詢樹（Binary Search Tree）

（五）Lucene——中文分詞器

隱馬爾可夫模型（HMM）和 jieba分詞原始碼的理解

NLP詞法分析（一）：中文分詞

solr 6.2.0系列教程（二）IK中文分詞器配置及新增擴充套件詞、停止詞、同義詞

python自然語言處理（一）之中文分詞預處理、統計詞頻

Python自然語言處理實戰（3）：中文分詞技術

python自然語言處理（NLP）1------中文分詞1，基於規則的中文分詞方法

一個簡單最大正向匹配（Maximum Matching）MM中文分詞演算法的實現

入門科普：一文看懂NLP和中文分詞演算法（附程式碼舉例）

自然語言處理入門（4）——中文分詞原理及分詞工具介紹

HMM（隱馬爾科夫）用於中文分詞

三叉搜尋樹（Ternary Search Trie）和中文分詞原理分析

相關推薦