中文分詞的研究經歷了二十多年,基本上可以分為如下三個流派。

1.機械式分詞法(基於字典)。機械分詞的原理是將文件中的字串與詞典中的詞條進行逐一匹配,如果詞典中找到某個字串,則匹配成功,可以切分,否則不予切分。基於詞典的機械分詞法,實現簡單、實用性強,但機械分詞法的最大的缺點是詞典的完備性不能得到保證。

2.基於語法和規則的分詞法。其基本思想就是在分詞的同時進行句法、語義分析,利用句法資訊和語義資訊來進行詞性標註,以解決分詞歧義現象。因為現有的語法知識、句法規則十分籠統、複雜,基於語法和規則的分詞法所能達到的精確度還遠遠不能令人滿意。目前這種分詞系統還處在實驗階段。

3.基於統計的分詞法。其基本原理是根據字串在語料庫中出現的統計頻率來決定其是否構成詞。詞是字的組合,相鄰的字同時出現的次數越多,就越有可能構成一個詞。因此,字與字相鄰共現的頻率或者概率能夠較好地反映它們成為詞的可信度。

本章

3.1中文分詞法的兩種分詞標準

漢語分詞也可以分兩個粒度。粗粒度分詞:將詞作為語言處理最小的基本單元進行切分。細粒度分詞:不僅對詞彙進行切分,也對詞彙內部的語素進行切分。

        粗粒度切分主要用於自然語言處理的各種應用;而細粒度分詞最常用的領域就是搜尋引擎。一種常用的方案是,在索引的時候使用細粒度的分詞以保證召回,在查詢的時候使用粗粒度的分詞以保證精度。

3.2歧義、機械分詞、語言模型

定義7-1(交集型切分歧義)  漢字串AJB稱作交集型切分歧義,如果滿足AJ、JB同時為詞(A、J、B分別為漢字串),則此時漢字串J稱作交集串。(樑南元1987)

例如,交集型切分歧義:“結合成”

其中,A=“結”,J=“合”,B=“成”。

一種切分為:(a)結合 | 成 ;另一種切分為:(b)結 | 合成

定義7-3(組合型切分歧義) 漢字串AB稱作多義組合型切分歧義,如果滿足A、B、AB同時為詞。

例如,多義組合型切分歧義:“起身”

定義7-3‘(多義組合型切分歧義) 漢字串AB稱作多義組合型切分歧義,如果滿足(1)A、B、AB同時為詞;(2)文字中至少存在一個上下文語境c,在c的約束下,A、B在語法和語義上都成立。

機械分詞系統都是基於最大匹配方法作為最基本的分詞演算法。該方法由蘇聯漢俄翻譯學者提出,也稱為MM(the Maximum Matching Method)方法。使用MM方法切分的精度並不高,很難達到實際應用的要求,隨著語料的增大,誤差也逐漸變大。