1. 程式人生 > >自然語言處理入門----中文分詞原理

自然語言處理入門----中文分詞原理

1.中文分詞原理介紹

1.1 中文分詞概述

中文分詞(Chinese Word Segmentation) 指的是將一個漢字序列切分成一個一個單獨的詞。分詞就是將連續的字序列按照一定的規範重新組合成詞序列的過程。

1.2 中文分詞方法介紹

現有的分詞方法可分為三大類:基於字串匹配的分詞方法、基於理解的分詞方法和基於統計的分詞方法。

1.2.1 基於字串匹配的分詞方法

基於字串匹配的分詞方法又稱機械分詞方法,它是按照一定的策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行配,若在詞典中找到某個字串,則匹配成功(識別出一個詞)。

按照掃描方向的不同,字串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長度優先匹配的情況,可以分為最大(最長)匹配和最小(最短)匹配;按照是否與詞性標註過程相結合,可以分為單純分詞方法和分詞與詞性標註相結合的一體化方法。常用的字串匹配方法有如下幾種:

(1)正向最大匹配法(從左到右的方向);

(2)逆向最大匹配法(從右到左的方向);

(3)最小切分(每一句中切出的詞數最小);

(4)雙向最大匹配(進行從左到右、從右到左兩次掃描)

這類演算法的優點是速度快,時間複雜度可以保持在O(n),實現簡單,效果尚可;但對歧義和未登入詞處理效果不佳。

1.2.2 基於理解的分詞方法

基於理解的分詞方法是通過讓計算機模擬人對句子的理解,達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法資訊和語義資訊來處理歧義現象。它通常包括三個部分:分詞子系統、句法語義子系統、總控部分。在總控部分的協調下,分詞子系統可以獲得有關詞、句子等的句法和語義資訊來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和資訊。由於漢語語言知識的籠統、複雜性,難以將各種語言資訊組織成機器可直接讀取的形式,因此目前基於理解的分詞系統還處在試驗階段。

1.2.3 基於統計的分詞方法

基於統計的分詞方法是在給定大量已經分詞的文字的前提下,利用統計機器學習模型學習詞語切分的規律(稱為訓練),從而實現對未知文字的切分。例如最大概率分詞方法和最大熵分詞方法等。隨著大規模語料庫的建立,統計機器學習方法的研究和發展,基於統計的中文分詞方法漸漸成為了主流方法

主要的統計模型有:N元文法模型(N-gram),隱馬爾可夫模型(Hidden Markov Model ,HMM),最大熵模型(ME),條件隨機場模型(Conditional Random Fields,CRF)等。

在實際的應用中,基於統計的分詞系統都需要使用分詞詞典來進行字串匹配分詞,同時使用統計方法識別一些新詞,即將字串頻率統計和字串匹配結合起來,既發揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結合上下文識別生詞、自動消除歧義的優點。

原文:https://blog.csdn.net/flysky1991/article/details/73948971