NLP詞法分析（一）：中文分詞

##1.中文分詞介紹中文分詞相較於英文分詞要難許多，因為英文字身就是由單詞與空格組成的，而中文則是由獨立的字組成的，但同時語義卻是有詞來表達的。因此對於中文的分析與研究，首先應尋找合適的方法進行分詞。現有的中文分詞技術主要分為規則分詞，統計分詞與規則加統計相結合的方式，接下來將分別介紹。 ###1.1規則分詞規則分詞主要是通過構建詞典，對需要進行分詞的語句與詞典中的詞語進行匹配，從而實現切分，具體主要有正向最大匹配法，逆向最大匹配法，雙向最大匹配法。 ####1.1.1正向最大匹配法正向最大匹配法實現的原理如下：假設分詞詞典中最長詞語的長度為 i，那麼則選取需要進行分詞的語句中的前 i

個字，查詢是否匹配詞典中長度為i的詞。如果匹配，則進行切分；如果不匹配，則選取i-1個字查詢分詞詞典是否匹配，以此類推，直至成功切分。接著對於剩餘的欄位採取同樣的方法進行切分，直到最後完全切分。比如我們現在要對“正向最大匹配法”進行分詞，而我們的分詞字典最長的詞語長度為4。首先選取前四個字“正向最大”，詞典中並無匹配，那麼接著選取前三個字“正向最”，依舊沒有，再選擇前兩個字“正向”，成功匹配，則進行切分，接著選取之後的四個字“最大匹配”，以此類推，繼續切分，直至切分完畢。 ####1.1.2逆向最大匹配法逆向最大匹配法的原理與正向是基本一致的，只是逆向最大匹配法是從句尾開始進行匹配。由於漢語中偏正結構較多，一般逆向最大匹配法的結果準確度要稍高於正向最大匹配法 ####1.1.3雙向最大匹配法雙向最大匹配法是在正向與逆向最大匹配法的基礎上對兩者結果進行比較，選取切分詞數較少的一個結果作為最終分詞。雙向最大匹配法在實際中運用更為廣接下來，通過python實現雙向最大匹配法：

規則分詞在一般的分詞任務中已經能夠得到較好的結果了，但是其缺點是需要大量人力物力去維護與更新分詞詞典。同時，對於新詞，規則分詞很難能夠正確切割。相反，統計分詞法較好的解決的這個問題。

###1.2統計分詞統計分詞的基本思想是基於統計的概念，如果相連的字在不同的地方出現的次數越多，則其越有可能為一個詞。因此我們可以利用出項概率來推測成詞的可能性，從而實現分詞。常見的統計分詞方法有隱含馬爾可夫（HMM）、條件隨機場（CRF）等。接下來我們首先建立統計分詞的語言模型，接著簡單介紹一下HMM

####1.2.1統計分詞語言模型假設字串的長度為m，那麼對於這個字串的概率分佈可以描述為： $P (w_{1},$

w2,...,wm)P(w_1,w_2,...,w_m)

P (w_{1}, w_{2}, . . ., w_{m})

通過鏈式法則，我們可以計算其概率值：

P(w_1,w_2,...,w_m)=P(w_1)P(w_2|w_1)P(w_3|w_2,w_1)···P(w_i|w_{i-1},w_{i-2},..,w_1) ···P(w_m|w_{m-1}...w_1)

由於實際計算中，上式非常複雜，一般採用n-gram模型進行簡化計算。n-gram模型即只考慮與字距離在n以內的文字對於這個字的影響。這樣條件概率

P(w_i|w_{i-1},w_{i-2},..,w_1)

可以表示為：

P(w_i|w_{i-1},w_{i-2},..,w_1)=P(w_i|w_{i-1},w_{i-2},..,w_{i-(n-1)})

這樣，當n=1時，為unigram模型：

P(w_i|w_{i-1},w_{i-2},..,w_1)=P(w_i)P(w_{i-1})···P(w_1)

即為每個字單獨的概率，但是unigram模型無法保留相鄰字之間的關係，所以用於分詞效果很不理想。當n=2,3時，模型可以保留一定的字之間的資訊，又不至於使得計算過為複雜。

####1.2.2HMM模型 HMM即隱含馬爾可夫模型，其基本思想為，將字在構造詞的過程中所承擔的角色歸為4類：B(begin),M(middle),E(end),S(single)，接著，句子的分詞任務便可以轉化成對對句子中每個字進行標註角色的任務。在介紹HMM分詞之前，首先需要介紹隱含馬爾可夫過程。 ####隱含馬爾可夫過程一般來說，馬爾可夫假設為：對於某一個隨機過程，假設其存在n個狀態S，那麼對於某個特定的狀態 $S_i$ ，其概率分佈只與前一個狀態 $S_{i-1}$ 有關。即： $P(S_i|S_1,S_2,...S_{i-1})=P(S_i|S_{i-1}$ 而符合馬爾可夫假設的過程即為馬爾可夫過程，也叫做馬爾可夫鏈,一般的馬爾可夫連結串列示如下：在這裡插入圖片描述上圖中，每個圓代表一個狀態，而線代表狀態的轉移與其概率。而隱含馬爾可夫過程是馬爾可夫過程的擴充套件。在隱含馬爾可夫過程中，不同時刻的狀態 $S_i$ 是不可見的，所以無法通過觀測 $S_i$ 來推測不同狀態的概率分佈。但是其在每個狀態時會輸出一個特定的特徵 $\sigma_i$ ,並且這個特徵 $\sigma_i$ 的概率分佈與且僅與當前的狀態有關。這就是隱含馬爾可夫過程：在這裡插入圖片描述上圖中，x代表狀態，y代表對應特徵。 ####HMM分詞瞭解了隱含馬爾可夫過程，便可以介紹HMM分詞模型了。通過上述內容我們可以很容易的發現HMM分詞是典型的隱含馬爾可夫過程。其中B\M\E\S代表不同的狀態，而句子中每個字則代表其不同狀態所產生的特徵。而我們的任務則是根據概率分佈推測句子中每一個字背後的狀態，從而達到分詞。通過數學模型推導過程如下：假設用 $\lambda=\lambda_1\lambda_2...\lambda_n$ 表示句子與其中每一個字。而用 $\sigma=\sigma_1\sigma_2...\sigma_n$ 表示對應的狀態。則分詞任務可以描述成： $max P=max P(\sigma|\lambda)=P(\sigma_1\sigma_2...\sigma_n|\lambda_1\lambda_2...\lambda_n)$ 通過貝葉斯公式可以得到： $P(\sigma|\lambda)=\frac{P(\lambda|\sigma)P(\sigma)}{P(\lambda)}$ 對於 $P(\lambda)$ ，其只與分詞時使用的訓練集有關，是個常數。則我們的模型可以轉化為求： $max P(\lambda|\sigma)P(\sigma)$ 根據隱含馬爾可夫過程的假設 $P(\lambda|\sigma)=P(\lambda_1|\sigma_1)P(\lambda_2|\sigma_2)···P(\lambda_n|\sigma_n)$ 同時，對於 $P(\sigma)$ : $P(\sigma)=P(\sigma_1)P(\sigma_2|\sigma_1)···P(\sigma_n|\sigma_1,\sigma_2...\sigma_{n-1})$

NLP詞法分析（一）：中文分詞

NLP詞法分析（一）：中文分詞

Elasticsearch外掛（一）：ik分詞

python自然語言處理（一）之中文分詞預處理、統計詞頻

Python自然語言處理實戰（3）：中文分詞技術

webpack官方文檔分析（一）：安裝

用Python預測某某國際平臺概率分析（一）：這個到底是什麽，是什麽樣的規則？

轉載：Docker源碼分析（一）：Docker架構

Vue原始碼分析（一）：入口檔案

Spring Cloud Eureka原理分析（一）：註冊過程-服務端

Cat原始碼分析（一）：Client端

bigdata資料分析（一）：Java環境配置

Spark2.3.2原始碼解析： 6. SparkContext原始碼分析（一）： SparkEnv

第三章 - 有窮自動機與詞法分析（一）

Rxjava2原始碼分析（一）：Flowable的建立和基本使用過程分析

(Stanford CS224d) Deep Learning and NLP課程筆記（一）：Deep NLP

RxJava2原始碼分析（一）：基本流程分析

Docker原始碼分析（一）：Docker架構

Live555分析（一）：VS2008編譯

Netlink 核心實現分析（一）：建立

ThreadPoolExecutor原始碼分析（一）：重要成員變數

NLP詞法分析（一）：中文分詞

相關推薦