python自然語言處理（NLP）1------中文分詞1，基於規則的中文分詞方法

阿新 • • 發佈：2019-01-09

python中文分詞方法之基於規則的中文分詞

基於規則的中文分詞

包括，正向最大匹配法，逆向最大匹配法和雙向最大匹配法。
最大匹配方法是最有代表性的一種基於詞典和規則的方法，其缺點是嚴重依賴詞典，無法很好地處理分詞歧義和未登入詞。優點是由於這種方法簡單、速度快、且分詞效果基本可以滿足需求，因此在工業界仍然很受歡迎。

正向最大匹配法

思想：
正如方法名稱，正向表示對句子從左到右選擇詞典中最長的詞條進行匹配，獲得分詞結果。
1、統計分詞詞典，確定詞典中最長詞條的字元m；
2、從左向右取待切分語句的m個字元作為匹配欄位，查詢詞典，如果匹配成功，則作為一個切分後的詞語，否則，去掉待匹配字元的最後一個繼續查詢詞典，重複上述步驟直到切分出所有詞語。

Coding舉例：

dictA = ['南京市', '南京市長', '長江大橋',  '大橋']

maxDictA = max([len(word) for word in dictA])

sentence = "南京市長江大橋"

def cutA(sentence):
    result = []
    sentenceLen = len(sentence)
    n = 0

    while n < sentenceLen:
        matched = 0
        for i in range(maxDictA, 0, -1):
            piece = sentence[n:n+i]
            if 
 piece in dictA:
                result.append(piece)
                matched = 1
                n = n + i
                break
        if not matched:
            result.append(sentence[n])
            n += 1
    print(result)

cutA(sentence)  # ['南京市長', '江', '大橋']

說明：具體應用中需要去除停用詞

逆向最大匹配法

思想：
與正向最大匹配原理相同，主要差異是：
1、對句子從右到左選擇詞典中最長的詞條進行匹配，獲得分詞結果；
2、當匹配失敗時，去掉待匹配字元的最前面的一個繼續查詢詞典。

Coding舉例：

dictB = ['南京市', '南京市長', '長江大橋',  '大橋']

maxDictB = max([len(word) for word in dictA])

sentence = "南京市長江大橋"

def cutB(sentence):
    result = []
    sentenceLen = len(sentence)

    while sentenceLen > 0:
        word = ''
        for i in range(maxDictB, 0, -1):
            piece = sentence[sentenceLen-i:sentenceLen]
            if piece in dictB:
                word = piece
                result.append(word)
                sentenceLen -= i
                break

        if word is '':
            sentenceLen -= 1
            result.append(sentence[sentenceLen])

    print(result[::-1])

cutB(sentence)  # ['南京市', '長江大橋']

雙向最大匹配法

思想：
將正向最大匹配和逆向匹配得到的分詞結果進行比較，按照最大匹配原則，選擇切分總詞數最少的作為最終分詞結果。

舉例：
dictA：# [‘南京市長’, ‘江’, ‘大橋’]
dictB: # [‘南京市’, ‘長江大橋’]
最終選擇，dictB的結果。

總結：詞典簡單高效，但是詞典構建工作量巨大，對於新詞切分總慢一步，很難通過詞典覆蓋到所有詞。

二、推薦中文分詞工具

請參考另外一篇文章，連結如下：

python自然語言處理（NLP）1------中文分詞1，基於規則的中文分詞方法

python中文分詞方法之基於規則的中文分詞

目錄

常見中文分詞方法

推薦中文分詞工具

參考連結

一、四種常見的中文分詞方法：

基於規則的中文分詞

正向最大匹配法

逆向最大匹配法

雙向最大匹配法

總結：詞典簡單高效，但是詞典構建工作量巨大，對於新詞切分總慢一步，很難通過詞典覆蓋到所有詞。

二、推薦中文分詞工具

三、參考連結

python自然語言處理（NLP）1------中文分詞1，基於規則的中文分詞方法

Python 自然語言處理（NLP）工具庫彙總

Python自然語言處理（NLP）工具小結

1.自然語言處理（NLP）與Python

自然語言處理（NLP）- HMM+VITERBI演算法實現詞性標註（解碼問題）（動態規劃）（Python實現）

python自然語言處理（二）

python自然語言處理（一）

關於自然語言處理（NLP）的個人學習資料

自然語言處理（NLP）——分詞統計可能用到的模組方法

Pytext：Facebook基於PyTorch的自然語言處理（NLP）開源框架

自然語言處理（NLP）常用開源工具總結----不定期更新

不是你無法入門自然語言處理（NLP），而是你沒找到正確的開啟方式

聊天機器人（chatbot）終極指南：自然語言處理（NLP）和深度機器學習（Deep Machine Learning）

自然語言處理（NLP）知識結構總結

自然語言處理（NLP）的基本原理及應用

python自然語言處理（一）之中文分詞預處理、統計詞頻

利用Tensorflow進行自然語言處理（NLP）系列之二高階Word2Vec

淺談自然語言處理（NLP）和自然語言理解（NLU）

初學者如何查閱自然語言處理（NLP）領域學術資料

最好的入門自然語言處理（NLP）的資源清單

python自然語言處理（NLP）1------中文分詞1，基於規則的中文分詞方法

python中文分詞方法之基於規則的中文分詞

目錄

常見中文分詞方法

推薦中文分詞工具

參考連結

一、四種常見的中文分詞方法：

基於規則的中文分詞

正向最大匹配法

逆向最大匹配法

雙向最大匹配法

總結：詞典簡單高效，但是詞典構建工作量巨大，對於新詞切分總慢一步，很難通過詞典覆蓋到所有詞。

二、推薦中文分詞工具

三、參考連結

相關推薦