python_NLP實戰之中文分詞技術

阿新 • • 發佈：2018-12-18

一、規則分詞

1.1 正向最大匹配演算法

# 正向最大匹配演算法 MM法 規則分詞
class MM(object):
    def __init__(self):
        self.window_size=3

    def cut(self,text):
        result=[]
        index=0
        text_length=len(text)
        dic=['研究','研究生','生命','命','的','起源']
        while text_length>index:
            for size in range(self.window_size+index,index,-1):
                piece=text[index:size]
                if piece in dic:
                    index=size-1
                    break
            index=index+1
            result.append(piece+'-------')
        print(result)
if __name__=='__main__':
    text='研究生命的起源'
    tokenizer=MM()
    print(tokenizer.cut(text))

1.2 逆向最大匹配演算法

# RMM逆向最大匹配演算法   規則分詞
class RMM(object):
    def __init__(self):
        self.window_size=3
    def cut(self,text):
        result=[]
        index=len(text)
        dic=['研究','研究生','生命','命','的','起源']
        while index>0:
            for size in range(index-self.window_size,index):
                piece=text[size:index]
                if piece in dic:
                    index=size+1
                    break
            index=index-1
            result.append(piece+'------')
        result.reverse()
        print(result)

if __name__=='__main__':
    text = '研究生命的起源'
    tokenizer = RMM()
    print(tokenizer.cut(text))

二、統計分詞

2.1 HMM模型

初始概率分佈

z1可能是狀態1，狀態2 ... 狀態n，於是z1就有個N點分佈：

Z1	狀態1	狀態2	...	狀態n
概率	P1	P2	...	Pn

即：Z1對應個n維的向量。

上面這個n維的向量就是初始概率分佈，記做π。

狀態轉移矩陣

但Z2就不能簡單的“同上”完事了，因為Z2和Z1不獨立，所以Z2是狀態1的概率有：Z1是狀態1時Z2是狀態1，Z1是狀態2時Z2是狀態1,..., Z1是狀態n時Z2是狀態1，於是就是下面的表

Z2 Z1	狀態1	狀態2	...	狀態n
狀態1	P11	P12	...	P1n
狀態2	P21	P22	...	P2n
...	...	...	...	...
狀態n	Pn1	Pn2	...	Pnn

即：Z1->Z2對應個n*n的矩陣。

同理：Zi -> Zi+1對應個n*n的矩陣。

上面這些n*n的矩陣被稱為狀態轉移矩陣，用An*n表示。

當然了，真要說的話，Zi -> Zi+1的狀態轉移矩陣一定都不一樣，但在實際應用中一般將這些狀態轉移矩陣定為同一個，即：只有一個狀態轉移矩陣。

圖1的第一行就搞定了，下面是第二行。

觀測矩陣

如果對於zi有：狀態1, 狀態2, ..., 狀態n，那zi的每一個狀態都會從下面的m個觀測中產生一個：觀測1, 觀測2, ..., 觀測m，所以有如下矩陣：

X Z	觀測1	觀測2	...	觀測m
狀態1	P11	P12	...	P1m
狀態2	P21	P22	...	P2m
...	...	...	...	...
狀態n	Pn1	Pn2	...	Pnm

這可以用一個n*m的矩陣表示，也就是觀測矩陣，記做Bn*m。

由於HMM用上面的π，A，B就可以描述了，於是我們就可以說：HMM由初始概率分佈π、狀態轉移概率分佈A以及觀測概率分佈B確定，為了方便表達，把A, B, π 用 λ 表示，即：

λ = (A, B, π)

例子

假設我們相對如下這行話進行分詞：

歡迎來到我的部落格

再假設我們是這樣分的：找到“終止字”，然後根據終止字來分詞。即：對於這行字，“迎、到、我、的、客”是終止字，於是最終這麼分詞：歡迎/來到/我/的/部落格

下面用上面的知識對這個例子建立HMM的A, B, π：

初始概率分佈的確定：

1，對於每個樣本，我們的目標是確定其是不是“終止字”，因此對於每個樣本，其狀態只有n=2個：狀態1 -- 是、狀態2 -- 不是。

2，因此初始概率分佈π為：

π = {p1，p2}

P1：整個句子中第一個字是非終止字的概率

P2：整個句子中第一個字是終止字的概率

狀態轉移矩陣的確定：

剛才已經知道狀態有n=2個，於是狀態轉移矩陣就立馬得出了，即狀態轉移矩陣是個n*n的矩陣，如下：

p11：非終止字 -> 非終止字的概率。

p12：非終止字 -> 終止字的概率。

p21：終止字 -> 非終止字的概率。

p22：終止字 -> 終止字的概率。

觀測矩陣的確定：

如果我們的目標文字使用Unicode編碼，那麼上面的任何一個字都是0~65535中的一個數，於是我們的觀測就會有m=65536個，於是觀測矩陣就是個n*m的矩陣，如下：

p1,0：Unicode編碼中0對應的漢字是非終止字的概率

p1,65535：Unicode編碼中65535對應的漢字是非終止字的概率

p2,0：Unicode編碼中0對應的漢字是終止字的概率

p2,65535：Unicode編碼中65535對應的漢字是終止字的概率

PS：為什麼x會有65535個觀測啊？“歡迎來到我的部落格”這個明明只有8個字。原因是因為真正的HMM面臨的情況，即：現有了 Z1=“非終止字”這個狀態，然後根據這個狀態從65535個字中選出x1=“歡”這個字，然後根據狀態轉移矩陣，下一次轉移到了Z2 =“終止字”，然後根據Z2從65535個字中選出了x2=“迎”這個字，這樣，最終生成了這句話。

# 統計分詞
#  1、先建立語言模型
#  2、對句子進行單詞劃分，對劃分結果進行概率計算，獲得概率最大的分詞方式
# HMM
class HMM(object):
    def __init__(self):
        import os
        # 儲存訓練的模型
        self.model_file='./data/hmm_model.pkl'
        # 狀態特徵值集合
        self.state_list=['B','M','E','S']
        # 判斷是否需要重新載入模型
        self.load_para=False
    def try_load_model(self,trained):
        if trained:
            import pickle
            with open(self.model_file,'rb' ) as f:
                self.A_dic=pickle.load(f)
                self.B_dic=pickle.load(f)
                self.Pi_dic=pickle.load(f)
                self.load_para=True
        else:
            # 狀態轉移概率 （狀態-》狀態的條件概率）
            self.A_dic={}
            # 發射概率 （狀態-》詞語的條件概率
            self.B_dic={}
            # 狀態的初始概率
            self.Pi_dic={}
            self.load_para=False
    #         計算轉移概率，初始概率，發射概率
    def train(self,path):
        # 重置幾個概率矩陣
        self.try_load_model(False)
        # 統計狀態出現次數
        Count_dic={}
        def init_parameters():
            for state in self.state_list:
                self.A_dic[state]={s:0.0 for s in self.state_list}
                self.Pi_dic[state]=0.0
                self.B_dic[state]={}
                Count_dic[state]=0

        def makeLabel(text):
            out_text=[]
            if len(text)==1:
                out_text.append(['S'])
            else:
                out_text+=['B']+['M']*(len(text)-2)+['E']
            return out_text
        init_parameters()
        line_num=-1

        words=set()
        with open(path,encoding='utf-8') as f:
            for line in f:
                line_num+=1
                line=line.strip()
                if not line:
                    continue
                word_list=[i for i in line if i!='']
                words |=set(word_list)

                linelist=line.split()

                line_state=[]
                for w in linelist:
                    line_state.extend(makeLabel(w))
                assert len(word_list)==len(line_state)

                for k, v in enumerate(line_state):
                    Count_dic[v]+=1
                    if k==0:
                        self.Pi_dic[v]+=1
                    else:
                        self.A_dic[line_state[k-1]][v]+=1
                        self.B_dic[line_state[k]][word_list[k]]=self.B_dic[line_state[k]].get(word_list[k],0)+1.0



        self.Pi_dic={k: v*1.0/line_num for k,v in self.Pi_dic.items()}
        self.A_dic={k:{k1: v1/Count_dic[k] for k1,v1 in v.items()}for k,v in self.A_dic.items()}
        self.B_dic={k: {k1:(v1+1)/Count_dic[k] for k1,v1 in v.items()} for k,v in self.B_dic.items()}
        import pickle
        with open(self.model_file,'wb') as f:
            pickle.dump(self.A_dic,f)
            pickle.dump(self.B_dic,f)
            pickle.dump(self.Pi_dic,f)
        return self

    def viterbi(self,text,states,start_p,train_p,emit_p):
        V=[{}]
        path={}
        for y in states:
            V[0][y]=start_p[y]*emit_p[y].get(text[0],0)
            path[y]=[y]
        for t in range(1,len(text)):
            V.append({})
            newpath={}
            neverSeen=text[t] not in emit_p['S'].keys() and \
                      text[t] not in emit_p['M'].keys() and \
                      text[t] not in emit_p['E'].keys() and \
                      text[t] not in emit_p['B'].keys()
            for y in states:
                emitP=emit_p[y].get(text[t],0) if not neverSeen else 1.0
                (prob,state)=max([(V[len(text)-1][y],y) for y in ('E','M')])
            else:
                (prob, state) = max([(V[len(text) - 1][y], y) for y in states])
        return (prob,path[state])
    def cut(self,text):
        import os
        if not self.load_para:
            self.try_load_model(os.path.exists(self.model_file))
        prob,pos_list=self.viterbi(text,self.state_list,self.Pi_dic,self.A_dic,self.B_dic)
        begin,next=0,0
        for i ,char in enumerate(text):
            pos=pos_list[i]
            if pos=='B':
                begin=i
            elif pos=='E':
                yield text[begin:i+1]
                next=i+1
            elif pos=='S':
                yield char
                next=i+1
        if next<len(text):
            yield text[next:]

hmm=HMM()
hmm.train('./data/trainCorpus.txt_utf8')

2.2 CRF

三、中文分詞工具_JieBa

jieba分詞結合了基於規則和基於統計的兩種方法

基於漢字成詞的HMM模型，採用了Verterbi演算法進行推導

3.1高頻詞提取

高頻詞就是NLP中的TF策略

進行資料的讀取
def get_content(path):
    with open(path,'r',encoding='utf-8',errors='ignore') as f:
        content=''
        for l in f:
            l=l.strip()
            content+=l
    return content
def stop_words(path):
    with open(path,encoding='utf-8') as f:
        return [l.strip() for l in f]
定義高頻詞統計的函式，輸入是一個詞的陣列
def get_TF(words,topK=10):
    tf_dic={ }
    for w in words:
        tf_dic[w]=tf_dic.get(w,0)+1
    return sorted(tf_dic.items(),key =lambda x:x[1],reverse=True)[:topK]

def main():
    import glob
    import random
    import jieba
    files=glob.glob('./data/news/C000013/*.txt')
    corpus=[get_content(x) for x in files]

    sample_inx=random.randint(0,len(corpus))
    split_words=[x for x in jieba.cut(corpus[sample_inx]) if x not in stop_words('./data/stop_words.utf8')]
    print('樣本之一：' + corpus[sample_inx])
    print('樣本分詞效果：' + '/ '.join(split_words))
    print('樣本的topK（10）詞：' + str(get_TF(split_words)))

main()

python_NLP實戰之中文分詞技術

一、規則分詞 1.1 正向最大匹配演算法 # 正向最大匹配演算法 MM法規則分詞 class MM(object): def __init__(self): self.window_size=3 def cut(self,text)

Python自然語言處理實戰（3）：中文分詞技術

3.1、中文分詞簡介在英文中，單詞本身就是“詞”的表達，一篇英文文章就是“單詞”加分隔符（空格）來表示的，而在漢語中，詞以字為基本單位的，但是一篇文章的語義表達卻仍然是以詞來劃分的。自中文自動分詞被提出以來，歷經將近30年的探索，提出了很多方法，可

自然語言處理之中文分詞器－jieba分詞器詳解及python實戰

中文分詞是中文文字處理的一個基礎步驟，也是中文人機自然語言互動的基礎模組，在進行中文自然語言處理時，通常需要先進行分詞。本文詳細介紹現在非常流行的且開源的分詞器結巴jieba分詞器，並使用python實

hanlp原始碼解析之中文分詞演算法詳解

詞圖詞圖指的是句子中所有詞可能構成的圖。如果一個詞A的下一個詞可能是B的話，那麼A和B之間具有一條路徑E(A,B)。一個詞可能有多個後續，同時也可能有多個前驅，它們構成的圖我稱作詞圖。需要稀疏2維矩陣模型，以一個詞的起始位置作為行，終止位置作為列，可以得到一個二維矩陣。例如：“他說的確實

Hanlp原始碼解析之中文分詞演算法

Elasticsearch筆記六之中文分詞器及自定義分詞器

中文分詞器在lunix下執行下列命令，可以看到本來應該按照中文”北京大學”來查詢結果es將其分拆為”北”,”京”,”大”,”學”四個漢字，這顯然不符合我的預期。這是因為Es預設的是英文分詞器我需要為其配置中文分詞器。 curlHTTP://192.168.79.131:9

Elasticsearch之中文分詞器

Elasticsearch的中文分詞器　　1、單字分詞：　　　　如：“我們是中國人” 　　　　效果：“我”“們”“是”“中”“國”“人” 　　2、二分法分詞：按兩個字進行切分。　　　　如：“我們是中國人”，效果：“我們”、“們是”、“是中”、“中國”、“國人

詞法分析-中文分詞技術-正向最大匹配法與逆向最大匹配法

Long Time No See... 最近深受痛苦的折磨，這一年來所有的事跌宕起伏，如同一瞬，一個個打擊接踵而至，從年初的各種擦邊掛，到各種失敗，各種放棄，似乎沒有發生一個順心的事，不知道從什麼時候起戾氣變得越來越重，更無與人說。不管如何，“盡吾志也而不能至者，可以無悔矣，其孰能譏之乎？”……

文字分析之中文分詞

在處理文字分析時，我們經常需要面臨的一個問題就是分詞，特別是在中國當前的IT環境下，大部分文字資料都是中文，中文和英文有一些不一樣，中文字與字之間沒有明顯的分隔符，而英文單詞與單詞之間有自然的空格符來分隔。中文分詞屬於自然語言處理的範疇，中文分詞廣泛應用於搜尋引

NLP+詞法系列（二）︱中文分詞技術簡述、深度學習分詞實踐（CIPS2016、超多案例）

詞法分析是將輸入句子從字序列轉化為詞和詞性序列，句法分析將輸入句子從詞序列形式轉化為樹狀結構，從而刻畫句子的詞法和句法結構。一、詞法分析的難題 1、詞的定義和生詞問題、未登入詞（新詞）特別是在網際網路時代，

自然語言處理之中文分詞器詳解

中文分詞是中文文字處理的一個基礎步驟，也是中文人機自然語言互動的基礎模組，不同於英文的是，中文句子中沒有詞的界限，因此在進行中文自然語言處理時，通常需要先進行分詞，分詞效果將直接影響詞性，句法樹等模組

python自然語言處理（一）之中文分詞預處理、統計詞頻

一個小的嘗試。。資料來源資料集一共200條關於手機的中文評論，以XML格式儲存。分詞工具 python-jieba預處理包括去停用詞、去標點符號和數字去停用詞：使用的是他人總結的停用詞表去標點符號和數字：用正則表示式。原本打算的是中文標點符號從網上覆制，英文標點符號用st

3. 中文分詞技術

理解自然語言的過程：分詞技術、短語劃分、概念抽取以及主題分析、自然語言理解 3.1 中文分詞簡介漢語中，詞以字為基本單位，但是一篇文章的語義表達卻仍然是以詞來劃分的分詞歧義、未登入詞、分詞粒度粗細等都是影響分詞效果的重要因素中文分詞方法：

自然語言處理基於java實現(1) 之中文分詞

下一篇<自然語言處理基於java實現(2) 之詞性註釋> 程式原始碼下載一. 題目如下: 1、針對人民日報語料，編寫程式：抽取詞表統計總詞數、不同的詞及其次數。輸出檔案格式：第一行

中文分詞技術(一)

一、什麼是分詞：分詞就是將連續的字（詞）序列按照一定的規範重新組合成詞序列的過程。《資訊處理用現代漢語分詞規範》中對分詞的定義是：從資訊處理需要出發，按照特定的規範，對漢語按分詞單位進行劃分的過程。對於英文分詞，只要簡單地以空格為分界符就能很好地把句子分析出來。這是由於

Java呼叫ICTCLAS2016 之中文分詞

win7 64位，java呼叫 1.下載ICTCLAS20160405171043_ICTCLAS2016分詞系統下載包 , 2.找到漢語分詞.....20140928/sample/Java/JNA，把該路徑下的JnaTest_NLPIR工程，匯入Myeclipse，

中文分詞技術介紹

隨著需求的變化和技術的發展，網際網路企業對資料的分析越來越深入，尤其是自然語言處理處理領域，近幾年，在搜尋引擎、資料探勘、推薦系統等應用方面，都向前邁出了堅實的步伐。自然語言處理領域涉及的技術非常多，為了讓對此領域感興趣的同學能夠快速入門，在這裡介紹一下中文資訊處理的基

Elasticsearch之中文分詞器外掛es-ik的自定義詞庫

開發十年，就只剩下這套架構體系了！ >>>

NLP舞動之中文分詞淺析（一）

一、簡介針對現有中文分詞在垂直領域應用時，存在準確率不高的問題，本文對其進行了簡要分析，對中文分詞面臨的分詞歧義及未登入詞等難點進行了介紹，最後對當前中文分詞實現的演算法原理(基於詞表、統計以及序列標註等演算法)進行了簡要闡述，並對比了現有技術的優缺點，

中文分詞技術

中文分詞技術(Chinese Word Segmentation) 指將一個漢字序列切分成一個個單獨的詞。分詞就是將連續的字序列按照一定的規則重新組合成詞序列的過程目前中文分詞演算法有以下5類： - 基於詞典的方法 - 基於統計的方法 - 基於規則的方法 - 基於人工智慧技術的方法 - 基於字標註的方法

python_NLP實戰之中文分詞技術

一、規則分詞

1.1 正向最大匹配演算法

1.2 逆向最大匹配演算法

二、統計分詞

2.1 HMM模型

初始概率分佈

狀態轉移矩陣

觀測矩陣

例子

2.2 CRF

三、中文分詞工具_JieBa

3.1高頻詞提取

相關推薦