1. 程式人生 > >python中文分詞工具:結巴分詞jieba

python中文分詞工具:結巴分詞jieba

結巴分詞jieba

特點

    支援三種分詞模式:
        精確模式,試圖將句子最精確地切開,適合文字分析;
        全模式,把句子中所有的可以成詞的詞語都掃描出來, 速度非常快,但是不能解決歧義;
        搜尋引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜尋引擎分詞。
    支援繁體分詞
    支援自定義詞典

演算法

基於字首詞典實現高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構成的有向無環圖 (DAG)
採用了動態規劃查詢最大概率路徑, 找出基於詞頻的最大切分組合
對於未登入詞,採用了基於漢字成詞能力的 HMM 模型,使用了 Viterbi 演算法

分詞方法說明

    jieba.cut 方法接受三個輸入引數: 需要分詞的字串;cut_all 引數用來控制是否採用全模式;HMM 引數用來控制是否使用 HMM 模型
    jieba.cut_for_search 方法接受兩個引數:需要分詞的字串;是否使用 HMM 模型。該方法適合用於搜尋引擎構建倒排索引的分詞,粒度比較細
    待分詞的字串可以是 unicode 或 UTF-8 字串、GBK 字串。注意:不建議直接輸入 GBK 字串,可能無法預料地錯誤解碼成 UTF-8
    jieba.cut 以及 jieba.cut_for_search 返回的結構都是一個可迭代的 generator,可以使用 for 迴圈來獲得分詞後得到的每一個詞語(unicode),或者用
    jieba.lcut 以及 jieba.lcut_for_search 直接返回 list,建議使用list(cul())來轉換,原始碼也是這樣做的,少一步函式呼叫。
    jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定義分詞器,可用於同時使用不同詞典。jieba.dt 為預設分詞器,所有全域性分詞相關函式都是該分詞器的對映。

新增自定義詞典

載入詞典
    開發者可以指定自己自定義的詞典,以便包含 jieba 詞庫裡沒有的詞。雖然 jieba 有新詞識別能力,但是自行新增新詞可以保證更高的正確率
    用法: jieba.load_userdict(file_name) # file_name 為檔案類物件或自定義詞典的路徑
    詞典格式和 dict.txt 一樣,一個詞佔一行;每一行分三部分:詞語、詞頻(可省略)、詞性(可省略),用空格隔開,順序不可顛倒。file_name 若為路徑或二進位制方式開啟的檔案,則檔案必須為 UTF-8 編碼。
    詞頻省略時使用自動計算的能保證分出該詞的詞頻。
例如:
創新辦 3 i
雲端計算 5
凱特琳 nz
臺中
更改分詞器

(預設為 jieba.dt)的 tmp_dir 和 cache_file 屬性,可分別指定快取檔案所在的資料夾及其檔名,用於受限的檔案系統。
    範例:
        自定義詞典:https://github.com/fxsjy/jieba/blob/master/test/userdict.txt
        用法示例:https://github.com/fxsjy/jieba/blob/master/test/test_userdict.py
            之前: 李小福 / 是 / 創新 / 辦 / 主任 / 也 / 是 / 雲 / 計算 / 方面 / 的 / 專家 /
            載入自定義詞庫後: 李小福 / 是 / 創新辦 / 主任 / 也 / 是 / 雲端計算 / 方面 / 的 / 專家 /
調整詞典
    使用 add_word(word, freq=None, tag=None) 和 del_word(word) 可在程式中動態修改詞典。
    使用 suggest_freq(segment, tune=True) 可調節單個詞語的詞頻,使其能(或不能)被分出來。
    注意:自動計算的詞頻在使用 HMM 新詞發現功能時可能無效。
程式碼示例:
>>> print('/'.join(jieba.cut('如果放到post中將出錯。', HMM=False)))
如果/放到/post/中將/出錯/。
>>> jieba.suggest_freq(('中', '將'), True)
494
>>> print('/'.join(jieba.cut('如果放到post中將出錯。', HMM=False)))
如果/放到/post/中/將/出錯/。
>>> print('/'.join(jieba.cut('「臺中」正確應該不會被切開', HMM=False)))
「/臺/中/」/正確/應該/不會/被/切開
>>> jieba.suggest_freq('臺中', True)
69
>>> print('/'.join(jieba.cut('「臺中」正確應該不會被切開', HMM=False)))
「/臺中/」/正確/應該/不會/被/切開
"通過使用者自定義詞典來增強歧義糾錯能力" --- https://github.com/fxsjy/jieba/issues/14

並行分詞

    原理:將目標文字按行分隔後,把各行文字分配到多個 Python 程序並行分詞,然後歸併結果,從而獲得分詞速度的可觀提升
    基於 python 自帶的 multiprocessing 模組,目前暫不支援 Windows
    用法:
        jieba.enable_parallel(4) # 開啟並行分詞模式,引數為並行程序數
        jieba.disable_parallel() # 關閉並行分詞模式
    例子:https://github.com/fxsjy/jieba/blob/master/test/parallel/test_file.py
    實驗結果:在 4 核 3.4GHz Linux 機器上,對金庸全集進行精確分詞,獲得了 1MB/s 的速度,是單程序版的 3.3 倍。
    注意:並行分詞僅支援預設分詞器 jieba.dt 和 jieba.posseg.dt。

jieba分詞的安裝

虛擬環境中安裝

cd /media/pika/files/mine/ENV/ubuntu_env

pika:/media/pika/files/mine/ENV/ubuntu_env$. bin/activate
(ubuntu_env) pika:/media/pika/files/mine/ENV/ubuntu_env$pip install jieba

直接在系統中安裝使用

pip install jieba

或者安裝到python3中:pip3 install jieba

jieba中文分詞的使用

示例1:不同切分模式

程式碼示例
# encoding=utf-8
import jieba

seg_list = jieba.cut("我來到北京清華大學", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我來到北京清華大學", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精確模式

seg_list = jieba.cut("他來到了網易杭研大廈")  # 預設是精確模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明碩士畢業於中國科學院計算所,後在日本京都大學深造")  # 搜尋引擎模式
print(", ".join(seg_list))

輸出:
【全模式】: 我/ 來到/ 北京/ 清華/ 清華大學/ 華大/ 大學

【精確模式】: 我/ 來到/ 北京/ 清華大學

【新詞識別】:他, 來到, 了, 網易, 杭研, 大廈    (此處,“杭研”並沒有在詞典中,但是也被Viterbi演算法識別出來了)

示例2:自定義詞典

import jieba
sentences = ["我喜歡吃土豆","土豆是個百搭的東西","我不喜歡今天霧霾的北京", 'costumer service']
# jieba.suggest_freq('霧霾', True)
# jieba.suggest_freq('百搭', True)
words = [list(jieba.cut(doc)) for doc in sentences]
print(words)

[['我', '喜歡', '吃', '土豆'],
 ['土豆', '是', '個', '百搭', '的', '東西'],
 ['我', '不', '喜歡', '今天', '霧霾', '的', '北京'],
 ['costumer', ' ', 'service']]