基於jieba改寫的分詞算（待完成）

阿新 • • 發佈：2018-12-19

基於jieba改寫的分詞演算法

import os, re, pandas as pd
from math import log
from time import time
# 基礎目錄
BASE_PATH = os.path.dirname(__file__)
# 生成絕對路徑
_get_abs_path = lambda path: os.path.normpath(os.path.join(BASE_PATH, path))
# 通用詞庫
JIEBA_DICT = _get_abs_path('jieba_dict.txt')  # jieba詞典


def txt2df2dt(filename= 
JIEBA_DICT, sep=' '):
    df = pd.read_table(filename, sep, header=None)
    return dict(df[[0, 1]].values)


class Cutter:
    re_eng = re.compile('[a-zA-Z0-9_\-]+')
    re_num = re.compile('[0-9.\-+%/~]+')

    def __init__(self, dt=None, max_len=0):
        self.t = time()
        self.dt = dt or txt2df2dt( 
)
        self.total = sum(list(self.dt.values()))
        # 詞最大長度，預設等於詞典最長詞
        if not max_len:
            for k in self.dt.keys():
                if len(k) > max_len:
                    max_len = len(k)
        self.max_len = max_len

    def __del__(self):
        t = time() - self.t
        print 
('分詞耗時：%.2f秒' % t) if t < 60 else print('分詞耗時：%.2f分鐘' % (t/60))

    def _get_DAG(self, sentence):
        length = len(sentence)
        dt = dict()
        for head in range(length):
            tail = head + self.max_len
            if tail > length:
                tail = length
            dt.update({head: [head]})
            for middle in range(head + 2, tail + 1):
                word = sentence[head: middle]
                # ------------- 詞典 + 正則 ------------- #
                if word in self.dt:
                    dt[head].append(middle - 1)
                elif self.re_eng.fullmatch(word):
                    dt[head].append(middle - 1)
                elif self.re_num.fullmatch(word):
                    dt[head].append(middle - 1)
        return dt

    def _calculate(self, sentence):
        DAG = self._get_DAG(sentence)
        route = {}
        N = len(sentence)
        route[N] = (0, 0)
        logtotal = log(self.total)
        for idx in range(N - 1, -1, -1):
            route[idx] = max(
                (log(self.dt.get(sentence[idx:x + 1], 1)) - logtotal + route[x + 1][0], x)
                for x in DAG[idx])
        return route

    def cut(self, sentence):
        route = self._calculate(sentence)
        x = 0
        N = len(sentence)
        buf = ''
        while x < N:
            y = route[x][1] + 1
            l_word = sentence[x:y]
            if len(l_word) == 1:
                buf += l_word
                x = y
            else:
                if buf:
                    yield buf
                    buf = ''
                yield l_word
                x = y

    def lcut(self, sentence):
        return list(self.cut(sentence))

    def add_word(self, word, freq=0):
        new_freq = freq or 1
        original_freq = self.dt.get(word, 0)
        self.dt[word] = new_freq
        self.total = self.total - original_freq + new_freq

    def del_word(self, word):
        original_freq = self.dt.get(word)
        if original_freq:
            del self.dt[word]
            self.total -= original_freq


cut = lambda sentence: Cutter().cut(sentence)
lcut = lambda sentence: Cutter().lcut(sentence)

jieba分詞原理（0.39版）

1、基於詞典，對句子進行詞圖掃描，生成所有成詞情況所構成的有向無環圖（DAG）

def get_DAG(self, sentence):
    self.check_initialized()
    DAG = {}
    N = len(sentence)
    for k in xrange(N):
        tmplist = []
        i = k
        frag = sentence[k]
        while i < N and frag in self.FREQ:
            if self.FREQ[frag]:
                tmplist.append(i)
            i += 1
            frag = sentence[k:i + 1]
        if not tmplist:
            tmplist.append(k)
        DAG[k] = tmplist
    return DAG

2、根據DAG，反向計算最大概率路徑

def calc(self, sentence, DAG, route):
    N = len(sentence)
    route[N] = (0, 0)
    logtotal = log(self.total)
    for idx in xrange(N - 1, -1, -1):
        route[idx] = max((log(self.FREQ.get(sentence[idx:x + 1]) or 1) -
                          logtotal + route[x + 1][0], x) for x in DAG[idx])

3、根據路徑獲取最大概率的分詞序列

def __cut_DAG_NO_HMM(self, sentence):
    DAG = self.get_DAG(sentence)
    route = {}
    self.calc(sentence, DAG, route)
    x = 0
    N = len(sentence)
    buf = ''
    while x < N:
        y = route[x][1] + 1
        l_word = sentence[x:y]
        if re_eng.match(l_word) and len(l_word) == 1:
            buf += l_word
            x = y
        else:
            if buf:
                yield buf
                buf = ''
            yield l_word
            x = y

圖論知識補充

1、圖的表示方法

在這裡插入圖片描述

1.1、networkx

%matplotlib inline
import networkx as nx
# 建立圖
G = nx.DiGraph()
# 新增邊
G.add_edges_from([(0, 1), (0, 2), (1, 2), (2, 3)])
# 繪圖
nx.draw(G, with_labels=True, font_size=36, node_size=1500, width=4, node_color='lightgreen')

1.2、矩陣

class G:
    def __init__(self, nodes):
        self.matrix = [[0] * nodes for _ in range(nodes)]
    def add_edge(self, start, end, value=1):
        self.matrix[start][end] = value

g = G(4)
g.add_edge(0, 1)
g.add_edge(0, 2)
g.add_edge(1, 2)
g.add_edge(2, 3)
print(g.matrix)

1.3、字典

class G:
    def __init__(self):
        self.dt = dict()
    def add_edge(self, start, end, value=1):
        self.dt[start] = self.dt.get(start, dict())
        self.dt[start][end] = value

g = G()
g.add_edge(0, 1)
g.add_edge(0, 2)
g.add_edge(1, 2)
g.add_edge(2, 3)
print(g.dt)

基於詞典生成DAG

def dag(sentence, corpus, size=2):
    length = len(sentence)
    dt = dict()
    for head in range(length):
        tail = head + size
        if tail > length:
            tail = length
        dt.update({head: []})
        for middle in range(head + 1, tail + 1):
            word = sentence[head: middle]
            if word in corpus:
                dt[head].append(middle - 1)
    return dt

dt = {'南海中學': 1, '南海': 1, '中學': 1, '放假': 1, '南': 1, '海': 1, '中': 1, '學': 1, '放': 1, '假': 1}
sentence1 = '南海中學放假'
print(dag(sentence1, dt))
s = {'空調', '調和', '和風', '風扇', '空', '調', '和', '風', '扇'}
sentence2 = '空調和風扇'
print(dag(sentence2, s))

{0: [0, 1], 1: [1], 2: [2, 3], 3: [3], 4: [4, 5], 5: [5]} {0: [0, 1], 1: [1, 2], 2: [2, 3], 3: [3, 4], 4: [4]}

附錄

DAG 有向無環圖（Directed Acyclic Graph）

基於jieba改寫的分詞算（待完成）

基於jieba改寫的分詞演算法 import os, re, pandas as pd from math import log from time import time # 基礎目錄 BASE_PATH = os.path.dirname(__file__

分頁方案（待完成）

int pageSize=20; int pageIndex=1; string fields="*"; string table_name="T_article"; string SqlWher

淺談分詞演算法（4）基於字的分詞方法（CRF）

目錄前言目錄條件隨機場（conditional random field CRF）核心點線性鏈條件隨機場簡化形式 CRF分詞 CRF VS HMM 程式碼實現訓練程式碼實驗結果參考文獻

solr4.7中文分詞器（ik-analyzer）配置

solr本身對中文分詞的處理不是太好，所以中文應用很多時候都需要額外加一箇中文分詞器對中文進行分詞處理，ik-analyzer就是其中一個不錯的中文分詞器。一、版本資訊 solr版本：4.7.0 需要ik-analyzer版本：IK Analyzer 2012FF_h

並發標記掃描（CMS）收集器（待完成）

一段時間 rap tex 資源 div 標記 pac eight 所有並發標記掃描（CMS）收集器專為需要較短垃圾收集暫停時間且能夠在應用程序運行時與垃圾收集器共享處理器資源的應用程序而設計。對於任何暫停時間要求較低的應用程序，應考慮使用此收集器。使用命令行選項啟用C

2018年10月17日提高組 T1 春思（待完成）

大意求ABA^BAB的所有約數之和思路首先A=p1c1p2c2p3c3p4c4……A=p_1^{c_1}p_2^{c_2}p_3^{c_3}p_4^{c_4}……A=p1c1p2c2p3

連結串列面試題小結（待完成）

以下程式碼使用的公共結構：連結串列節點： struct ListNode { int data; ListNode *next; }; 輔助函式： //make a list ListNode *makeList(int *arr, int n) { if(a

基礎知識目錄（待完成）

基礎知識目錄 J2SE基礎 1. 九種基本資料型別的大小，以及他們的封裝類。 2. Switch能否用string做引數？ 3. equals與==的區別。 4. Object有哪些公用方法？ 5. Java的四種引用，強弱軟

caffe中如何列印/輸出總loss，包括loss和正則項（待完成）

並沒有找到合適的方案，目前來看，需要修改原始碼，但是咋修改原始碼，還沒有搞定。並沒有找到合適的方案，目前來看，需要修改原始碼，但是咋修改原始碼，還沒有搞定。並沒有找到合適的方案，目前來看，需要修改原始碼

關於我這三年的架構歷程（待完成）

開發十年，就只剩下這套架構體系了！ >>>

spring原始碼個人總結（待完成）

一、模組劃分 Core Container Core 核心工具類 B

淺談分詞算法（1）分詞中的基本問題

最短 hub 好的說明可能漢語等等 http ring [TOC] 前言分詞或說切詞是自然語言處理中一個經典且基礎的問題，在平時的工作中也反復的接觸到分詞問題，用到了不同的模型，不同的方法應用在各個領域中，所以想對分詞問題做一個系統的梳理。大多數分詞問題主要是針對

基於中文詞典的分詞算法

逆向 wordcount cti nal OS BE cor 匹配 RF 正向最大匹配算法：MaximumMatching 逆向最大匹配算法：ReverseMaximumMatching 正向最小匹配算法：MinimumMatching 逆向最小匹配算法：ReverseMi

python中文分詞器（jieba類庫）

先上效果圖：資料來源：分詞後的txt檔案：分詞後的excel檔案：原始碼： #!/usr/bin/python # -*- coding: UTF-8 -*- # *************************************

基於高版本Lucene的中文分詞器（IK分詞器）的DEMO

注意為了大家方便，我沒有遮蔽資料庫，專案中用的資料來源請各位碼友不要亂搞~謝謝緣起日前專案中需要用到Lucene.且需要中文分詞，看了下IK分詞器，但是IK分詞器貌似只支援到lucene的3.X。後期的版本就不支援了，在網上找了一部分資料，自己寫了一個demo.因為中間

在PyCharm（Python整合開發環境）中安裝jieba中文分詞工具包

PyCharm IDE中，可以直接引入各種工具包。jieba中文分詞工具包安裝非常方便。 1、開啟Pycharm，點選左上角 >>File >>Settings。 2、在settings介面中點選Project :***（專案名稱） >

jieba.NET是jieba中文分詞的.NET版本（C#實現）。

jieba.NET是jieba中文分詞的.NET版本（C#實現）。當前版本為0.38.2，基於jieba 0.38，提供與jieba一致的功能與介面，以後可能會在jieba基礎上提供其它擴充套件功能。關於jieba的實現思路，可以看看這篇wiki裡提到的資料。如果

中文分詞實踐（基於R語言）

背景：分析使用者在世界盃期間討論最多的話題。思路：把使用者關於世界盃的帖子拉下來，然後做中文分詞+詞頻統計，最後將統計結果簡單做個標籤雲，效果如下：後續：中文分詞是中文資訊處理的基礎，分詞之後，其實還有特別多有趣的文字挖掘工作可

基於hadoop的分散式分詞程式（庖丁分詞）

一、使用的分詞包——庖丁分詞器介紹 1.1、簡介：庖丁系統是個完全基於lucene的中文分詞系統，它就是重新建了一個analyzer，叫做PaodingAnalyzer，這個analyer的核心任務就是生成一個可以切詞TokenStream。 1.2、優點：

大數據DDos檢測——DDos攻擊本質上是時間序列數據，t+1時刻的數據特點和t時刻強相關，因此用HMM或者CRF來做檢測是必然！和一個句子的分詞算法CRF沒有區別！

科學設計區別背景 file 最優化 model 安全學習 DDos攻擊本質上是時間序列數據，t+1時刻的數據特點和t時刻強相關，因此用HMM或者CRF來做檢測是必然！——和一個句子的分詞算法CRF沒有區別！註：傳統DDos檢測直接基於IP數據發送流量來識別，通過硬件

基於jieba改寫的分詞算（待完成）

基於jieba改寫的分詞演算法

jieba分詞原理（0.39版）

圖論知識補充

1、圖的表示方法

1.1、networkx

1.2、矩陣

1.3、字典

基於詞典生成DAG

附錄

相關推薦