HanLP-最短路徑分詞

今天介紹的內容是最短路徑分詞。最近換回了thinkpad x1，原因是mac的13.3寸的螢幕看程式碼實在是不方便，也可能是人老了吧，^_^。等把HanLP詞法分析介紹結束後，還是會換回macbook pro的。個人有強迫症，只要看或寫Java或C/C++程式碼或者用開發機的化，還是喜歡在windows下工作。看論文特別是理論的研究還是習慣用mac了。感覺開發還是windows比較順手，理論研究還是mac比較順手。

基本思想：首先根據詞典，找出字串中所有可能的詞（也稱全切分），然後構造詞語切分有向無環圖（也稱作粗分詞圖或粗分詞網）。每個詞對應圖中的一條有向邊。若賦給相應的邊長一個權值（該權值可以是常數，也可以是所構成的詞的屬性值），然後根據該切分圖，在起點到終點的所有路徑中，求出長度值（包括權值）為最短的一條路徑，這條路徑上包含的詞就是該句子的切分結果。若每個結點處記錄N個最短路徑值，則該方法也稱N-最短路徑演算法。

為進一步提高切分精度，在詞典中增加詞的屬性值，即給每個詞也給權重。這樣每個詞在漢字串中的權重不同（即構成的有向圖的邊不為等長）。最簡單的詞的權重可以用詞頻表示，高頻詞的權重大，低頻詞的權重小。具體的權重值可以通過大規模語料庫獲得。

雖然HanLP中提供了dijkstra演算法的實現，但是當前HanLP中最短路徑分詞使用的是viterbi演算法。

例子：他說的確實在理

遍歷計算過程和回溯分詞過程

（1） node列與to列

node列的詞語為粗分詞網中所有的詞，to列為在node列為詞word_node的情況下，後邊接的所有可能的詞word_to。第1個詞語前邊有一個“始”詞，最後一個詞語後邊有一個“末”詞。

（2） begin2node_w的計算

表示從“始”到node詞的最短路徑權值。可以從待計算值所在行的node列讀取出word詞，在to列中以待計算值所在行開始向上查詢word，找到word所在行後（以首次遇到的詞為準），begin2to_w列所對應的值就是待計算值。見圖中下劃線。第一個詞對“始-他”的begin2node_w的值為0。

（3） node2to_w的計算

由node+w構成的2gram串的概率，也就是轉移概率，計算公式為

計算的HanLP程式碼為https://github.com/hankcs/HanLP/blob/master/src/main/java/com/hankcs/hanlp/utility/MathUtility.java calculateWeight(Vertex from, Vertex to)。“始”的頻次取為MAX_FREQUENCY，“始-他”的共現頻次值為“他”作為句首的頻次，“理-末”的共現頻次值為“理”作為句末的頻次。

（4） begin2to_w_n的計算

表示從“始”到to詞的最短路徑權值。begin2to_w_n = begin2node_w + node2to_w。

（5） begin2to_w_o

表示記錄在to詞下的，到to詞的最短路徑權值，它的初始值為0，之後由begin2to_w來更新。

（6） from

表示詞語to的前驅詞。

可以看錶中(7,9),(8,10),(11,13),(12,14),(15,16),(17,18)成對行來驗證該公式，其中只有(17.18)行滿足了第3個式子。

（6）和（7）的HanLP實現程式碼https://github.com/hankcs/HanLP/blob/master/src/main/java/com/hankcs/hanlp/seg/common/Vertex.java updateFrom(Vertex from)

（8）回溯確定分詞路徑

從“末”開始向前回溯，末->理->在->確實->的->說->他，可以看錶中黃色單元格進行驗證。

經過(6)、（7）兩步，可以確保粗分詞網中任意詞的前驅都是最短路徑的。

遍歷計算過程和回溯過程的HanLP程式碼https://github.com/hankcs/HanLP/blob/master/src/main/java/com/hankcs/hanlp/seg/Viterbi/ViterbiSegment.java viterbi(WordNet wordNet)

HanLP-最短路徑分詞

HanLP-最短路徑分詞

hanlp中的N最短路徑分詞

Hanlp中N最短路徑分詞詳細介紹

自然語言處理工具HanLP-N最短路徑分詞

中文分詞預處理之N最短路徑法小結(轉)

1003 Emergency （25 分）（求最短路徑）

1018 Public Bike Management （30 分）（圖的遍歷and最短路徑）

1030 Travel Plan （30 分）（最短路徑 and dfs）

1072 Gas Station （30 分）（最短路徑）

PAT A1111 Online Map（30 分）----最短路徑麻煩題

PAT A1087 All Roads Lead to Rome（30 分）----最短路徑（加篩選條件）

PAT A1072 Gas Station（30 分）-------圖最短路徑---比較難點的題

PAT A1003 Emergency（25 分）----最短路徑

差分約束與最短路徑

差分約束和最短路徑

MIT演算法導論公開課之第18課最短路徑演算法、Bellman和差分約束系統

(最短路徑算法整理)dijkstra、floyd、bellman-ford、spfa算法模板的整理與介紹

最短路徑問題

最短路徑算法

最短路徑-Dijkstra算法（轉載）

HanLP-最短路徑分詞

相關推薦