一、前言

上節介紹了ansj的原子切分和全切分。切分完成之後，就要構建最短路徑，得到分詞結果。

以“商品和服務”為例，呼叫ansj的標準分詞：

String str = "商品和服務" ;

Result result = ToAnalysis.parse(str);

System.out.println(result.getTerms());

先不管數字發現、人名識別、使用者自定義詞典的識別，暫時只考慮ToAnalysis類裡面，構建最短路徑的這行程式碼：

graph.walkPath();

上面這行程式碼執行前，已完成了全切分，構建瞭如下的有向無環圖：

事實上，此時沒有“務”這個節點

如上圖所示，terms[4] = null。

不過這也沒關係，後面給節點打分時，會填充這個null，這段程式碼位於Graph.merger(Term fromTerm, int to, Map<String, Double> relationMap)：

char c = chars[to];

TermNatures tn = DATDictionary.getItem(c).termNatures;

if (tn == null || tn == TermNatures.NULL) {

tn = TermNatures.NULL;

}

terms[to] = new Term(String.valueOf(c), to, tn);

也就是說，給“和服”的後繼節點打分時，發現其後繼節點為null，那麼就例項化一個Term，填充在terms[to]的位置。

二、理論基礎

兩個節點之間分之計算的程式碼位於MathUtil.compuScore(Term from, Term to, Map<String, Double> relationMap)

其中核心程式碼只有一行：

double value = -Math.log(dSmoothingPara * frequency / (MAX_FREQUENCE + 80000) + (1 - dSmoothingPara) * ((1 - dTemp) * nTwoWordsFreq / frequency + dTemp));

我們了探討一下這行程式碼的理論基礎。

首先，ansj使用二元語法模型（Bigram）進行分詞。Bigram模型對應於一階Markov假設，詞只與其前面一個詞相關，其對應的分詞模型：

$arg\,max\prod_{m}^{i=1}P({w}_{i}|{w}_{i-1})\, =\,arg\,min-\sum_{m}^{i=1}logP({w}_{i}|{w}_{i-1})$

該等式將求解最大聯合概率的問題轉化為了求解有向無環圖最短路徑問題。

其中，數學符號arg表示使目標函式取最小值時的變數值。這裡是指求解條件概率之積$\prod_{m}^{i=1}P({w}_{i}|{w}_{i-1})$取最大值時的分詞結果。

對條件概率$P({w}_{i}|{w}_{i-1})$做如下的平滑處理：

\begin{aligned}
- \log P(w_{i} | w_{i-1}) & \approx - \log \left[ aP(w_{i-1}) + (1-a) P(w_{i}|w_{i-1}) \right] \\
& \approx - \log \left[ a\frac{f(w_i)}{N} + (1-a) \left( \frac{(1-\lambda)f(w_{i-1},w_i)}{f(w_{i-1})} + \lambda \right) \right]
\end{aligned}

其中，a = 0.1為平滑因子，N = 207997為訓練語料中的總次數，$\lambda \,=\,\frac{1}{N}$。

第一個約等式是採用線性插值法（Linear Interpolation）（可參考自然語言處理：盤點一下資料平滑演算法）進行平滑處理。

第二個約等式，我還沒搞清楚是什麼處理。