1. 程式人生 > >數學之美:餘弦定理和新聞分類

數學之美:餘弦定理和新聞分類

新聞特徵向量:

和前面一樣,顯然衡量兩個新聞的相似性要根據新聞中的詞的相似性。如果兩個新聞中出現相同的詞較大,相似的可能性就較大。當然這其中的類似於“的”的詞應該佔據較小權重。這就和我們前面提到的度量關鍵詞和網頁相關性問題非常相似。TF-IDF應該是個不錯的演算法。

我們應該建立一個字典,然後根據TF-IDF演算法對字典中每個詞賦予權重,形成如下特徵向量,向量中每一項代表這個詞對當前文章的貢獻度:

顯然,如果兩篇文章比較相似,那麼其包含的特定描述詞相同的就比較多。反映在特徵向量上就是,如果兩篇文章相似性較大,他們的特徵向量在某幾個維度上都比較大,反之相似性較小,由於使用的特定詞不同,則特徵向量上較大值的維度也就沒有什麼交集。

對於不同文章,長度不同,生成的特徵維度大小不一。因此單純比較維度大小沒有什麼意義,但是使用向量夾角就能很好避免由於數值大小帶來的問題。這就用到了幾何中的餘弦定理。

更多相似性度量,見度量學習

當我們可以使用餘弦定理度量兩個文字相似性時,接下來需要考慮的就是如何進行分類。一種方法是假設已經知道每個新聞類別的特徵向量,那麼只需要將預測新聞與各個新聞類別特徵向量計算相似度來進行分類。另一方法就是自底向上逐漸聚合的方式,具體思想是:

計算餘弦向量的技巧:

簡化計算可有:

1、分母中向量長度只需計算一次,計算後儲存起來,需要使用時拿出來。

2、對於兩個向量的內積,只需要考慮兩個特徵向量中非0元素個數最小值。也就是那個特徵向量非0元素個數少,就取這個特徵向量中非0元素對應位置元素值計算即可。

3、刪除虛詞的計算。虛詞對於相似的度量並沒有意義,而且刪除虛詞不僅可以增加計算速度,還能提高分類效果。因為虛詞的存在其實是一種干擾分類的噪音。

位置加權:

出現在標題和文章首尾的詞重要性顯然更高。