1. 程式人生 > >數學之美 系列 12

數學之美 系列 12

”一文中介紹的TF/IDF 的概念。對於一篇新聞中的所有實詞,我們可以計算出它們的單文字詞彙頻率/逆文字頻率值(TF/IDF)。不難想象,和新聞主題有關的那些實詞頻率高,TF/IDF 值很大。我們按照這些實詞在詞彙表的位置對它們的 TF/IDF 值排序。比如,詞彙表有六萬四千個詞,分別為

單詞編號 漢字詞
------------------
1 阿
2 啊
3 阿斗
4 阿姨
...
789 服裝
....
64000 做作

      在一篇新聞中,這 64,000 個詞的 TF/IDF 值分別為

單詞編號 TF/IDF 值
==============
1 0
2 0.0034
3 0
4 0.00052
5 0
...
789 0.034
...
64000 0.075


       如果單詞表中的某個次在新聞中沒有出現,對應的值為零,那麼這 64,000 個數,組成一個64,000維的向量。我們就用這個向量來代表這篇新聞,併成為新聞的特徵向量。如果兩篇新聞的特徵向量相近,則對應的新聞內容相似,它們應當歸在一類,反之亦然。

       學過向量代數的人都知道,向量實際上是多維空間中有方向的線段。如果兩個向量的方向一致,即夾角接近零,那麼這兩個向量就相近。而要確定兩個向量方向是否一致,這就要用到餘弦定理計算向量的夾角了。

       餘弦定理對我們每個人都不陌生,它描述了三角形中任何一個夾角和三個邊的關係,換句話說,給定三角形的三條邊,我們可以用餘弦定理求出三角形各個角的角度。假定三角形的三條邊為 a, b 和 c,對應的三個角為 A, B 和 C,那麼角 A 的餘弦 --