1. 程式人生 > >《數學之美》——第十一章 個人筆記

《數學之美》——第十一章 個人筆記

                                           數學之美

最近在讀《數學之美》這本書,做一下個人筆記。看的是PDF,看完後會買一本的哦!版權意識還是有的。

ps:圖片文字都是這本書中的內容,侵權立刪。會有點自己的理解。

第十一章    如何確定網頁和查詢的相關性

如今影響搜尋引擎質量(除了點選資料之外)的四大類:

1.完備的索引

2.對網頁質量的度量

3.使用者偏好

4.確定一個網頁和某個查詢的相關性的方法

1    搜尋關鍵詞權重的科學度量TF-IDF

度量網頁和查詢的相關性,有一個簡單的方法,就是直接使用各個關鍵在網頁中出現的總詞頻。

即TF1 + TF2 + ... + TFN

當然,要去除“停止詞”(stop word)。例如“的”這樣的詞

詞與詞的權重也不同,這個權重的設定必須滿足兩個條件:

①一個詞預測主題的能力越強,權重越大,反之,越小。

②停止詞的權重為零。

如果一個詞只在很少的網頁中出現,通過它很容易鎖定搜尋目標,它的權重就大。反之,就小。

在資訊檢索中,使用最多的權重是“逆文字頻率指數”(Inverse Document Frequency,IDE),公式為log(D/Dw),其中D是全部網頁數。

利用IDE,相關性計算的公式就由詞頻的簡單求和變成了加權求和,即

TF1*IDE1 + TF2*IDE2 + ... + TFN*IDEN

IDE的概念就是一個特定條件下關鍵詞的概率分佈的交叉熵(Kullback-Leibler Divergence)

2    延伸閱讀:TF-IDF的資訊理論依據

一個查詢中每一個關鍵詞w的權重應該反映這個詞對查詢來講提供了多少資訊。

簡單的方法就是用每個詞的資訊量作為它的權重,即:

其中,N是整個語料庫的大小,是個可以省略的常數。上面的公式可以簡化成:

上述公式存在一個缺陷就是無法反應關鍵詞的解析度(兩個關鍵詞的TF相同)

做一些理想的假設:

①每個文獻的大小基本相同,均為M個詞,即

②一個關鍵詞在文獻一旦出現,不論多少次,貢獻等同,這樣一個詞要麼在一個文獻中出現c(w)= TF(w)/D(w)次,要麼為零。注意,c(w) < M。那麼:


推出:


可以得出,一個詞的資訊量I(w)越多,TF-IDF值就越大;同時w命中的文獻中w平均出現的次數越多,第二項越小,TF-IDF也越大。