《數學之美》——第十一章 個人筆記
數學之美
最近在讀《數學之美》這本書,做一下個人筆記。看的是PDF,看完後會買一本的哦!版權意識還是有的。
ps:圖片文字都是這本書中的內容,侵權立刪。會有點自己的理解。
第十一章 如何確定網頁和查詢的相關性
如今影響搜尋引擎質量(除了點選資料之外)的四大類:
1.完備的索引
2.對網頁質量的度量
3.使用者偏好
4.確定一個網頁和某個查詢的相關性的方法
1 搜尋關鍵詞權重的科學度量TF-IDF
度量網頁和查詢的相關性,有一個簡單的方法,就是直接使用各個關鍵在網頁中出現的總詞頻。
即TF1 + TF2 + ... + TFN
當然,要去除“停止詞”(stop word)。例如“的”這樣的詞
詞與詞的權重也不同,這個權重的設定必須滿足兩個條件:
①一個詞預測主題的能力越強,權重越大,反之,越小。
②停止詞的權重為零。
如果一個詞只在很少的網頁中出現,通過它很容易鎖定搜尋目標,它的權重就大。反之,就小。
在資訊檢索中,使用最多的權重是“逆文字頻率指數”(Inverse Document Frequency,IDE),公式為log(D/Dw),其中D是全部網頁數。
利用IDE,相關性計算的公式就由詞頻的簡單求和變成了加權求和,即
TF1*IDE1 + TF2*IDE2 + ... + TFN*IDEN
IDE的概念就是一個特定條件下關鍵詞的概率分佈的交叉熵(Kullback-Leibler Divergence)
2 延伸閱讀:TF-IDF的資訊理論依據
一個查詢中每一個關鍵詞w的權重應該反映這個詞對查詢來講提供了多少資訊。
簡單的方法就是用每個詞的資訊量作為它的權重,即:
其中,N是整個語料庫的大小,是個可以省略的常數。上面的公式可以簡化成:
上述公式存在一個缺陷就是無法反應關鍵詞的解析度(兩個關鍵詞的TF相同)
做一些理想的假設:
①每個文獻的大小基本相同,均為M個詞,即
②一個關鍵詞在文獻一旦出現,不論多少次,貢獻等同,這樣一個詞要麼在一個文獻中出現c(w)= TF(w)/D(w)次,要麼為零。注意,c(w) < M。那麼:
推出:
可以得出,一個詞的資訊量I(w)越多,TF-IDF值就越大;同時w命中的文獻中w平均出現的次數越多,第二項越小,TF-IDF也越大。