1. 程式人生 > >《數學之美》讀書筆記_No.10_PageRank

《數學之美》讀書筆記_No.10_PageRank

其實很早之前就被推薦《數學之美》這本書,拖到現在才讀,最大的感受可能真的是“相見恨晚”。記一些筆記供以後複習翻看。

第10章 PageRank Google的民主表決式網頁排名技術

思考:我們經常使用的搜尋引擎如何給搜尋出的結果排序? 查詢的排名依據:網頁的質量資訊(Quality)、查詢與每個網頁的相關性(Relevance)

1.PageRank演算法原理

(1)關於網站搜尋結果排序的研究發展史 雅虎公司:最早使用目錄分類的方式 存在的問題: 1.收錄的網頁太少(受計算機儲存容量和速度的限制) 2.只能對網頁中常見內容相關的實際用詞索引 DEC開發AltaVista:只利用一臺Alpha伺服器,收錄的網頁遠大於過往;對網頁上每一個詞都能索引 存在的問題

:大部分結果與查詢內容不太相關 貢獻:解決了覆蓋率的問題 Inktomi(與AltaVista同時代):多少都發現了網際網路網頁的質量在搜尋結果的排序中也應起一定作用 以上共同問題數學上不很完善

Google創始人拉里·佩奇和謝爾蓋·布林 真正找到計算網頁自身質量的完善的數學模型

(2)到底什麼是PageRank? 一個簡單的例子:假如我們要找李開復博士,有100個人舉手說自己是,究竟誰是真的?如果大家都說創新工場的那個是真的,那麼他就是真的。 PageRank【核心思想】 如果一個網頁被很多其他網頁所連結,說明它收到普遍的承認和信賴,那麼它的排名就高。網頁排名高的網站貢獻的連結權重大。

【舉例】假如網站Y的排名來自於所有指向這個網頁的其他網頁X1、X2…Xn的權重之和,pagerank=0.001+0.02+0.01+0.05+…

(3)PageRank研究過程中遇到的問題及解決辦法 Q1:X1、X2…Xn的權重分別是多少?如何進行度量? A1:權重是這些網頁本身的網頁排名。 Q2:如果需要這些網頁本身的排名,這個問題將約等於“先有雞還是先有蛋”? A2:布林:將這個問題轉變成了一個二維矩陣相乘的問題,並用迭代的方法解決。 A2具體步驟: 1.先假定所有網頁的排名是相同的,並且根據這個初始值,算出各個網頁的第一次迭代排名; 2.根據第一次迭代排名算出第二次的排名。 A2理論依據: 不論初始值如何選取,這種演算法都能保證網頁排名的估計值能收斂到排名的真實值且無需任何人工干預。 Q3:網頁數量巨大導致計算量巨大,如何解決? A3:稀疏矩陣的計算技巧。 Q4:網頁數量不斷增長,計算量越來越大,如何解決? A4:2003年,Google工程師Jeffrey Dean和Sanjay Ghemawat發明了平行計算工具MapReduce。

需要pdf版本請留言email,只有橫版一頁,排版比這個好些。