1. 程式人生 > >谷歌怎樣給搜尋結果排序?

谷歌怎樣給搜尋結果排序?

PageRank的數學模型

不同於之前的訪問量統計,PageRank 求解了這樣一個問題:一個人在網路上瀏覽網頁,每看過一個網頁之後就會隨機點選網頁上的連結訪問新的網頁。如果當前這個人瀏覽的網頁 x 已經確定,那麼網頁 x 上每個連結被點選的概率也是確定的,可以用向量 Nx 表示。在這種條件下,這個人點選了無限多次連結後,恰好停留在每個網頁上的概率分別是多少?

在這個模型中,我們用向量 Ri 來表示點選了 i 次連結之後可能停留在每個網頁上的概率( R 0 則為一開始就打開了每個網頁的概率,後面我們將證明 R 0 的取值對最終結果沒有影響)。很顯然 R i 的 L1 正規化為 1 ,這也是 PageRank 演算法本身的要求。

仍以上面的遊戲為例,整個瀏覽過程的一開始,我們有:

/gkimage/u6/0y/sy/u60ysy.png

其中, A 表示每一次點選連結概率的矩陣。 A 的第 i 列第 j 行 A i, j 的含義是,如果當前訪問的網頁是網頁i,那麼下一次點選連結跳轉到網頁 j 的概率為 A i, j

這樣設計矩陣 A 的好處是,通過矩陣 A 和向量 R n-1 相乘,即可得出點選一次連結後每個網頁可能的停留概率向量 R n 。例如,令 R 1 = A R 0 ,可以得到點選一次連結後停留在每個網頁的概率:

/gkimage/lz/6j/1c/lz6j1c.png

之後一直迭代下去,有:

/gkimage/nj/xh/be/njxhbe.png

對於上面的例子,迭代結果如下圖:

/gkimage/cx/gf/ag/cxgfag.png

可以看到,每個網頁停留的概率在振盪之後趨於穩定。

在這種穩定狀態下,我們可以知道,無論如何迭代,都有 R n

= R n-1 。這樣我們就獲得了一個方程:

/gkimage/tg/s5/vb/tgs5vb.png

而整個迭代的過程,就是在尋求方程 R = AR 的解。而無論 R 0 是多少,迭代無限多次之後,一定會取得令 R = AR 成立的 R 值。整個求解 R 的過程,就如同一個人在一張地圖上的不同位置之間隨機地行走一樣,所以被稱為“隨機行走模型”。

隨機行走模型有一個顯著的特點,那就是每一次迭代的結果只與前一次有關,與更早的結果完全無關。這種過程又被稱為馬爾可夫過程( Markov Process )或馬爾可夫鏈( Markov Chain )。

馬爾可夫過程的數學定義是:如果對於一個隨機變數序列 X 0 、 X 1 、 X 2 、…, 其中 X n 表示時間 n 的狀態及轉移概率P,有:

/gkimage/lg/q7/bf/lgq7bf.png

即 X n 只受 X n-1 的影響,則此過程成為馬爾可夫過程。其中 P( X n+1 | X n ) 稱作“一步轉移概率”,而兩步、三步轉移概率則可以通過一步轉移概率的積分求得。

當狀態空間有限時,轉移概率可以用用一個矩陣 A 來表示,稱作轉移矩陣( transition matrix )。此時轉移概率的積分即為矩陣的冪,k步轉移概率可以用 A k 表示,這也是隨機行走模型中的情況。而對於一個正的(每個元素都為正的)轉移矩陣 A ,可以證明一定有:

/gkimage/ua/wx/rz/uawxrz.png

這就完整解釋了為什麼 R 0 的取值對最終結果沒有影響。

相關推薦

怎樣搜尋結果排序

PageRank的數學模型 不同於之前的訪問量統計,PageRank 求解了這樣一個問題:一個人在網路上瀏覽網頁,每看過一個網頁之後就會隨機點選網頁上的連結訪問新的網頁。如果當前這個人瀏覽的網頁 x 已經確定,那麼網頁 x 上每個連結被點選的概率也是確定的,可以用向量 Nx 表示。在這種條件下,這個人點選了

學術搜尋

想要給自己的windows系統電腦登入谷歌學術搜尋。上https://laod.cn/hosts/2018-google-hosts.html網址,下載hosts檔案(儲存在百度雲備份了) 將下載好的hosts檔案,放在原來的資料夾的位置,替換。 我就是以下即可 然後找到谷歌

如何使用高階搜尋

一,你得能登入谷歌(科學上網) 關於如何自由上網詳見https://blog.csdn.net/imotolove/article/details/83998182 一次過牆,終生受益,你值得擁有。 二,進入谷歌網址,https://www.google.com.hk 這裡注意使用香港版谷歌,字

解決搜尋結果排序問題

一、定位方法所在: (1)訪問專案網站,右擊頁面“審查元素”,審查network->XHR,接著測試需要的模組,如圖我在搜尋框中輸入 “剁椒魚頭” ,根據名字就大致可以判斷 呼叫的是“fetchAllRestaurants”。 (2)需要

http://www.google.com/ncr 無限制搜尋方法,用過都說好

www.google.com/ncr 如何開啟google.com而不是谷歌中國     大家都應該知道,谷歌中國(google.cn)可不簡簡單單是google(google.com)的中文版。     大家都挺說過google的強大,google無論是在產品、服務

分散式搜尋elasticsearch 搜尋結果排序不一致性問題

想象這一種情況,如果搜尋結果中得分出現相同的情況下:由於搜尋會在分片的副本之間均衡的輪詢請求,可能會出現請求在不同的副本之間返回的循序不同,從而影響排序結果的穩定性。 搜尋介面有提供preference引數:curl localhost:9200/_search?prefe

注入搜尋

 nurl:asp?id= inurl:Article_Print.asp? inurl:EnCompHonorBig.asp?id=隨便加個數字 inurl:showproduct.asp?id=隨便加個數字  inurl:ManageLogin.asp inurl:En

被墻,怎樣瀏覽器加入迅雷下載插件

模式 ott 下載 chrome 程序 lan 宋體 能夠 font 首先須要下載這個迅雷下載插件。下載地址是:http://pan.baidu.com/s/1G0F2e 本來在谷歌的擴展程序裏面能夠搜索到這個插件的,但被墻了之後()。訪問不了。也就下載不到了,辛虧在網

Array.Sort 內核 數組大小超過10 排序字段都一致 返回的數組非原數組

code get qsort blob div 數據大小 可選 sdn fire 1.如果數據大小小於等於10 都正常 2.數據大小大於10 3.js中Array.sort的實現原理 定義:sort() 方法用於對數組的元素進行排序。 api語法:arrayObj

輸入法增添自定義詞組,提高輸入效率

夠快 拼音 讓我 根據 微信公眾 技術分享 定義 nsh 我們 我在寫微信公眾號文章時,經常需要重復輸入一些名詞,比如CRM,C4C,S/4HANA等等。為了減少輸入,我在查找一款輸入法,能夠讓我通過少量的輸入,就能夠快速打出這些冗長詞匯的完整內容。 經過試驗,發現Goog

輸入法增添自定義片語,提高輸入效率

我在寫微信公眾號文章時,經常需要重複輸入一些名詞,比如CRM,C4C,S/4HANA等等。為了減少輸入,我在查詢一款輸入法,能夠讓我通過少量的輸入,就能夠快速打出這些冗長詞彙的完整內容。 經過試驗,發現Google拼音輸入法能夠滿足我的要求。下面是詳細使用步驟。 安裝Google輸入法之後,開啟控制面板,

CEO暗諷百度醫療搜尋

參加 2018 AI開發者大會,請點選 ↑↑↑ 8 月 1 日,外媒 The Intercept 獲得的 Google 內部檔案以及知情人士的訊息顯示,Google 計劃讓搜尋服務重返中國。據悉該專案的內部代號為 Dragonfly,始於 2017 年春季。 近日,

ElasticSearch最佳入門實踐(五十二)定製搜尋結果排序規則

1、預設排序規則 預設情況下,是按照_score降序排序的 然而,某些情況下,可能沒有有用的_score,比如說filter GET /_search { "query" : { "bool" : { "filter

擴充套件分享第一期:完美訪問Google搜尋,YouTube,Twitter等網站

上期回顧:上一期介紹了Google Chrome下載官方正版瀏覽器及設定瀏覽器語言。 這期則介紹使用Google Chrome最基本的擴充套件,那就是利用谷歌服務助手和谷歌訪問助手訪問Google搜尋以及登入Google賬號等谷歌產品。 一、首先介紹谷歌服務助手 谷歌服務助手可以訪問所有Goog

PageRank演算法和搜尋講解

PageRank演算法和谷歌搜尋講解 吳裕雄 PageRank演算法實際上就是Google使用它來計算每個網頁價值的演算法。 Google每次的搜尋結果都有成百上千萬甚至上億個相關的查詢網頁連結。如果將所有的查詢結果不加區分,就立即顯示給客戶看的話,那麼使用者很有可能看到的就是一些沒有多大用的東西,那麼G

如何使用Chrome瀏覽器,打包生成自己的外掛(crx格式檔案)? 真男人敢於嘗試新鮮事兒:使用外掛,美化Chrome醜陋的標籤頁,提升福利,程式碼等搜尋效率,無障礙訪問

chrome extension,副檔名為crx,俗稱chrome擴充套件,chrome外掛。 crx檔案本質就是ZIP檔案,只是谷歌在ZIP檔案頭,插入了自定義的私有欄位,如,外掛描述,外掛ID,金鑰等。 使用者可以手動修改crx檔案的副檔名,修改為zip,然後使用普通的解壓工具,就能解壓。

開源TF-Ranking可擴充套件庫,支援多種排序學習

銅靈 發自 凹非寺   量子位 出品 | 公眾號 QbitAI 最近,谷歌新開源了可擴充套件的TensorFlow庫TF-Ranking,可用於學習排序。所謂學習排序,也就是對專案列表進行排序,從而將整個功能最大化的過程。   TF-Ranking中有一套完整

搜尋技巧

本文內容取自 IMOOC 慕課網 獻給找得到梯子的小夥伴, 這個技巧百度搜索引擎我沒試過 有很多時候,在使用搜索引擎的時候, 搜尋結果並不如人意, 下邊我介紹幾個搜尋的小技巧 準確搜尋 簡單有效的方法就是在關鍵詞上加上雙引號, 這樣搜尋引擎只會返回和關鍵

搜尋為重返中國都做了什麼?

  高管相繼離職、Google+頻曝漏洞、集體罷工多發、道德指控接連纏身……腹背受制的 Google 能否逆風翻盤? 美國東部時間 12 月 11 日,Google CEO Sundar Pichai 出席了長達三個半個小時的美國國會聽證會,並對眾議院司法委

沒有VPN怎麼翻牆訪問,推薦一個免費的方法你。

今天教大家一個可以免費訪問谷歌的方法。 通常我們訪問國外網站、谷歌都是採用網上的各種翻牆軟體,或者收費vpn軟體,但是由於近兩年國家大量對vpn封殺,現在想要翻牆出去訪問國外網站已經很難了。但是,今天我教各位一個方法,雖然不能訪問國外的其他東西,但是訪問谷歌是沒