1. 程式人生 > >搜索引擎算法研究專題七:Hilltop算法

搜索引擎算法研究專題七:Hilltop算法

打分 nbsp link 字號 算法 原始的 鏈接 專題 wrapper

搜索引擎算法研究專題七:Hilltop算法

2017年12月19日 ? 搜索技術 ? 共 1256字 ? 字號 小 中 大 ? 評論關閉

HillTop也是搜索引擎結果排序的專利,是Google工程師Bharat在2001年發明的。Google的排序規則經常在變化,但變化最大的一次也就是2003年的基於HillTop算法的優化。

  HillTop算法的指導思想和PageRank的一致,都通過網頁被鏈接的數量和質量來確定搜索結果的排序權重。但HillTop認為只計算來自具有相同主題的相關文檔鏈接對於搜索者的價值會更大:即主題相關網頁之間的鏈接對於權重計算的貢獻比主題不相關的鏈接價值要更高。Bharat稱這種對主題有影響的文檔為“專家”文檔,從這些專家文檔頁面到目標文檔的鏈接決定被鏈接網頁的權重值。

  Hilltop算法定義一個網站與其它網站的相關性,作為識別跨站點的鏈接交換幹擾與識別相似鏈接的技術,以杜絕那些想通過任意鏈接來擾亂排名規則、那些想通過增加無效鏈接來提高網頁PageRank值的做弊行為。

  HillToP算法基本過程可以分為兩步:

  l 首先,根據查詢尋找“專家網頁”,專家網頁是關於一定主題、指向許多非隸屬網頁、其中至少有一個短語包含查詢關鍵詞的網頁。

  l 其次,給頂部專家網頁鏈向的目標網頁打分,這個過程綜合了它與所有相關專家網頁的鏈接關系。

  基於“專家”文檔的HillTop算法最大的難點是第一次“專家文檔”的篩選,目前,Google首先給了教育(.edu),政府(.gov)和非盈利組織(.org)站點很高的優先級。

  作為對原始PageRank算法的補充,Hilltop算法具有以下優點

  l 與原始的PageRank相比,Hilltop是主題靈敏的,通過來自“權威性”文擋的鏈接來確定網頁的可信度。對於具有同樣主題、PR相近的網頁排序,HillTop算法顯得非常重要。與以購買離題鏈接而獲得高排名相比,這更難以人為操作。Hilltop解決了這個問題,隨意性鏈接已經失去往日的作用,即使仍有一定的價值,但與來自於專家網站的鏈接相比,不能相提並論。

  l Hilltop與Trust Rank相似,但更加自動化。它依賴於專家文檔和源於這些文檔的鏈接,如X鏈接到Y,Y鏈接到Z,那麽X和Z也相關。

  然而,Hiltop在應用中還存在如下一些問題:

  l 專家頁面的搜索和確定對算法起關鍵作用,專家頁面的質量決定了算法的準確性;而專家頁面的質量和公平性在一定程度上難以保證。

  l Hiltop忽略了大多數非專家頁面的影響。

  l 在Hiltop的原型系統中,專家頁面只占到整個頁面的1.79%,不能全面反映民意。

  l Hiltop算法在無法得到足夠的專家頁面子集時(少於兩個專家頁面),返回為空,即Hiltop適合於對查詢排序進行求精,而不能覆蓋。這意味著Hilltop可以與某個頁面排序算法結合,提高精度,而不適合作為一個獨立的頁面排序算法。

  l Hilltop中根據查詢主題從專家頁面集合中選取與主題相關的子集也是在線運行的,這與前面提到的HITS算法一樣會影響查詢響應時間。隨著專家頁面集合的增大,算法的可伸縮性存在不足之處。

搜索引擎算法研究專題七:Hilltop算法