1. 程式人生 > >【太陽軟件】動態換ip軟件帶你看:爬蟲常見的抓取策略

【太陽軟件】動態換ip軟件帶你看:爬蟲常見的抓取策略

imp deep 運用 自己的 sites 選項 目的 raw 重要性

網絡爬蟲的不一樣爬取策略,就是運用不一樣的方法來確認待爬取URL隊列中URL優先性序列的。

  網絡爬蟲的爬取策略有很多種,但不論方法如何,其基本目標一致:優先性選取重要網頁進行爬取。

  寬度優先性遍歷策略(Breath First)

  “將新下載網頁包含的鏈接直接追加到待爬取URL隊列末尾”,這就是寬度優先性遍歷的思想。也就是說,這種方法並沒有明確提出和使用網頁重要性衡量標準,只是機械地將新下載的網頁抽取鏈接,並追加到待爬取URL隊列中,以此安排URL的下載序列。

  OCIP策略(Online Page Importance Computation,在線頁面重要性計算)

  可以將其看做是一種改進的PageRank算法。在算法開始之前,每個互聯網頁面都給予相同的“現金”(cash),每當下載了某個頁面P後,P將自己擁有的“現金”平均分配給頁面中包含的鏈接頁面,把自己的“現金”清空。而對於待爬取URL隊列中的網頁,則根據其手頭擁有的現金金額多少排序,優先性下載現金最充裕的網頁。OCIP從大的框架上與PageRank思路基本一致,區別在於:PageRank每次需要叠代計算,而OCIP策略不需要叠代過程,所以計算速度遠遠快於PageRank,適合實時計算使用。同時,PageRank在計算時,存在向無鏈接關系網頁的遠程跳轉過程,而OCIP沒有這一計算因子。實驗結果表明,OCIP是種較好的重要性衡量策略,效果略優於寬度優先性遍歷策略。

  大站優先性策略(Larger Sites First)

  大站優先性策略思路很直接:以網站為單位來衡量網頁重要性,對於待爬取URL隊列中的網頁,根據所屬網站歸類,如果哪個網站等待下載的頁面最多,則優先性下載這些鏈接。其本質思想傾向於優先性下載大型網站,因為大型網站往往包含更多的頁面。鑒於大型網站往往是著名企業的內容,其網頁質量一般較高,所以這個思路雖然簡單,但是有一定依據。實驗表明這個算法效果也要略優於寬度優先性遍歷策略。

  暗網爬取(Deep Web Crawling)

  所謂暗網,是指目前搜索引擎網絡爬蟲按照常規方式很難爬取到的互聯網頁面。如前所述,搜索引擎網絡爬蟲依賴頁面中的鏈接關系發現新的頁面,但是很多網站的內容是以數據庫方式存儲的,典型的例子是一些垂直領域網站,比如攜程旅行網的機票數據,很難有顯式鏈接指向數據庫內的記錄,往往是服務網站提供組合查詢界面,只有用戶按照需求輸入查詢之後,才可能獲得相關數據。所以,常規的網絡爬蟲無法索引這些數據內容,這是暗網的命名由來。

  為了能夠對暗網數據進行索引,需要研發與常規網絡爬蟲機制不一樣的系統,這類網絡爬蟲被稱做暗網網絡爬蟲。暗網網絡爬蟲的目的是將暗網數據從數據庫中挖掘出來,並將其加入搜索引擎的索引,這樣用戶在搜索時便可運用這些數據,增加信息覆蓋程度。

  垂直網站提供的搜索界面,往往需要人工選取或者填寫內容,比如機票搜索需要選取出發地、到達地和日期,圖書搜索需要指出書名或者作者。而暗網網絡爬蟲為了能夠挖掘數據庫的記錄,必須模擬人的行為,填寫內容並提交表單。對於暗網網絡爬蟲來說,其技術挑戰有兩點:一是查詢組合太多,如果一一組合遍歷,那麽會給被訪問網站造成太大壓力,所以如何精心組合查詢選項是個難點;第二點在於:有的查詢是文本框,比如圖書搜索中需要輸入書名,網絡爬蟲怎樣才能夠填入合適的內容?這個也頗具挑戰性。

【太陽軟件】動態換ip軟件帶你看:爬蟲常見的抓取策略