1. 程式人生 > >網絡爬蟲是怎麽運行的

網絡爬蟲是怎麽運行的

課堂 轉化 如何 怎麽 兩個 jpg 服務 document http

2.2.1知識概述
網絡爬蟲究竟是怎麽運行的?

單個頁面是如何運行的?

  • 1)指定一個url
  • 2)使用技術發送get請求
  • 3)獲得服務端的響應
  • 4)將二進制的數據,轉化成HTML文檔

網絡爬蟲一般會爬取很多很多很多的頁面
for(){

  • 1)指定一個url
  • 2)使用技術發送get請求
  • 3)獲得服務端的響應
  • 4)將二進制的數據,轉化成HTML文檔

}
2.2.2視頻詳情
技術分享圖片
2.2.3總結與補充

2.2.4課堂提問與練習
運行流程及所需要的技術?
2.2.5習題答案
爬蟲開發的一個技術點:
· 爬蟲中需要一個容器來保存等待爬取的url
· 爬蟲中需要一個技術來模擬http請求
· 爬蟲中需要將二進制數據轉化成html文檔(document對象)

· 爬蟲中需要一個技術從document對象中解析數據
o getElementById/ByTagName
o 解析的數據存放到的哪裏?
§ 保存到數據庫中,其它的任務地方
兩個額外的問題:
等待爬取的url隊列中有重復的元素該怎麽辦? 需要過濾掉
如果一個頁面中包含了其它更多的url,是否要爬取? 根據需求。

網絡爬蟲是怎麽運行的