1. 程式人生 > >網絡爬蟲的原理圖

網絡爬蟲的原理圖

頁面 獲取 等待 域名解析 如果 域名 需要 http 網絡請求

2.3.1知識概述
技術分享圖片
① 指定一個種子url放入到隊列中
② 從隊列中獲取某個URL
③ 使用HTTP協議發起網絡請求
④ 在發起網絡請求的過程中,需要將域名轉化成IP地址,也就是域名解析
⑤ 得到服務器的響應,此時是二進制的輸入流
⑥ 將二進制的輸入流轉換成HTML文檔,並解析內容(我們要抓取的內容,比如標題)。
⑦ 將解除出來的內容保持到數據庫
⑧ 記錄當前URL,並標記為已爬取,避免下次重復爬取。
⑨ 從當前的HTML文檔中,解析出頁面中包含的其它URL,以供下次爬取
⑩ 判斷解析出來的URL是否已經爬取過了,如果已經爬取就丟棄掉
? 將還沒爬取過的URL,存放到等待爬取的URL隊列中。
? 重復以上的步驟,指導等待爬取的URL隊列中沒有數據

網絡爬蟲的原理圖