1. 程式人生 > >python實戰——網絡爬蟲

python實戰——網絡爬蟲

一定的 信息 新頁面 類型 實戰 程序 工作原理 組成 我們

學習網絡爬蟲的目的

1,可以私人定制一個搜索引擎,可以深層次的了解搜索引擎的工作原理。

2,大數據時代,要進行數據分析,首先要有數據源,學習爬蟲,可以讓我們獲取更多的數據。

3,從業人員可以可好的利用爬蟲,了解其原理,更加優化你的程序。

網絡爬蟲的組成

網絡爬蟲由控制節點,爬蟲節點,資源庫構成

爬蟲的類型

1,通用網絡爬蟲:又叫全網爬蟲,可以在全網中爬取目標資源。

2,聚焦網絡爬蟲:主要使用在對特定信息的爬取中,主要為莫一類特定的人提供服務。

3,增量式網絡爬蟲:所謂增量式,就是之增量式更新,增量式更新指的是在更新的時候只更新改變的地方,而未改變的地方不更新,所以增量式爬蟲在一定程度上保證所爬取的頁面盡可能的都是新頁面。

4,深層網絡爬蟲:所謂深層,指的是在互聯網中,網頁按存放方式分類,可以分為表層頁面和深層頁面,所謂的表層頁面指的是不需要提交表單,使用靜態的鏈接就可以達到的靜態頁面。而深層頁面則需要在提交一定的關鍵詞之後才能獲取的頁面。

python實戰——網絡爬蟲