1. 程式人生 > >爬蟲的基本原理

爬蟲的基本原理

大量 css選擇器 god json 方法 網站服務 ODB mysq sof

爬蟲就是獲取網頁並提取和保存信息的自動化程序

1.獲取網頁

  爬蟲首先要做的就是獲取網頁,這裏就是獲取網頁的源代碼。源代碼裏包含了網頁的部分有用信息。只要把源代碼獲取到,就可以從提取信息了。

  向網站服務器發送一個請求,返回的響應體就是網頁的源碼。

2.提取信息

  獲取網頁源碼後,提取信息就是分析網頁源碼,從中提取想要的數據。通用的方法是使用正則表達式。這個方法時萬能的,但構造正則表達式比較復雜。

  我們利用網頁的結構化特點,可以使用一些根據網頁節點屬性、CSS選擇器或XPath來獲取網頁信息的庫,如:BeautifulSoup、pyquery、lxml。這些可以快速獲取網頁中的信息。如節點的屬性,文本等。

3.保存數據

  提取信息後,我們需要對數據進行持久化。如保存為t本地ext文件,json文件,或者保存到數據庫中(Mysql,MongoDB等),也可以保存到遠程的服務器(如:借助SFTP進行操作)。

4.自動化程序

  當數據量特別大或者獲取大量的數據時,需要借助程序。爬蟲就是代替人來完成爬取信息的自動化程序。它可以在抓取信息過程中進行各種異常處理、錯誤重試等操作,確保爬取持續高效進行。

爬蟲的基本原理