1. 程式人生 > >Python爬蟲知識點——爬蟲的基本原理

Python爬蟲知識點——爬蟲的基本原理

知識點 一個 想要 代碼 請求 原理 表達 網絡爬蟲 服務

爬蟲的基本原理

爬蟲就是獲取網頁提取保存信息自動化程序

獲取網頁:

獲取網頁就是獲取網頁的源碼,只要把源碼獲取下來,就可以從中提取想要的消息

爬蟲的流程:想網站的服務器發送一個請求,返回的響應體就是網頁的源代碼。

? ==>1,構造請求發送給服務器===>2.接受響應並解析

提取信息:

通過分析網頁結構,提取網頁信息。通常使用的解析庫有:BeautifulSoup、lxml、pyquery,也可以使用正則,但是構造正則表達式比較復雜且易錯

保存數據:

將提取的數據保存到某處以便後續利用。保存形式有:TXT、Json、數據庫:MySQL、MongoDB、或遠程服務器SFTP...

自動化程序

替人完成完成爬取工作的自動化程序,可以在抓取過程中進行異常處理……保證爬取的高效運行

文章摘自崔慶才的《Python3網絡爬蟲開發實戰》

Python爬蟲知識點——爬蟲的基本原理