1. 程式人生 > >python 爬蟲 scrapy框架的使用 一

python 爬蟲 scrapy框架的使用 一

1 首先 安裝 scrapy : 

 pip  install  scrapy

2 用命令建立一個spider工程:

scrapy   startproject   spider5

3 建立一個spider檔案,並指定爬蟲開始的域名:

 scrapy  genspider spider1   “www.baidu.com”

4開啟爬蟲:

 scrapy  crawl   spider5

建立好的工程結構如下圖:

其中spiders裡面的為爬蟲檔案,items.py為爬蟲資料模型定義檔案,用於定義一些資料儲存的類別,pipelines.py為管道檔案,用於接收item的返回值,處理後將item儲存到本地或者資料庫中

 

scrapy的工作原理圖如下:

 

1 首先 spider1檔案會將start_urls中的請求連線發給 引擎,然後引擎將這些請求傳遞給排程器(Scheduler),排程器接收這些請求連結並將它們入佇列

2 然後通過引擎講這些處理好的請求連結交給下載器去下載

3下載器將下載的結果通過引擎差傳遞給spiders進行資料解析,並返回一個item

4引擎將spiders的返回結果傳遞給管道檔案(ItemPIpeline) ,管道檔案接收資料將資料儲存