1. 程式人生 > >python 爬蟲 scrapy框架的使用 一

python 爬蟲 scrapy框架的使用 一

pytho clas 工程 本地 emp mpi 原理 png 下載

1 首先 安裝 scrapy :

 pip  install  scrapy

2 用命令創建一個spider工程:

scrapy   startproject   spider5

3 創建一個spider文件,並指定爬蟲開始的域名:

 scrapy  genspider spider1   “www.baidu.com”

4開啟爬蟲:

 scrapy  crawl   spider5

創建好的工程結構如下圖:

技術分享圖片

其中spiders裏面的為爬蟲文件,items.py為爬蟲數據模型定義文件,用於定義一些數據存儲的類別,pipelines.py為管道文件,用於接收item的返回值,處理後將item保存到本地或者數據庫中

scrapy的工作原理圖如下:

技術分享圖片

1 首先 spider1文件會將start_urls中的請求連接發給 引擎,然後引擎將這些請求傳遞給調度器(Scheduler),調度器接收這些請求鏈接並將它們入隊列

2 然後通過引擎講這些處理好的請求鏈接交給下載器去下載

3下載器將下載的結果通過引擎差傳遞給spiders進行數據解析,並返回一個item

4引擎將spiders的返回結果傳遞給管道文件(ItemPIpeline) ,管道文件接收數據將數據存儲

python 爬蟲 scrapy框架的使用 一