1. 程式人生 > >Python:scrapy框架爬取校花網男神圖片儲存到本地

Python:scrapy框架爬取校花網男神圖片儲存到本地

爬蟲四部曲,本人按自己的步驟來寫,可能有很多漏洞,望各位大神指點指點

Python:scrapy框架爬取校花網男神圖片儲存到本地

 

1、建立專案

scrapy startproject xiaohuawang

scrapy.cfg: 專案的配置檔案

xiaohuawang/: 該專案的python模組。之後您將在此加入程式碼。

xiaohuawang/items.py: 專案中的item檔案.

xiaohuawang/pipelines.py: 專案中的pipelines檔案.

xiaohuawang/settings.py: 專案的設定檔案.

2、進入xiaohuawang目錄然建立爬蟲名及爬取範圍

cd xiaohuawang

scrapy genspider xhwang xiaohuar.com

3、建立爬取的專案(xiaohuawang/item.py)

Python:scrapy框架爬取校花網男神圖片儲存到本地

 

4、編寫爬蟲

xiaohuawang/spider/xhwang.py: 爬蟲檔案

Python:scrapy框架爬取校花網男神圖片儲存到本地

 

5、儲存資料(此處使用try...expect是為剔除完整的圖片url)

Python:scrapy框架爬取校花網男神圖片儲存到本地

 

6、開啟資料儲存開關(setting.py)如果有第五步的儲存資料的必要,此處需要開啟

Python:scrapy框架爬取校花網男神圖片儲存到本地

 

7、開始爬取之路

在終端鍵入scrapy crawl xhwang 本地目錄出現如下資料(擷取部分)校花還看得過去,這校草嘛除了李易峰其他都沒見過o(* ̄︶ ̄*)o

Python:scrapy框架爬取校花網男神圖片儲存到本地