Python:scrapy框架爬取校花網男神圖片儲存到本地
阿新 • • 發佈:2018-11-08
爬蟲四部曲,本人按自己的步驟來寫,可能有很多漏洞,望各位大神指點指點
1、建立專案
scrapy startproject xiaohuawang
scrapy.cfg: 專案的配置檔案
xiaohuawang/: 該專案的python模組。之後您將在此加入程式碼。
xiaohuawang/items.py: 專案中的item檔案.
xiaohuawang/pipelines.py: 專案中的pipelines檔案.
xiaohuawang/settings.py: 專案的設定檔案.
2、進入xiaohuawang目錄然建立爬蟲名及爬取範圍
cd xiaohuawang
scrapy genspider xhwang xiaohuar.com
3、建立爬取的專案(xiaohuawang/item.py)
4、編寫爬蟲
xiaohuawang/spider/xhwang.py: 爬蟲檔案
5、儲存資料(此處使用try...expect是為剔除完整的圖片url)
6、開啟資料儲存開關(setting.py)如果有第五步的儲存資料的必要,此處需要開啟
7、開始爬取之路
在終端鍵入scrapy crawl xhwang 本地目錄出現如下資料(擷取部分)校花還看得過去,這校草嘛除了李易峰其他都沒見過o(* ̄︶ ̄*)o