創建CrawlSpider爬蟲簡要步驟
阿新 • • 發佈:2018-08-21
gen spi 範圍 item ide 創建 llb setting col
創建CrawlSpider爬蟲簡要步驟:
1. 創建項目文件:
e.g: scrapy startproject douyu (douyu為項目名自定義)
2. 進入項目文件:
e.g: cd douyu/ => cd douyu/ (兩次)
3. 修改items.py文件中需要獲取的字段:
e.g: vim items.py => name = scrapy.Field()
4. 進入爬蟲文件:
e.g: cd spider/
5. 創建爬蟲:
e.g: scrapy genspider -t crawl dy ‘douyu.com‘ (dy為爬蟲名,不要和項目名一致;douyu.com為限制爬蟲範圍)
6. 修改dy.py
7. 修改管道文件pipelines.py
8. 設置settings.py
e.g: 優先級設置等
9. 運行命令:
e.g: scrapy crawl dy
註: 默認的Rules規則中,follow為True,如若跟進,可省略不寫;當有callback回調函數時,不寫follow,默認follow為True
創建CrawlSpider爬蟲簡要步驟