1. 程式人生 > >創建CrawlSpider爬蟲簡要步驟

創建CrawlSpider爬蟲簡要步驟

gen spi 範圍 item ide 創建 llb setting col

創建CrawlSpider爬蟲簡要步驟:

1. 創建項目文件:

e.g: scrapy startproject douyu (douyu為項目名自定義)

2. 進入項目文件:

e.g: cd douyu/  => cd douyu/ (兩次)

3. 修改items.py文件中需要獲取的字段:

e.g: vim items.py  =>  name = scrapy.Field()

4. 進入爬蟲文件:

e.g: cd spider/

5. 創建爬蟲:

e.g: scrapy genspider -t crawl dy douyu.com (dy為爬蟲名,不要和項目名一致;douyu.com為限制爬蟲範圍)

6. 修改dy.py

7. 修改管道文件pipelines.py

8. 設置settings.py

e.g: 優先級設置等

9. 運行命令:

e.g: scrapy crawl dy

註: 默認的Rules規則中,follow為True,如若跟進,可省略不寫;當有callback回調函數時,不寫follow,默認follow為True

創建CrawlSpider爬蟲簡要步驟