原 Python資料爬蟲學習筆記(15)Scrapy常見命令及專案檔案介紹
一、Scrapy常見命令提示符CMD命令:
(1)scrapy -h 檢視指令幫助。
(2)scrapy fetch http://baidu.com 直接爬取特定網頁。
(3)scrapy runspider scrapytest.py 執行特定爬蟲(前提要使用cd .\XXX進入檔案所在目錄)。
(4)scrapy shell http://www.baidu.com --nolog 進入Python的Shell模式:(>>> exit()可以退出)。
(5)scrapy startproject firstScrapy 新建爬蟲專案((前提要使用cd .\XXX進入專案所在目錄)) 。
(6)scrapy version 檢視scrapy版本。
(7)scrapy view http://news.163.com 下載某個網頁並用瀏覽器檢視
(8)scrapy settings scrapy設定。
進入一個爬蟲專案後:(cd .\專案資料夾) (1)scrapy bench 測試程式。
(2)scrapy genspider -l 檢視當前專案中有哪些爬蟲模板basic基礎模板 crawl自動爬蟲模板 csvfeed處理CSV xmlfeed處理XML。
(3)scrapy genspider -t basic ZYH baidu.com 建立爬蟲檔案,限制只能爬百度。
(4)scrapy check ZYH 測試爬蟲。
(5)scrapy crawl 執行爬蟲。
(6)scrapy list 檢視當前專案下可以使用的爬蟲檔案。
(7)scrapy edit ZYH 呼叫編輯器編輯爬蟲檔案。
(8)scrapy parse http://www.baidu.com 獲取指定URL網址,並且進行處理和分析。
二、Scrapy專案檔案介紹:
(1)__init__.py 初始化檔案。
(2)items.py 目標檔案,設定爬取內容。
(3)pipelines.py 資料的後續處理檔案。
(4)settings.py 爬蟲設定,如代理伺服器,偽裝瀏覽器,開啟關閉cookies,怎樣開啟pipeline等。
(5)spiders:爬蟲資料夾。
三、Scrapy測試程式碼:
from scrapy.spiders import Spider
class FirstSpider():
name="first"
allowed_domains=["baidu.com"] #允許爬的地址
start_urls=["http://www.baidu.com",] #起始域名
def parse(self,response):
pass #pass:不執行任何事情,只是佔位符