1. 程式人生 > >原 Python資料爬蟲學習筆記(15)Scrapy常見命令及專案檔案介紹

原 Python資料爬蟲學習筆記(15)Scrapy常見命令及專案檔案介紹

一、Scrapy常見命令提示符CMD命令:

(1)scrapy -h 檢視指令幫助。

(2)scrapy fetch http://baidu.com 直接爬取特定網頁。

(3)scrapy runspider scrapytest.py  執行特定爬蟲(前提要使用cd .\XXX進入檔案所在目錄)。

(4)scrapy shell http://www.baidu.com --nolog  進入Python的Shell模式:(>>> exit()可以退出)。

(5)scrapy startproject firstScrapy 新建爬蟲專案((前提要使用cd .\XXX進入專案所在目錄))  。

(6)scrapy version 檢視scrapy版本。

(7)scrapy view http://news.163.com 下載某個網頁並用瀏覽器檢視

(8)scrapy settings scrapy設定。

進入一個爬蟲專案後:(cd .\專案資料夾) (1)scrapy bench 測試程式。

(2)scrapy genspider -l 檢視當前專案中有哪些爬蟲模板basic基礎模板 crawl自動爬蟲模板 csvfeed處理CSV  xmlfeed處理XML。

(3)scrapy genspider -t basic ZYH baidu.com 建立爬蟲檔案,限制只能爬百度。

(4)scrapy check ZYH 測試爬蟲。

(5)scrapy crawl 執行爬蟲。

(6)scrapy list 檢視當前專案下可以使用的爬蟲檔案。

(7)scrapy edit ZYH 呼叫編輯器編輯爬蟲檔案。

(8)scrapy parse http://www.baidu.com 獲取指定URL網址,並且進行處理和分析。

二、Scrapy專案檔案介紹:

(1)__init__.py 初始化檔案。

(2)items.py   目標檔案,設定爬取內容。

(3)pipelines.py 資料的後續處理檔案。

(4)settings.py 爬蟲設定,如代理伺服器,偽裝瀏覽器,開啟關閉cookies,怎樣開啟pipeline等。

(5)spiders:爬蟲資料夾。

三、Scrapy測試程式碼:

from scrapy.spiders import Spider
class FirstSpider():
    name="first"
    allowed_domains=["baidu.com"] #允許爬的地址
    start_urls=["http://www.baidu.com",] #起始域名
    def parse(self,response):
        pass  #pass:不執行任何事情,只是佔位符