Scrapy項目創建已經目錄詳情
阿新 • • 發佈:2018-03-12
htm lang tar blog 爬取 inf tex ima 內容
Scrapy項目創建已經目錄詳情
一、新建項目(scrapy startproject)
- 在開始爬取之前,必須創建一個新的Scrapy項目。進入自定義的項目目錄中,運行下列命令:
PS C:\scrapy> scrapy startproject sp1
You can start your first spider with:
cd sp1
scrapy genspider example example.com
- scrapy.cfg # 項目的配置文件
- sp1/ # 項目的Python模塊,將會從這裏引用代碼
- sp1/items.py # 項目的目標文件
- sp1/pipelines.py # 項目的管道文件用於文件持久化
- sp1/settings.py # 項目的設置文件
- sp1/middlewares.py # 中間件
- sp1/spiders/ # 存儲爬蟲代碼目錄
settings.py內容詳情
settings.py
# 項目名
BOT_NAME = 'sp1'
# 爬蟲所在的位置
SPIDER_MODULES = ['sp1.spiders']
NEWSPIDER_MODULE = 'sp1.spiders'
# 爬蟲是否遵循 robots 協議
ROBOTSTXT_OBEY = False
# 爬蟲的並發量 默認 16 個
# CONCURRENT_REQUESTS = 32
# 下載延時 3 s
#DOWNLOAD_DELAY = 3
# 是否禁用cookies 默認不禁用
#COOKIES_ENABLED = False # 表示為禁用
# 請求包頭
DEFAULT_REQUEST_HEADERS = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8' ,
# 語言可以關閉,按照服務器返回值為準
# 'Accept-Language': 'en',
}
# 下載中間件,值越小優先級越高
DOWNLOADER_MIDDLEWARES = {
'sp1.middlewares.Sp1DownloaderMiddleware': 543,
}
# 下載後的數據如何處理,存儲過程
ITEM_PIPELINES = {
'sp1.pipelines.FilePipeline': 300,
}
創建一個爬蟲文件
在當前目錄下輸入命令,將在sp1/spider目錄下創建一個名為itcast的爬蟲,並指定爬取域的範圍:
PS C:\scrapy> cd sp1
# scrapy genspider關鍵字 chouti 爬蟲名 chouti.com 一般指定站點域名
PS C:\scrapy\sp1> scrapy genspider chouti chouti.com
Created spider 'chouti' using template 'basic' in module:
sp1.spiders.chouti
Scrapy項目創建已經目錄詳情