1. 程式人生 > >Scrapy項目創建已經目錄詳情

Scrapy項目創建已經目錄詳情

htm lang tar blog 爬取 inf tex ima 內容

Scrapy項目創建已經目錄詳情

一、新建項目(scrapy startproject)

  • 在開始爬取之前,必須創建一個新的Scrapy項目。進入自定義的項目目錄中,運行下列命令:
PS C:\scrapy> scrapy startproject sp1

You can start your first spider with:
    cd sp1
    scrapy genspider example example.com

技術分享圖片

  • scrapy.cfg # 項目的配置文件
  • sp1/ # 項目的Python模塊,將會從這裏引用代碼
  • sp1/items.py # 項目的目標文件
  • sp1/pipelines.py # 項目的管道文件用於文件持久化
  • sp1/settings.py # 項目的設置文件
  • sp1/middlewares.py # 中間件
  • sp1/spiders/ # 存儲爬蟲代碼目錄

settings.py內容詳情

settings.py

# 項目名
BOT_NAME = 'sp1'

# 爬蟲所在的位置
SPIDER_MODULES = ['sp1.spiders']
NEWSPIDER_MODULE = 'sp1.spiders'

# 爬蟲是否遵循 robots 協議
ROBOTSTXT_OBEY = False

# 爬蟲的並發量 默認 16 個
# CONCURRENT_REQUESTS = 32
# 下載延時 3 s #DOWNLOAD_DELAY = 3 # 是否禁用cookies 默認不禁用 #COOKIES_ENABLED = False # 表示為禁用 # 請求包頭 DEFAULT_REQUEST_HEADERS = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36', 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'
, # 語言可以關閉,按照服務器返回值為準 # 'Accept-Language': 'en', } # 下載中間件,值越小優先級越高 DOWNLOADER_MIDDLEWARES = { 'sp1.middlewares.Sp1DownloaderMiddleware': 543, } # 下載後的數據如何處理,存儲過程 ITEM_PIPELINES = { 'sp1.pipelines.FilePipeline': 300, }

創建一個爬蟲文件

在當前目錄下輸入命令,將在sp1/spider目錄下創建一個名為itcast的爬蟲,並指定爬取域的範圍:

PS C:\scrapy> cd sp1
# scrapy genspider關鍵字    chouti 爬蟲名         chouti.com 一般指定站點域名  
PS C:\scrapy\sp1> scrapy genspider chouti chouti.com
Created spider 'chouti' using template 'basic' in module:
  sp1.spiders.chouti

Scrapy項目創建已經目錄詳情