1. 程式人生 > >scrapy命令互動模式簡單介紹--小布老師網易雲課堂

scrapy命令互動模式簡單介紹--小布老師網易雲課堂

scrapy命令互動模式介紹

scrapy 命令互動模式啟動

$ scrapy shell 網址[不需要引號]

命令互動模式中函式介紹

request 對網址發起請求的請求資訊

response網址伺服器響應請求,發回的響應資訊

view(response)呼叫系統自帶瀏覽器,檢視response中儲存著從網址中獲取的網頁資料

fetch(url)在互動模式下,重新對一個url網址傳送請求,自動更新到request和response中

scrapy專案爬蟲檔案說明

init.py -> 保持預設,不需要做任何修改

items.py-> 自定義專案類的地方,也就是爬蟲獲取到資料之後,傳入管道檔案(pipelinies.py)的載體

pipelinies.py->專案管道檔案,對傳入的專案類中的資料進行一個清理和入庫

settings.py->Scrapy專案的設定檔案,例如下載延遲,專案管道檔案中類的啟用以及自定義中介軟體的啟用和順序

spiders目錄-》裡面只有一個init.py檔案,在該目錄下定義爬蟲類並繼承scrapy.Spider

middlewares.py ->中介軟體配置檔案

Scrapy爬蟲檔案ganji.py介紹

name="zufang" 爬蟲名字,如果專案中有多個爬蟲,名字別重複

start_urls = ['http://....'] 爬蟲啟動後自動爬取的連結,列表內可以放多個連結

def parse(self,response):爬蟲啟動時,爬取連結成功後自動回撥的函式,預設parese,引數self和response也是必須得

response.xpath("").extract():固定格式,如果xpath("")裡面不放任何字串會報錯,如果裡面的字串是/結尾,則程式碼會報錯