scrapy遞迴解析和post請求

阿新 • • 發佈：2019-01-14

遞迴解析

遞迴爬取解析多頁頁面資料

每一個頁面對應一個url，則scrapy工程需要對每一個頁碼對應的url依次發起請求，然後通過對應的解析方法進行作者和段子內容的解析。

實現方案：

1.將每一個頁碼對應的url存放到爬蟲檔案的起始url列表（start_urls）中。（不推薦）

2.使用Request方法手動發起請求。（推薦）

import scrapy
from choutiPro.items import ChoutiproItem


class ChoutiSpider(scrapy.Spider):
    name  
= 'chouti'
    # allowed_domains = ['www.xxx.com']
    # 通用url的封裝
    url = 'https://dig.chouti.com/r/scoff/hot/%d'
    pageNum = 1

    start_urls = ['https://dig.chouti.com/r/scoff/hot/1']

    def parse(self, response):
        div_list = response.xpath('//div[@id="content-list"]/div')
        for div in 
 div_list:
            title = div.xpath('./div[3]/div[1]/a/text()').extract_first()
            author = div.xpath('./div[3]/div[2]/a[4]/b/text()').extract_first()  #

            item = ChoutiproItem()
            item['title'] = title
            item['author'] = author

            yield item

         
if self.pageNum < 5:  # 頁碼的一個範圍
            # 封裝集成了一個新的頁碼的url
            self.pageNum += 1
            new_url = format(self.url % self.pageNum)
            # 手動的請求傳送:callback表示的指定的解析方法
            yield scrapy.Request(url=new_url, callback=self.parse)

            # 在scrapy框架中yield的使用場景:
            # 1.yield item:向管道提交item
            # 2.yield scrapy.Request():進行手動請求傳送

items

import scrapy


class ChoutiproItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    title = scrapy.Field()
    author = scrapy.Field()

pipelines

class ChoutiproPipeline(object):
    def process_item(self, item, spider):
        print(f"{item['title']}:{item['author']}")
        # 持久化儲存，測試沒寫
        return item

settings

BOT_NAME = 'choutiPro'
# 使用UA
USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'
SPIDER_MODULES = ['choutiPro.spiders']
NEWSPIDER_MODULE = 'choutiPro.spiders'


# Crawl responsibly by identifying yourself (and your website) on the user-agent
# 關閉root協議
ROBOTSTXT_OBEY = False

# 開啟管道
ITEM_PIPELINES = {
    'choutiPro.pipelines.ChoutiproPipeline': 300,
}

五大核心元件工作流程

引擎(Scrapy)
用來處理整個系統的資料流處理, 觸發事務(框架核心)
排程器(Scheduler)
用來接受引擎發過來的請求, 壓入佇列中, 並在引擎再次請求的時候返回. 可以想像成一個URL（抓取網頁的網址或者說是連結）的優先佇列, 由它來決定下一個要抓取的網址是什麼, 同時去除重複的網址
下載器(Downloader)
用於下載網頁內容, 並將網頁內容返回給蜘蛛(Scrapy下載器是建立在twisted這個高效的非同步模型上的)
爬蟲(Spiders)
爬蟲是主要幹活的, 用於從特定的網頁中提取自己需要的資訊, 即所謂的實體(Item)。使用者也可以從中提取出連結,讓Scrapy繼續抓取下一個頁面
專案管道(Pipeline)
負責處理爬蟲從網頁中抽取的實體，主要的功能是持久化實體、驗證實體的有效性、清除不需要的資訊。當頁面被爬蟲解析後，將被髮送到專案管道，並經過幾個特定的次序處理資料。

下圖是一個請求再返回來的流程

紅色是傳送請求

藍色是返回的流程

post請求

其實是因為爬蟲檔案中的爬蟲類繼承到了Spider父類中的start_requests（self）這個方法，該方法就可以對start_urls列表中的url發起請求：

    # 原始作用：將起始url料表中url進行GET請求
    # def start_requests(self):  # 模擬get請求的簡化流程
    #     for url in self.start_urls:
    #         yield scrapy.Request(url=url,callback=self.parse)

實現post請求其實就是重寫父類的start_requests

    # 重寫 父類的 start_requests，讓其進行POST請求
    def start_requests(self):
        data = {
            'kw': 'dog'
        }
        for url in self.start_urls:
            # scrapy.FormRequest:指 POST 請求
            # callback=self.parse 指回調函式
            # formdata=data  指post請求傳送的資料
            yield scrapy.FormRequest(url=url, callback=self.parse, formdata=data)

列如百度翻譯我就可以這樣傳送post請求

# -*- coding: utf-8 -*-
import scrapy


class PostSpider(scrapy.Spider):
    name = 'post'
    allowed_domains = ['www.xxx.com']
    start_urls = ['https://fanyi.baidu.com/sug']

    # 原始作用：將起始url料表中url進行GET請求
    # def start_requests(self):  # 模擬get請求的簡化流程
    #     for url in self.start_urls:
    #         yield scrapy.Request(url=url,callback=self.parse)

    # 重寫 父類的 start_requests，讓其進行POST請求
    def start_requests(self):
        data = {
            'kw': 'dog'
        }
        for url in self.start_urls:
            # scrapy.FormRequest:指 POST 請求
            # callback=self.parse 指回調函式
            # formdata=data  指post請求傳送的資料
            yield scrapy.FormRequest(url=url, callback=self.parse, formdata=data)

    def parse(self, response):
        # print(response.bady)
        print(response.text)

baidu—post

訪問人人個人首頁

# -*- coding: utf-8 -*-
import scrapy


class LoginSpider(scrapy.Spider):
    name = 'login'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['http://www.renren.com/ajaxLogin/login?1=1&uniqueTimestamp=201873958471']

    def start_requests(self):
        formdata = {
            'email': '17701256561',
            'icode': '',
            'origURL': 'http://www.renren.com/home',
            'domain': 'renren.com',
            'key_id': '1',
            'captcha_type': 'web_login',
            'password': '7b456e6c3eb6615b2e122a2942ef3845da1f91e3de075179079a3b84952508e4',
            'rkey': '44fd96c219c593f3c9612360c80310a3',
            'f': 'https%3A%2F%2Fwww.baidu.com%2Flink%3Furl%3Dm7m_NSUp5Ri_ZrK5eNIpn_dMs48UAcvT-N_kmysWgYW%26wd%3D%26eqid%3Dba95daf5000065ce000000035b120219',
        }
        for url in self.start_urls:
            yield scrapy.FormRequest(url=url, formdata=formdata, callback=self.parse)

    def parse(self, response):
        url = 'http://www.renren.com/960481378/profile'

        yield scrapy.Request(url=url, callback=self.personalPage)

    def personalPage(self, response):
        page_text = response.text
        print(response)

人人個人首頁

scrapy遞迴解析和post請求

遞迴解析遞迴爬取解析多頁頁面資料每一個頁面對應一個url，則scrapy工程需要對每一個頁碼對應的url依次發起請求，然後通過對應的解析方法進行作者和段子內容的解析。實現方案： 1.將每一個頁碼對應的url存放到爬蟲檔案的起始url列表（start_urls）中。（不

12.scrapy框架之遞迴解析和post請求

今日概要遞迴爬取解析多頁頁面資料 scrapy核心元件工作流程 scrapy的post請求傳送今日詳情 1.遞迴爬取解析多頁頁面資料 - 需求：將糗事百科所有頁碼的作者和段子內容資料進行爬取切持久化儲存 - 需求分析：每一個頁面對應一個url，則scrapy工程需要對每一個頁碼

爬蟲開發9.scrapy框架之遞歸解析和post請求

scheduler sched ike url 什麽 page https 一個 @class 今日概要遞歸爬取解析多頁頁面數據 scrapy核心組件工作流程 scrapy的post請求發送今日詳情 1.遞歸爬取解析多頁頁面數據 - 需求：將糗事

DNS遞迴解析和迭代解析的區別

11.3.7 DNS遞迴解析原理 “遞迴解析”（或叫“遞迴查詢”，其實意思是一樣的）是最常見，也是預設的解析方式。在這種解析方式中，如果客戶端配置的本地名稱伺服器不能解析的話，則後面的查詢全由本地名稱伺服器代替DNS客戶端進行查詢，直到本地名稱伺服器從權威名

JQuery遞迴解析無限層級JSON物件的所有key和value

前一段時間做了一個小專案，要加一個json資料自動繫結前臺表單的功能，類似於jquery-easyui裡面的資料繫結（給它一個json物件，就能自動解析裡面有的資料。json資料的key對於表單的name屬性，也可以是id或自己定義的標籤屬性，把key對應的值賦

發送get和post請求時常用的content-type

encode json數據格式 ima for www 下載 orm 文件上傳服務器常見的媒體格式類型如下： text/html ： HTML格式 text/plain ：純文本格式 text/xml ： XML格式

HttpClient GET和POST請求

pri execute public methods gre col esp odt stringbu package com.rogue.hclient; import java.io.BufferedReader; import java.io.IOExceptio

http基本get和post請求

read exce pen timeout etc builder pri void tin get請求： private static void httpGet(){ BufferedReader br = null; HttpU

GET和POST請求的區別

cat nal 賬號 span asc 交互 cap 開發 code GET和POST請求的區別 GET請求GET /books/?sex=man&name=Professional HTTP/1.1Host: www.wrox.comUser-Agent: Mo

PUT和POST請求的區別

log github www for segment same fec web ogg 參考：http://blog.csdn.net/yangruibao/article/details/7898788 有的觀點認為，應該用POST來創建一個資源，用PUT來更

iOS開發-AFNetworking封裝Get(自定義HTTP Header)和Post請求及文件下載

謝謝 filepath pos cat style -type poe repo eth 前面提到AFNetworking是一個很強大的網絡三方庫，首先你需要引入AFNetworking三方庫；如封裝的有誤還請指出，謝謝！ 1.Get請求 /**Get請求 url 服務器

python request 接口測試get和post請求

.post .get access username int 用戶 post請求運行開發開發IDE：pycharm python:2.7.10 get請求 # coding: UTF-8 #兼容中文字符，如果沒有這句，程序中有中文字符時，運行會報錯import

小程序的get和post請求頭的區別

type www 成功 ava form brush quest -type function 小程序在使用wx.request()接口時 header 請求頭默認是這樣的 wx.request({ url: ‘test.php‘, //僅為示例，並非真實的接口

php-get和post請求

output class ray 工作日打印 init print bsp clas 1.get請求 <?php //判斷20130101是否是工作日 //工作日對應結果為 0, 休息日對應結果為 1, 節假日對應的結果為 2； $url=‘http://www

PHP中使用CURL實現GET和POST請求

由於 protocol 對稱加密即使匯報 bst 接口 useragent 拷貝一、什麽是CURL？ cURL 是一個利用URL語法規定來傳輸文件和數據的工具，支持很多協議，如HTTP、FTP、TELNET等。最爽的是，PHP也支持 cURL 庫。使用php的cURL

CURL實現發送Get和Post請求(PHP)

結果基本釋放初始常用 header 理解介紹今天 1.cURL介紹　　cURL 是一個利用URL語法規定來傳輸文件和數據的工具，支持很多協議，如HTTP、FTP、TELNET等。最爽的是，PHP也支持 cURL 庫。本文將介紹 cURL 的一些高級特性，以及

封裝curl的get和post請求

else 請求 enc con code urn gpo sta url /** * GET 請求 * @param string $url */ function http_get($url){ $oCurl = curl_init(); if(s

C#中Get和Post請求的同步及異步方法

iter epo charset result string pty streambuf div httpget 在C#中發起Http請求一般使用HttpWebRequest這個類，下文將使用這個HttpWebRequest對象來對Get和Post的同步及異步請求進行封裝：

get和post請求

OS nbsp alt 請求 ima body bsp .com bubuko get和post請求

js-Ajax-get和post請求

js Ajax get 1：get請求方式：// 1:創建XMLHttpRequest對象 var xhr; if (window.XMLHttpRequest) { // 其他類型的瀏覽器 xhr = new XMLHttpRequest(); } else { // ie瀏覽器

scrapy遞迴解析和post請求

遞迴解析

五大核心元件工作流程

post請求

相關推薦