在scrapy框架Header中使用Content-Length欄位使爬蟲返回400錯誤的問題

阿新 • • 發佈：2018-11-02

之前在抓一個網站Danaos的時候，發現能用requests和postman傳送同樣的header和payload的時候都能得到正確的結果，但是scrapy就會返回400錯誤，後來發現這是Twisted本身存在的問題，看了官網也沒找到解決方法
chrome顯示的XMR的request headers和payload
spider檔案在這裡：

class DanspiderSpider(scrapy.Spider):
    name = 'danspider'
    allowed_domains = ['www.danaos.com']
    
    def start_requests(self):
        payload = '{"serviceDto":{"ViewType":"2","ViewDate":"","RevisionNumber":"1","LanguageId":"1","ItemCount":-1,"StartIndex":0,"Signature":"","TagList":[]},"year":-1,"assetType":"Fleet_Details"}'

        url = "https://www.danaos.com/Services/ContentAssetService.svc/GetContentAssetList"
        headers = {
            "Accept": "application/json, text/javascript, */*; q=0.01",
            "Accept-Encoding": "gzip, deflate, br",
            "Accept-Language": "en-US,en;q=0.9",
            "Connection": "keep-alive",
            "Content-Length": "179",
            "Content-Type": "application/json; charset=UTF-8",
            "Cookie": "_ga=GA1.2.757680490.1537640028; _gid=GA1.2.1595345749.1537640028; _gat=1,Host: www.danaos.com",
            "Origin": "https://www.danaos.com",
            "Referer": "https://www.danaos.com/fleet/fleet-details/default.aspx",
            "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.92 Safari/537.36",
            "X-NewRelic-ID": "VQYBUlRVChABXFNXBAcCXw==",
            "X-Requested-With": "XMLHttpRequest"
        }
        yield scrapy.Request(url=url, body=payload, method="POST", headers=headers, callback=self.parse)
        
    def parse(self, response):
        print(response.text)
        pass

用twisted改寫這個爬蟲，去掉了content-length欄位，只留下了Content-Type欄位，是可以獲取返回結果的
twisted_danaos.py：

from __future__ import print_function

from pprint import pformat

from twisted.internet import reactor
from twisted.internet.defer import Deferred
from twisted.internet.protocol import Protocol
from twisted.web.client import Agent
from twisted.web.http_headers import Headers
from twisted.web.iweb import UNKNOWN_LENGTH

from bytesprod import BytesProducer

class BeginningPrinter(Protocol):
    def __init__(self, finished):
        self.finished = finished
        self.remaining = 1024 * 10

    def dataReceived(self, bytes):
        if self.remaining:
            display = bytes[:self.remaining]
            print('Some data received:')
            print(display)
            self.remaining -= len(display)

    def connectionLost(self, reason):
        print('Finished receiving body:', reason.getErrorMessage())
        self.finished.callback(None)

agent = Agent(reactor)
body=BytesProducer(b'{"serviceDto":{"ViewType":"2","ViewDate":"","RevisionNumber":"1","LanguageId":"1","ItemCount":-1,"StartIndex":0,"Signature":"","TagList":[]},"year":-1,"assetType":"Fleet_Details"}')

headers = {
"Content-Type": ["application/json; charset=UTF-8"],
        }

d = agent.request(
        b'POST', b'https://www.danaos.com/Services/ContentAssetService.svc/GetContentAssetList',
        Headers(headers),body)

def cbRequest(response):
    print('Response version:', response.version)
    print('Response code:', response.code)
    print('Response phrase:', response.phrase)
    print('Response headers:')
    print(pformat(list(response.headers.getAllRawHeaders())))
    finished = Deferred()
    response.deliverBody(BeginningPrinter(finished))
    return finished
d.addCallback(cbRequest)

def cbShutdown(ignored):
    reactor.stop()
d.addBoth(cbShutdown)

reactor.run()

bytesprod.py:

from zope.interface import implementer

from twisted.internet.defer import succeed
from twisted.web.iweb import IBodyProducer

@implementer(IBodyProducer)
class BytesProducer(object):
    def __init__(self, body):
        self.body = body
        self.length = len(body)

    def startProducing(self, consumer):
        consumer.write(self.body)
        return succeed(None)

    def pauseProducing(self):
        pass

    def stopProducing(self):
        pass

但是header中如果加上content-length欄位，爬蟲就會失敗，但是加上其他欄位不會影響結果獲取

在scrapy框架Header中使用Content-Length欄位使爬蟲返回400錯誤的問題

之前在抓一個網站Danaos的時候，發現能用requests和postman傳送同樣的header和payload的時候都能得到正確的結果，但是scrapy就會返回400錯誤，後來發現這是Twisted本身存在的問題，看了官網也沒找到解決方法 spider檔案在這裡： class Da

Mybatis框架--Ibatis框架踩坑01 -- Java中BigInteger型別欄位問題！

在Mybatis框架、 Ibatis框架中，不支援Java中的 java.math.BigInteger 型別欄位，支援 java.math.BigDecimal 型別欄位。若Java實體類中，使用 java.math.BigInteger 型別欄位，在

mysql 在表中新加欄位、修改欄位

新增欄位在某個欄位之後新加一個欄位： ALTER TABEL xxx ADD column_name VARCHAR(64) NOT NULL DEFAULT '' COMMENT '' AFTER xxx; 修改欄位 ALTER TABEL xxx MODIFY co

用xpath匹配屬性中包含某些欄位的節點 contains()

我在用python中xpath寫爬蟲時，要匹配一些所有屬性都不完全相同的節點，比如說糗事百科可以看到，這些中，他們的class和id不完全相同，但是class比較相似，帶包含“article block untagged mb15 ***”，但是後面還加有不同的字元，如：typ

Golang如何優雅地提取JSON資料中需要的欄位資料

JSON資料是我們開發中經常遇到的一種資料格式，一般通用的做法是，我們通過建立實體類，然後利用一些框架將JSON資料轉化為對應的實體類物件，這樣我們就可以方便地訪問JSON資料了。但是有些時候，一個JSON物件很大，欄位很多，而我們可能只需要其中的幾個欄位值，這在呼叫第三方API時可能經常

潭州課堂25班：Ph201805201 django框架第七課常用欄位型別及引數，關係表的實現，表關係物件add,create的方法 (課堂筆記)

寫個類，建立表格執行命令生成檔案提交，在資料庫中建立進入資料庫檢視對資料進行修改操作　　只有用到 save() 才能觸發 updaer_time 的更改，

MySql中的longtext欄位的返回問題

最近開發中用到了longtext這種欄位。在mysql中該欄位的最大長度為4G 如下圖所示開發中遇到的一個問題就是。例如有個article表，然後我們的頁面要將資料以列表的形式展示到前端（只顯示幾個欄位，如作者，標題等等，例如放到table中顯示多條記錄），但是是將該表中的所有

資料庫中某個表中的某個欄位的值是用逗號隔開的多個值，根據逗號拆分並從另一個表中查出資料返回

有兩個表A，B,表結構如下： A表 B表關聯關係說明如下：（1）A.hospital_catalog=B.id （2）A表中hospital_catalog欄位的值是以逗號 “,” 隔開，且兩邊用中括號“[ ]”包起，

C# 類中的靜態欄位始終繼承自基類

我們試想一下現在有一個類Parent，它有一個static的int型別欄位number，然後如果類Parent有三個子類Child01、Child02和Child03，那麼改變Parent.number的值的話，Child01.number、Child02.number和Child03.number的值也會被

c# 中屬性與欄位

今天回頭學習c# 的基礎，看到屬性的定義，忽然明白一個簡單的道理：欄位定義為Private，不需要class 的外部進行訪問，那麼就可以搞個屬性對private 的欄位進行get，set，還有一個理由就是這個private 的欄位有時是隻讀取的，不允許外部賦值寫入，那麼就只搞個get 的屬性OK了

Index 組合索引 Composite Index 中多個欄位的順序

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

區塊鏈中區塊的欄位值解釋

得到最新區塊的資訊通過呼叫web3的介面得到最新區塊的資訊引數解釋引數解釋 Difficulty 此區塊的難度級別 ExtraData

idea ssm專案出現日誌中文亂碼，封裝的json中的msg欄位中文亂碼（但是json封裝的bean中的欄位不亂碼）等其他各種專案下的中文亂碼解決方案

開頭劃重點！（敲黑板）：rebuild和mvn package的迴圈往復好幾次的操作是解決這個問題的最主要的方法！經過多次試驗，發現這樣做就可以正常顯示中文了我說為什麼有時候亂碼，有時候中文正常，原來下面的這些地方都必須設定好，特別是 rebuild和m

Thinkphp中如何表達MYSQL中的某欄位不為空is not null

Thinkphp 的文件經常不夠完整的表達MYSQL的各種組合，很多東西需要被嘗試後才能知道，筆者就遇到過一個問題，MYSQL查詢語句中有個表示式is not null ，在thinkphp中就不能用“=” 或者簡單的eq等來表示。有一種變相的處理方法就是直接把where中的array引數換成st

sql 中為資料庫中沒有的欄位根據某欄位賦值

SELECT CASE WHEN(memberAge<18) THEN '少年' WHEN(memberAge>=18 and memberAge <30) THEN '青年' WHEN(memberAge>=30 and memberAge<50) THEN '中年' ELSE

關於TP3.2框架讀取Sql server中文欄位資料以及處理亂碼的一些小心得

最近要做一個專案，需要使用TP3.2框架，之前什麼也不會，就硬著頭皮上了，結果真的鬧了挺多emmmmmm挺低階的錯誤，就像SQL Server中文欄位的讀取，一開始我是照著讀取英文欄位的格式來寫的，在Model層裡 public function getAdminByUsername($userna

PHP：根據二維陣列中的某個欄位進行排序

首先了解下以下兩個函式： 1.array_column() 返回輸入陣列中某個單一列的值。 2.array_multisort() 函式返回排序陣列。您可以輸入一個或多個數組。函式先對第一個陣列進行排序，接著是其他陣列，如果兩個或多個值相同，它將對下一個陣列進行排序。具體實

mysql修改表結構 MySQL修改表結構操作命令總結 MySql資料庫在表中新增新欄位，設定主鍵，設定外來鍵，欄位移動位置，以及修改資料庫後如何進行部署和維護的總結 mysql 如何修改、新增、刪除表主鍵

MySQL修改表結構操作命令總結以下內容轉自：http://www.jb51.net/article/58079.htm 表的結構如下: 複製程式碼程式碼如下:

Oracle 將一個表中幾個欄位更新到另一個表中

UPDATE TEST_TABLE1 T1 SET (T1.AA, T1.BB, T1.CC) =

【sumcol】SQL中同記錄欄位求和並排序

在mysql資料庫中有一張人物表t_character，欄位名及資料如下：現在有一個需求，需要查詢出攻擊力與防禦力之和排名前三的人物，並按其速度從大到小排序。難點在於同一條記錄中的不同欄位求和排序，這裡用到一個mysql中不常用的函式sumcol: select * from

在scrapy框架Header中使用Content-Length欄位使爬蟲返回400錯誤的問題

相關推薦