python以gzip header請求html資料時，response內容亂碼無法解碼的解決方案

阿新 • • 發佈：2019-01-05

1. 問題背景

在使用urllib2 module抓取web資料時，如果希望使用如何request header，減少傳輸時資料量。返回的資料，是經過gzip壓縮的。直接按照 content.decode(“utf8”), 解碼會出現異常，並且也無法檢測網頁資料的實際編碼型別。

2. 問題分析

因為http請求中，如果在request header包含”Accept-Encoding”:”gzip, deflate”, 並且web伺服器端支援，返回的資料是經過壓縮的，這個好處是減少了網路流量，由客戶端根據header，在客戶端層解壓，再解碼。urllib2 module，獲取的http response資料是原始資料，沒有經過解壓，所以這是亂碼的根本原因。

3. 解決方案

3.1 Request header移除”Accept-Encoding”:”gzip, deflate”

最快的方案，能直接得到可解碼的資料，缺點是，傳輸流量會增加很多。

3.2 使用zlib module，解壓縮，然後解碼，得到可讀的明文資料。

這也是本文使用的方案

4. 原始碼解析

程式碼如下, 這是一個典型的模擬form表單，post方式提交請求資料的程式碼，基於python 2.7
,

程式碼塊

程式碼塊語法遵循標準markdown程式碼

#! /usr/bin/env python2.7
import sys
import 
 zlib
import chardet
import urllib
import urllib2
import cookielib

def main():
    reload( sys )
    sys.setdefaultencoding('utf-8')
    url = 'http://xxx.yyy.com/test'
    values = {
            "form_field1":"value1",
            "form_field2":"TRUE",
             }

    post_data = urllib.urlencode(values)
    cj=cookielib.CookieJar()
    opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
    headers ={"User-agent" 
:"Mozilla/5.0 (Macintosh; Intel Mac OS X 10.10; rv:36.0) Gecko/20100101 Firefox/36.0",
              "Referer":"http://xxx.yyy.com/test0",
              "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
              "Accept-Language":"en-US,en;q=0.5",
              "Accept-Encoding":"gzip, deflate",
              "Connection":"keep-alive",
              # "Cookie":"QSession=",
              "Content-Type":"application/x-www-form-urlencoded",
              }
    req = urllib2.Request(url,post_data,headers)
    response = opener.open(req)
    content = response.read()
    gzipped = response.headers.get('Content-Encoding')
    if gzipped:
        html = zlib.decompress(content, 16+zlib.MAX_WBITS)
    else:
        html = content
    result = chardet.detect(html)
    print(result)
    print html.decode("utf8")

if __name__ == '__main__':
    main()

使用本指令碼需要以下環境
- Mac OS 10.9+
- Python 2.7.x

背景公司有一個用django(1.8.0)寫的運維平臺，目的用於申請阿里雲和騰訊雲機器；申請雲上機器採用後臺非同步的方式，框架採用redis+celery(3.1.18)，但最近發現一個問題，就是有時候申請騰訊雲機器的後臺任務因為沒有捕捉到某些異常，導致任務會

python以gzip header請求html資料時，response內容亂碼無法解碼的解決方案

1. 問題背景

2. 問題分析

3. 解決方案

3.1 Request header移除”Accept-Encoding”:”gzip, deflate”

3.2 使用zlib module，解壓縮，然後解碼，得到可讀的明文資料。

4. 原始碼解析

程式碼塊

目錄

python以gzip header請求html資料時，response內容亂碼無法解碼的解決方案

從Web請求呼叫時，OpenCV imread掛起的解決方案

在使用python的selenium庫抓取動態網頁時，瀏覽器內容出現空白的解決方式

Robomongo 0.9.0 連接mongo數據庫時，提示連接失敗的解決方案

date存入mysql中時，多了一秒的解決方案

關於火狐瀏覽器下載檔案時，中文檔案亂碼問題的處理方案。

新版Glide載入圖片時，佔位符placeholder失效的解決方案

python celery捕捉unicode字元型別的錯誤，導致後臺任務失敗的解決方案

java socket通訊時，中文字元亂碼的一個解決方法

eclipse插入資料到MySQL資料庫時，出現中文亂碼問題的解決方法

Frement切換時，getAcitvity為null的部分解決方案

在SpringMVC中使用@RequestBody註解處理json時，報出HTTP Status 415的解決方案

MyEclipse啟動TomCat時，控制檯不跳出來的解決方案

用AFN請求網路資料時出錯：（Assertion failure in -[AFHTTPRequestSerializer requestWithMethod:URLString:parameter）

【python】在特徵工程處理資料時遇到的坑

python中繫結多條資料時解決雙繫結的資料衝突問題

用python向txt檔案中寫資料時的追加和覆蓋問題

bootstrapTable請求資料時，如何設定超時(timeout)?

python使用xlrd讀取excel資料時，整數和日期變小數的解決辦法

使用postman請求springmvc介面時，request獲取不到資料

python以gzip header請求html資料時，response內容亂碼無法解碼的解決方案

1. 問題背景

2. 問題分析

3. 解決方案

3.1 Request header移除”Accept-Encoding”:”gzip, deflate”

3.2 使用zlib module，解壓縮，然後解碼，得到可讀的明文資料。

4. 原始碼解析

程式碼塊

目錄

相關推薦