爬蟲爬取資料時各種中文亂碼問題

阿新 • • 發佈：2019-01-03

學爬蟲有一段時間了，期間總是覺得內容編碼會傻傻分不清楚，尤其是直接網頁拿資料的時候，遇見中文有時候特別麻煩，看大神介紹的東西太多，只記下了處理方式，僅供參考，不對地方歡迎大家指正~~

一般請求返回內容編碼方式步驟如下：

1、檢視資料來源網頁的編碼形式--爬取資料所在網頁原始碼就有寫：

2、編碼解析：

respond.decode(請求返回的編碼格式).encode(Python預設的utf-8)

筆記中其他大神這樣教，實踐中大多情況我都用：respond.encode(Python預設的utf-8).decode(請求返回的編碼格式)

爬取網頁內容正常編譯，無報錯，英文均顯示正常，中文亂碼

最近爬取免費取名網站時候，遇見爬下來的編碼正確編碼後無報錯，英文均顯示正常，但是中文奇奇怪怪亂碼情況如下圖，網頁編碼兩種情況遇見解析後如此，處理方法如下，

第一種：網頁編碼為gb2312 (requests的get方式獲取資料)

原來處理方式(出現上圖亂碼)，響應內容=respond.text.encode('utf-8').decode('gb2312')×

改進處理方式： ① respond.content.decode('gb18030'，'ignore') ---親試遇見中文響應內容解析還是用這種方式好

② respond.content.decode('gbk'，'ignore')

#使用gbk2312出現報錯'gbk' codec can't encode character '\u30fb' in position 12530: illegal multibyte sequence~ 這是一個很尷尬的問題，第二種第一次處理也報錯，後面又可以了~~~

總結：遇見中文編碼decode裡面，'gbk'/'gbk2312'/'gb18030' （備用繁體編碼選項沒用過，可以留用'big5'/'big5hkscs'）總有一款適合你實在不行看下面↓↓↓

第二種：網頁編碼為utf-8 (requests的get方式獲取資料)

嘗試了上面n中組合形式，就是頑固的不行，終於借鑑了一些大神的方法解決掉了，decode（'utf-8'）確定無疑。

解決亂碼：在程式碼之前新增預設設定編碼格式

sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030')
url = 'https://www.yw11.com/html/qiming/xuename/2009/0929/273.html'
urlcontent = requests.get(url).content.decode('utf-8')
轉自：https://blog.csdn.net/u010924297/article/details/80353440

爬蟲爬取資料時各種中文亂碼問題

學爬蟲有一段時間了，期間總是覺得內容編碼會傻傻分不清楚，尤其是直接網頁拿資料的時候，遇見中文有時候特別麻煩，看大神介紹的東西太多，只記下了處理方式，僅供參考，不對地方歡迎大家指正~~ 一般請求返回內容編碼方式步驟如下： 1、檢視資料來源網頁的編碼形式--爬取資料所在網頁原始碼就有寫： 2

python：爬蟲爬取資料的處理之Json字串的處理（2）

#Json字串的處理 Json字串轉化為Python資料型別 import json JsonStr ='{"name":"sunck","age":"18","hobby":["money","power","English"],"parames":{"a":1,"b":2}}' Js

python ：通過爬蟲爬取資料（1）

(1)通過url爬取網頁資料 import urllib.request #指定url url ="https://www.baidu.com" #向伺服器發起請求，返回響應的資料，通過infor接收 infor = urllib.request.urlopen(url)

Python爬蟲爬取資料存入MongoDB

from bs4 import BeautifulSoup import requests import time import pymongo client = pymongo.MongoClient('Localhost', 27017) ceshi = client[

mybatis+mysql插入資料時出現中文亂碼

剛接觸mybatis，使用mybatis插入時出現了中文亂碼的情況，最後問題關鍵在建立表的時候沒有設定編碼方式剛開始是這樣寫的： create table companydetail( i

網路爬蟲爬取資料本地資料庫儲存遠端api分析模型

序言 20161119 寫一個星期多一點，在眾多的爬蟲框架中選擇了Webmagic，WebMagic簡單靈活的爬蟲框架。簡單易用，在這之前用的是WebCollector JAVA爬蟲框架，它的模組劃分弄了一天也沒

20180213 爬蟲爬取空氣質量資料

目標網址：空氣質量歷史資料 1、修改爬蟲原因：網址針對爬蟲作了防範措施，直接爬取很難奏效。 2、google 的webdriver難以get內容，也許是網站針對性的進行了防範思路： 1、利用Cenenium+PlatformJS 模擬瀏覽器請求一個頁面 2、Pandas裡

Python 爬蟲爬取單個基因表格資料的生物學功能（urllib+正則表示式）：

Python 爬蟲爬取單個基因的生物學功能（urllib+正則表示式）： import re import urllib from urllib import request url = 'https://www.ncbi.nlm.nih.gov/gene/?term=FUT1'

網路爬蟲-爬取指定城市空氣質量檢測資料

爬取指定城市空氣質量檢測資料網站連結 → https://www.aqistudy.cn/historydata/ 以月資料為例，見下圖：然後我們通過console除錯可以發現這個網頁在items裡面已經將資料打包好了，如下圖所示沒毛病，資料全都對得上，接下來的思

Python爬蟲爬取網上圖片原始碼，可用來製作深度學習資料集

這次利用python設計一個爬取百度圖片上的圖片的原始碼，其中利用的是python的urllib，如果沒有裝的，可以使用Anconda在環境裡進行安裝或者 pip install urllib 這兩種方式都可以安裝，長話短說，上圖吧，點選執行後，輸入你要下載的圖片型別：比如，熊貓？美女？

python爬蟲爬取今日頭條APP資料（無需破解as ,cp，_cp_signature引數）

#!coding=utf-8 import requests import re import json import math import random import time from requests.packages.urllib3.exceptions import Insecure

python爬蟲爬取京東店鋪商品價格資料(更新版)

主要使用的庫： requests:爬蟲請求並獲取原始碼 re：使用正則表示式提取資料 json:使用JSON提取資料 pandas：使用pandans儲存資料 ##sqlalchemy ：備用方案，上傳資料到mysql 以下是原始碼： # -*- coding:utf

python爬蟲爬取淘寶搜尋頁面商品資訊資料

主要使用的庫： requests:爬蟲請求並獲取原始碼 re：使用正則表示式提取資料 json:使用JSON提取資料 pandas：使用pandans儲存資料以下是原始碼： #!coding=utf-8 import requests import re import

python 爬蟲爬取網易嚴選全網商品價格評論資料

1.獲取商品目錄在Chrome瀏覽器開發者工具中，可以找到目錄的JS地址： http://you.163.com/xhr/globalinfo//queryTop.json 得到商品資料 def get_categoryList():

手把手教你利用前端字型檔案(.ttf)混淆數字來阻止爬蟲爬取網站資料

先上一張效果圖假如正確的數字是321456 這時候使用者看到的就是對的而爬蟲在抓取資料的時候抓到得是123456 混淆了數字怎麼實現呢？工具： 1、FontCreator （中文漢化破解版）當然英語好或者土豪的可以無視 2、做好的字型圖片步

python爬蟲爬取全站url，完美小demo（可防止連結到外網等各種強大篩選）

上次完成的url爬取專案並不能滿足需求，在此完成了一個更為強大的爬取程式碼，有需要的可以直接執行，根據自己爬取的網站更改部分正則和形參即可。前排提示：執行需要耐心，因為幾千個url爬完的話，還是建議花生瓜子可樂電影準備好。話不多說，直接上程式碼，程式碼有註釋，很容易理解。

爬蟲——爬取網頁資料存入表格

最近由於個人需要，從相關書籍以及網上資料進行爬蟲自學，目標網址為http://mzj.beijing.gov.cn，對其內容進行整理篩選，存入excel格式。首先是對錶格的內容進行設定，編碼格式定義為utf-8，新增一個sheet的表格，其中head為表頭的內容，定義之後，利用sheet.wr

爬蟲——爬取人民網資料生成詞雲圖

1、以人民網的新聞資料為例，簡單介紹的利用python進行爬蟲，並生成詞雲圖的過程。首先介紹python的requests庫，它就好像是一個“爬手”，負責到使用者指定的網頁上將所需要的內容爬取下來，供之後的使用。我們可以利用python的pip功能下載requests庫，在cmd視窗輸入

JAVA爬蟲爬取網頁資料資料庫中,並且去除重複資料

pom檔案  <dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId&

【爬蟲例項1】python3下使用beautifulsoup爬取資料並存儲txt檔案

1：執行環境： python： 3.7.0 系統：Windows IDE：pycharm 2017 2：需要安裝的庫： requests 和 beautifulsoup 3：完整程式碼： # cod

爬蟲爬取資料時各種中文亂碼問題

相關推薦