Python3.5+requests 爬取網站遇到中文亂碼怎麼辦？ä½èï¼å¾®è½¯äºæ´²ç ç©¶é¢

阿新 • • 發佈：2018-11-03

import requests
from bs4 import BeautifulSoup

url = 'http://quote.eastmoney.com/stocklist.html'
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = {'User-Agent': user_agent}
req = requests.get(url, headers=headers)
req.encoding = 'utf-8'
bs = BeautifulSoup(req.content, 'html.parser')  # type: BeautifulSoup
quotesearch = bs.find('div', attrs={'id': 'quotesearch'})
print(quotesearch)

執行以上程式碼，顯示結果如下：

<li><a href="http://quote.eastmoney.com/sz300737.html" target="_blank">¿ÆË³¹É·Ý(300737)</a></li>
<li><a href="http://quote.eastmoney.com/sz300738.html" target="_blank">°Â·ÉÊý¾Ý(300738)</a></li>
<li><a href="http://quote.eastmoney.com/sz300739.html" target="_blank">Ã÷ÑôµçÂ·(300739)</a></li>
<li><a href="http://quote.eastmoney.com/sz300740.html" target="_blank">Óù¼Ò»ã(300740)</a></li>
<li><a href="http://quote.eastmoney.com/sz300741.html" target="_blank">»ª±¦¹É·Ý(300741)</a></li>

1.解決思路一：檢視網頁的編碼方式

F12開啟網站地址，檢視最上方head，發現編碼方式為‘gb2312’(charset=gb2312)，修改程式碼第八行req.encoding = 'gb2312',重新執行程式碼。執行結果未改變，仍有亂碼。

2.解決思路二：修改程式碼第九行bs = BeautifulSoup(req.text, 'html.parser')，將req.content改為req.text，執行程式碼，結果正常，無亂碼。

原理：

resp.text返回的是Unicode型的資料。
resp.content返回的是bytes型也就是二進位制的資料

因此如果我們想讀取解析文字資料時，使用的是response.text。而想讀取解析圖片檔案，往往使用的就是response.content

轉載自：https://blog.csdn.net/weixin_41931602/article/details/81181946

Python3.5+requests 爬取網站遇到中文亂碼怎麼辦？ä½èï¼å¾®è½¯äºæ´²ç ç©¶é¢

import requests from bs4 import BeautifulSoup url = 'http://quote.eastmoney.com/stocklist.html' user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Wind

Python3.5：爬取網站上電影數據

x64 沒有 () nbsp 運行 lpar target __init__ doc 首先我們導入幾個pyhton3的庫: from urllib import requestimport urllibfrom html.parser import HTMLParser 在

Python3 利用requests抓取網頁原始碼中文亂碼問題（由gb2312編碼引起）

核心問題： meta charset = “gb2312” requests 中文亂碼 ×îÐÂÏûÏ¢_¡¶ÃÎ»ÃÎ÷ÓÎ¡·µçÄÔ°æ¹Ù·½ÍøÕ¾ 以夢幻西遊官網為例 <!DOCTYPE html> <hea

python2. requests爬取網上資料中文亂碼的情況處理方法

先說下發現的問題，今天在做一個爬取功能的時候，中文一直是亂碼，原來以為是返回的資料壓縮導致的，後邊查了下文件，requests裡如果headers設定了'Accept-Encoding': 'gzip, deflate',且目標網頁也支援壓縮的話，requests會把爬到的網

【爬蟲】002 python3 +beautifulsoup4 +requests 爬取靜態頁面

bgcolor img err 預覽政府 bold 技術貴的頁面元素實驗環境: win7 python3.5 bs4 0.0.1 requests 2.19 實驗日期：2018-08-07 爬取網站：http://www.xhsd.cn/ 現在的網站大多有復雜

python3 利用requests爬取拉勾網資料

學習python，瞭解了一點爬蟲的知識，成功的對拉勾網的招聘資訊進行了爬取，將爬取心得記錄下來，和大家一起學習進步。準備工作： python3 requests pandas 谷歌瀏覽器(或者火狐瀏覽器、qq瀏覽器)

python3.5.4爬取豆瓣中國內地電影票房總排行輸出到excel

首先，作為練手，我也是看別人的部落格文章學習寫爬蟲的，過程中遇到很多問題，不過經過自己的努力完成了此項任務，雖然過程波折，但是收穫不會少，作為自學可謂加深印象。先說下需求，使用Python3.5版本獲取豆瓣950多部電影排行資訊，包含電影名稱、導演、主演、編劇、型別、時長、上

requests爬取中文網站的字元編碼問題

這兩天在一些入口網站使用requests爬資料的時候，發現列印或者儲存到檔案中的中文顯示為Unicode碼，看著十分不爽快，於是就必須網上找了一下相關問題。其實，弄明白瞭解決也很簡單了比如，爬取鳳凰網 response= requests

requests 使用免費的代理ip爬取網站（要效率的話還是推薦花錢買vip）

import requests import queue import threading from lxml import etree #要爬取的URL url = "http://xxxxx" #代理ip網站 proxy_url = "https://www.kuaidaili.com/free

Python3網路爬蟲：requests爬取動態網頁內容

本文為學習筆記學習博主:http://blog.csdn.net/c406495762 Python版本：python3.+ 執行環境：OSX IDE：pycharm 一、工具準備抓包工具：在OSX下,我使用的是Charles4.0 下載連結以及安裝教

python3[爬蟲實戰] 爬蟲之requests爬取新浪微博京東客服

爬取的內容為京東客服的微博及評論思路:主要是通過手機端訪問新浪微博的api介面，然後進行資料的篩選，這個主要是登陸上去的微博的url連結，可以看到的介面：這裡主要爬取的內容為：說說，說說下面的評論條目雖然很簡單，但是，不得不說句mmp，爬

Python3.6爬取網站圖片

最近幾天在學習python，寫了個簡單的爬蟲程式：成功執行程式碼的前提是安裝了Python需要的第三方庫，以下是程式碼： # -*- coding:utf8 -*- import os import re import requests as rq import urll

Python3 requests爬取代理IP並驗證可用性（附多執行緒模式）

簡要介紹：使用python3 環境，需要自己安裝的包有requests （網址請求，獲取頁面資訊）和 Lxml（頁面解析，資訊提取）。首先確定從何處獲取 “IP”，本人此次爬取的是西刺網的免費IP代理。大概流程：請求有免費IP的網址（本次使用“htt

Python3+Beautiful Soup4+Selenium爬蟲，爬取網站視訊

其中有個使用瀏覽器的步驟需要根據報錯的提示，下載exe檔案，放到某個目錄，然後再修改Selenium中的原始碼，指明exe的目錄。 import bs4 import urllib.request from selenium import webdriver import

requests爬取去哪兒網站

閒來無事，所以爬下去哪兒網站的旅遊景點資訊，爬取網頁之前，最重要的是分析網頁的架構。1. 選擇要爬取的網頁及定位自己要爬取的資訊 url=http://piao.qunar.com/ 爬取全國熱門城市的境內門票首先要得到全國熱門城市的城市名及它們背後的連結2. 根據獲得

Python3爬蟲之五：爬取網站資料並寫入excel

本文主要講解如何將網頁上的資料寫入到excel表中，因為我比較喜歡看小說，我們就以筆趣閣的小說資料為例，來說明怎麼把筆趣閣的小說關鍵資訊統計出來，比如：小說名、字數、作者、網址等。根據之前的幾次爬蟲例項分析筆趣網原始碼知道，小說名在唯一的標籤h1中，因此可以

python3 [爬蟲實戰] selenium + requests 爬取安居客

很簡單，這裡是根據網友的求助爬取的安居客上的一個頁面的全部地區名稱跟連結因為她用的scrapy框架，感覺有些大才小用了，所以就直接用了一個requests庫，selenium 和xpath進行一整頁資料的爬取獲取的內容：包括地區名，地

python爬蟲：爬取網站視頻

爬蟲 python python爬取百思不得姐網站視頻：http://www.budejie.com/video/新建一個py文件，代碼如下：#!/usr/bin/python # -*- coding: UTF-8 -*- import urllib,re,requests import sys

Python3使用BeautifulSoup4爬取《三國演義》

文章解析器 end read print menu contents htm 地址 #!/sur/bin/python#conding=utf-8import urllib.requestfrom bs4 import BeautifulSoupurl="http://w

使用requests爬取貓眼電影TOP100榜單

esp 進行得到 ensure .com key d+ odin pickle 　　Requests是一個很方便的python網絡編程庫，用官方的話是“非轉基因，可以安全食用”。裏面封裝了很多的方法，避免了urllib/urllib2的繁瑣。　　這一節使用request

Python3.5+requests 爬取網站遇到中文亂碼怎麼辦？ä½è ï¼å¾®è½¯äºæ´²ç ç©¶é¢

相關推薦

Python3.5+requests 爬取網站遇到中文亂碼怎麼辦？ä½èï¼å¾®è½¯äºæ´²ç ç©¶é¢