解決python爬蟲中文亂碼問題

阿新 • • 發佈：2018-12-31

今天在用python爬取網頁資料時中文顯示亂碼，最終發現是目標網頁編碼與python預設編碼‘utf-8’不一致導致的。下面把解決方法與大家分享。

step1：檢視目標網頁編碼方式

在各種瀏覽器開啟的任意頁面上使用F12功能鍵，即可使用開發者工具，在視窗console標籤下，鍵入“document.charset” 即可檢視網頁的編碼方式。如網頁連結: http://www.tianqihoubao.com/aqi/lanzhou-201812.html的編碼為“GBK”。
在這裡插入圖片描述

step2：對目標網頁轉碼

url="http://www.tianqihoubao.com/aqi/lanzhou-201812.html" 

try:
    html=urlopen(url)
except HTTPError as e:
    print (e)
else:
    #目標網頁編碼為'GBK',python預設編碼為'utf-8',為解決中文亂碼問題，對目標網頁進行解碼再編碼
    bsobj=BeautifulSoup(html.read().decode('GBK').encode('utf-8') )

step3：爬取資料並儲存

# -*- coding: utf-8 -*-
from urllib.request import urlopen
from bs4 import BeautifulSoup
import 
 urllib.parse
import pandas as pd

url="http://www.tianqihoubao.com/aqi/lanzhou-201812.html"
try:
    html=urlopen(url)
except HTTPError as e:
    print (e)
else:
    #目標網頁編碼為'GBK',python預設編碼為'utf-8',為解決中文亂碼問題，先對目標網頁進行解碼再編碼
    bsobj=BeautifulSoup(html.read().decode('GBK').encode('utf-8') )
#獲取標籤為tr的資料
data= 
bsobj.findAll('tr')
con=[]
#取出表頭
for i in data[0:1]:
    title=i.get_text().strip().split("\n\n")
print (title)
#取表格中的內容
for i in data[1:]:
    contents=i.get_text()
    con.append(contents.replace(" ","").replace("\n\r","").replace("\r\n","").strip().split("\n"))
#將資料放到DataFrame中並寫入csv檔案儲存
air_data=pd.DataFrame(con,columns=title)
print (air_data)
air_data.to_csv('air.csv',index=None)

儲存的資料詳情：
在這裡插入圖片描述

解決python爬蟲中文亂碼問題

今天在用python爬取網頁資料時中文顯示亂碼，最終發現是目標網頁編碼與python預設編碼‘utf-8’不一致導致的。下面把解決方法與大家分享。 step1：檢視目標網頁編碼方式在各種瀏覽器開啟的任意頁面上使用F12功能鍵，即可使用開發者工具，在視窗console標籤下，鍵入“d

python爬蟲中文亂碼解決方法

python爬蟲中文亂碼前幾天用python來爬取全國行政區劃編碼的時候，遇到了中文亂碼的問題，折騰了一會兒，才解決。現特記錄一下，方便以後檢視。我是用python的requests和bs4庫來實現爬蟲，這兩個庫的簡單用法可參照python爬取噹噹網的書籍資訊並儲存到csv檔案亂碼未處理前部分程式碼

python爬蟲中文亂碼問題（request方式爬取）

req = requests.get(url)返回的是類物件其包括的屬性有： req.encoding:返回編碼方式 req.text：text返回的是處理過的Unicode型的資料 req.content：content返回的是bytes型的原始資料 conte

解決python matplotlib中文亂碼問題

修改配置檔案matplotlibrc Python36\site-packages\matplotlib\mpl-data\matplotlibrc 如下最後l兩行： #font.size

Python爬蟲中文小說網點查找小說並且保存到txt(含中文亂碼處理方法)

nbsp nor png erro 請求方式輸出結果下載 ros mozilla 從某些網站看小說的時候經常出現垃圾廣告，一氣之下寫個爬蟲，把小說鏈接抓取下來保存到txt，用requests_html全部搞定，代碼簡單，容易上手. 中間遇到最大的問題就是編碼問題，第一抓

Python程式設計：解決matplotlib繪圖中文亂碼問題

測試環境： mac python3 先檢視本機支援的字型 # 顯示可以用的中文字型 from matplotlib.font_manager import FontManager import subprocess def show_can_use_

win10下使用vscode除錯python輸出中文亂碼的解決辦法

　　今天在vscode中除錯一個python指令碼時發現中文亂碼了，折騰了好一會兒才找到原因，記錄一下。　　很簡單的一句程式碼測試一下：　　# -*- coding: utf-8 -*- 　　print('亂碼不？') 　　檔案編碼設定的也是utf-8，但是除錯就是亂碼，網上

python爬蟲中文不能正常顯示問題的解決

最近作業要用到網站（http://nba.sports.sina.com.cn/players.php）中的資料，初次爬取，中文不能正常顯示。查找了很多資料，參考了很多例子。理論沒了解很多，但最終實現效果了。直接貼專案中實現的程式碼：import requests i

python 爬蟲網頁亂碼問題解決方法

在使用python爬取網頁時，經常會遇到亂碼問題，一旦遇到亂碼問題，就很難得到有用的資訊。本人遇到亂碼問題，一般有以下幾個方式：1、檢視網頁原始碼中的head標籤，找到編碼方式，例如：在上圖中，可以看到charset='utf-8',說

Python BeautifulSoup中文亂碼問題的2種解決方法

解決方法一：使用python的BeautifulSoup來抓取網頁然後輸出網頁標題,但是輸出的總是亂碼,找了好久找到解決辦法,下面分享給大家首先是程式碼 from bs4 import BeautifulSoup import urllib2 url = 'htt

python shell 中文亂碼解決

python的預設檔案編碼是ASCll,當檔案包含中文的時候,如果用python shell測試可能會出現以下錯誤: Non-ASCII character '\xe4' in file D:\Pyt

SpringMVC如何解決POST請求中文亂碼問題，GET的又如何處理呢？

rec ppi utf-8 proto style app 亂碼問題 ping 解決在web.xml中 <filter> <filter-name>CharacterEncodingFilter</filter-name>

解決servlet請求中文亂碼的通用過濾器程序

狀態 odin blog 完成 ktr try nds pos ren import java.io.IOException; import java.io.UnsupportedEncodingException; import java.util.Map; impor

解決mssql localdb 中文亂碼問題

database alt use ldb mdf lba local 查詢 mssq 使用以下查詢語句即可。 alter database "E:\.Net Core\Database\hm.mdf" set single_user with rollback immedi

解決jdbc MySQL中文亂碼問題

spa style mysql安裝亂碼問題 img images mysql ges 安裝進MySQL安裝目錄，打開my.ini 　　　　　　這兩個地方改成gbk 　　　　　　　　　　　　重啟服務解決jdbc MySQL中文亂碼問題

關於netbeans解決c/c++中文亂碼的問題

開發環境的問題關於netbeans解決c/c++中文亂碼的問題

解決spring boot中文亂碼問題

地址今天解決正常 img alt mage com 沒有在開發或學習當中，我們不可避免的會碰到中文亂碼的問題（好想哭，但還是要保持微笑！）今天，在學習spring boot中碰到了中文亂碼問題。首先，看了一下workspace是不是設置utf-8默認字符集：

遠程連接Oracle 服務器解決Oracle查詢中文亂碼

nbsp OS scott developer 日期 ace use dos 服務器端 Dos方法：依托於目錄下的文件使用plsql developer 客戶端軟件進行連接需要配置一下：就是把Dos的客戶端配置進來然後，把服務器端的文件拷貝到你

Linux/Centos解決安裝oracle11g中文亂碼的問題

Oracle Linux Centos 系統運維解決Linux下安裝oracle11g中文亂碼的問題新建一個目錄，上傳字體包zysong.ttf到新建的目錄，命令如下： #mkdir –p /usr/share/fonts/zh_CN/TrueType #cd /usr/share/f

weui不帶time的日期選擇框同時解決確定按鈕中文亂碼問題

<input class="weui_input" id="start_time" style="float: left;width:40%" type="text" readonly value="" /> $("#start_time").dateti

解決python爬蟲中文亂碼問題

step1：檢視目標網頁編碼方式

step2：對目標網頁轉碼

step3：爬取資料並儲存

相關推薦