1. 程式人生 > >python獲取html編碼GB2312中文亂碼的問題

python獲取html編碼GB2312中文亂碼的問題

GB18030涵蓋了GB2312和GBK

# coding:utf-8

import sys
import urllib2
import re
from BeautifulSoup import BeautifulSoup

reload(sys)
sys.setdefaultencoding('utf-8')

url='http://www.led.hc360.com/'
request = urllib2.Request(url)
response = urllib2.urlopen(request,data=None,timeout=30)
htmlpage = response.read()
soup = BeautifulSoup(htmlpage,fromEncoding="GB18030")  #重點使用fromEncoding="GB18030"
a_title = soup.find("title")
print a_title


相關推薦

python獲取html編碼GB2312中文亂碼的問題

GB18030涵蓋了GB2312和GBK # coding:utf-8 import sys import urllib2 import re from BeautifulSoup import BeautifulSoup reload(sys) sys.setdefa

html utf-8 中文亂碼

解碼 文檔 ima htm 我們 ... 中文 utf image 剛才用ajax從記事本中讀文檔的時候,發現在頁面上顯示是亂碼。 頁面編碼:<meta charset="utf-8"> 搞半天最後發現是記事本編碼格式的問題,記事本默認編碼格式為ANSI,我們在

python讀文件出現中文亂碼

文件編碼 cnblogs edi style 輸出結果 時間 讀取 color lin 最近開始處理中文文本,讀取文件有時候會出現亂碼。原因:編碼和解碼方式不一樣。 所以,解決這個問題的方法就是正確地解碼,問題拆解為:1、弄清楚待查看文件的編碼方式;2、解碼。 即

Python 讀寫文件 中文亂碼 錯誤TypeError: write() argument must be str, not bytes+

with open handle hand 之前 med str 進制 pen set 今天寫上傳文件代碼,如下 def uploadHandle(request): pic1=request.FILES[‘pic1‘] picName=os.path.j

ThinkPHP使用純真IP獲取物理地址時中文亂碼問題

需要 text 嘗試 由於 編碼 運行 中文亂碼問題 com 轉換 今天在用ThinkPHP通過純真IP獲取地址時,發現輸出結果中文亂碼,如圖: 經查發現ThinkPHP的IpLocation.class.php類文件中說明:“由於使用UTF8編碼 如果使用純真IP地址庫

python使用zipfile解壓中文亂碼問題

              在zipfile.ZipFile中獲得的filename有中日文則很大可能是亂碼,這是因為 在zip標準中,對檔名的 encoding 用的不是 unicode,而可能是各種軟體根據系統的預設字符

Python 關於 encode與decode 中文亂碼問題

字串在Python內部的表示是unicode編碼,因此,在做編碼轉換時,通常需要以unicode作為中間編碼,即先將其他編碼的字串解碼(decode)成unicode,再從unicode編碼(encode)成另一種編碼。 decode的作用是將其他編碼的字串轉換成unicode編碼,如str1.decode

json_encode使用unicode編碼解決中文亂碼

根據官方手冊,json_endcode()函式在PHP5.4.0版本以後新增了 JSON_UNESCAPED_UNICODE 引數,可以設定unicode編碼:  寫個栗子: <?php $str1 = json_encode('李維山');

python : cookie get/set + cookie 中文亂碼問題

set: #!D:\anzhuang\python\python.exe import codecs, sys, cgi, cgitb sys.stdout = codecs.getwriter('utf-8')(sys.stdout.buffer) print ('Content

JS 獲取url引數以及中文亂碼問題

encodeURI() 函式可把字串作為 URI 進行編碼 var para=window.location.search;// 當前請求的url的引數部分 console.log(para) /

JavaWeb request獲取引數造成的中文亂碼問題解決方法

一、亂碼原因 當我們使用request物件,傳送請求時,會對你要獲取的引數進行編碼。在此過程中使用的編碼方式是ISO8859-1的編碼方式。而這種編碼方式是不支援中文的,所以會造成亂碼。 二、解決方法 首先介紹通用的解決方法,對於get和post提交方式都適用

java html轉pdf 中文亂碼

網上關於 html生產pdf的java程式碼許多,我就不說了。主要是記錄一下亂碼問題的關鍵 1、html檔案必須是utf-8編碼格式的檔案。 2、程式碼中的獲取方式也是utf-8的格式。 3、其他的按照別人的教程編寫

Windows下,在Python中用matplotlib畫圖出現中文亂碼中文變方框)的解決方案

方法一:每次編寫程式碼時進行引數設定#coding:utf-8 import matplotlib.pyplot as plt plt.rcParams['font.sans-serif']=['Sim

Python獲取網頁編碼

Python獲取網頁編碼 在做爬蟲的時候有的網站中的網頁可能有不同的編碼方式,我們則需要把獲取到的資料根據網頁編碼方式獲取。所以我們要先判斷當前網頁使用的是何種編碼方式,為此我使用requests庫解析當前頁的編碼方式。 requests庫是常用的網頁解析庫,也是我做爬蟲時一直使用的庫。其中

python zip 檔案解壓中文亂碼問題解決

今天突然碰到zip檔案解壓後中文亂碼問題。百度了下覺得這篇文章不錯。儲存儲存。 來源:http://blog.sina.com.cn/s/blog_5805e98101012uzv.html 萬惡的編碼!!!!!!!!!! 學習 python 2.x 時就被時不時出現

解決Windows系統下python利用matplotlib繪圖時中文亂碼的問題

不講道理,直接上解決方案 第一步: 進入windows系統自帶的字型資料夾中,自己電腦能支援的所有字型都在這 裡面。進入方法:控制面板-->外觀和個性化-->字型,進入後的介面如下圖所示: 第二步: 在這個資料夾中找到“

[問題]python內部os.system輸出中文亂碼

import os os.system("dir") 輸出結果:  F:\code\python\django ��Ŀ¼ 2017/05/08  10:13    <DIR>          . 2017/05/08  10:13    <DIR

php 使用$_SERVER["REQUEST_URI"]獲取url中含中文亂碼的解決辦法

$request_uri = $_SERVER["REQUEST_URI"];//獲取當前頁url var_dump(urldecode($request_uri)); 中文等自動urlenco

python總結(二):控制檯中文亂碼的解決辦法

在編寫bash終端應用程式中,如果字串裡含有中文字元,可能會出現亂碼。 這裡以Win 10為例進行程式碼測試,utf8.py的內容如下: #!/usr/bin/env python # -*- coding: UTF-8 -*- value = '蟻方陣

Sybase編碼相關---中文亂碼

     使用Sybase Central開啟sybase庫中的內容,如果顯示亂碼,可以使用如下的方法解決。      注意:伺服器安裝後,要先設定字符集,然後再新增資料,如果已有資料,修改字符集,會將原來的中文內容變成亂碼!            1. JDBC連線串要有字符集設定      jdbc: