1. 程式人生 > >Python爬蟲系列:判斷目標網頁編碼的幾種方法

Python爬蟲系列:判斷目標網頁編碼的幾種方法

qpi data- tps 分享 運行 ofo html nbsp 來看

在爬取網頁內容時,了解目標網站所用編碼是非常重要的,本文介紹幾種常用的方法,並使用幾個網站進行簡單測試。

技術分享圖片

代碼運行結果:

技術分享圖片

從不同國家的幾個網站測試結果來看,utf8使用的較多(對於純英文網站,用什麽方式解碼沒有本質區別)。但方法3和4成功率更高一些,不過速度略慢,比較好的方法是組合使用這幾個方法,結合異常處理結構,優先使用方法1或2,實在不行再使用後面的方法。http://www.aibbt.com/a/18106.html

Python爬蟲系列:判斷目標網頁編碼的幾種方法