1. 程式人生 > >Python獲取網頁編碼

Python獲取網頁編碼

Python獲取網頁編碼

在做爬蟲的時候有的網站中的網頁可能有不同的編碼方式,我們則需要把獲取到的資料根據網頁編碼方式獲取。所以我們要先判斷當前網頁使用的是何種編碼方式,為此我使用requests庫解析當前頁的編碼方式。

requests庫是常用的網頁解析庫,也是我做爬蟲時一直使用的庫。其中的apparent_encoding方法可以正確獲取當前網頁的編碼方式。

import requests
headers = {
  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
}
url = 'https://www.baidu.com/'
html = requests.get(url,headers=headers)
print(html.apparent_encoding)

執行結果如下: