1. 程式人生 > >python爬蟲中文亂碼解決方法

python爬蟲中文亂碼解決方法

python爬蟲中文亂碼

前幾天用python來爬取全國行政區劃編碼的時候,遇到了中文亂碼的問題,折騰了一會兒,才解決。現特記錄一下,方便以後檢視。

我是用python的requests和bs4庫來實現爬蟲,這兩個庫的簡單用法可參照python爬取噹噹網的書籍資訊並儲存到csv檔案

亂碼未處理前部分程式碼

   url = '要爬取的網頁'
    r = requests.get(url, timeout=30)
    soup = BeautifulSoup(r.text, 'lxml')

亂碼原因

我爬取的網頁使用的編碼是GBK。所以要按GBK編碼,才能避免中文亂碼。

解決亂碼的程式碼

   url = '要爬取的網頁'
    r = requests.get(url, timeout=30)
    r.encoding='GBK'   #增加encoding=‘GBK’,解決中文亂碼問題
    soup = BeautifulSoup(r.text, 'lxml')