python爬蟲中文亂碼解決方法
python爬蟲中文亂碼
前幾天用python來爬取全國行政區劃編碼的時候,遇到了中文亂碼的問題,折騰了一會兒,才解決。現特記錄一下,方便以後檢視。
我是用python的requests和bs4庫來實現爬蟲,這兩個庫的簡單用法可參照ofollow,noindex" target="_blank">python爬取噹噹網的書籍資訊並儲存到csv檔案
亂碼未處理前部分程式碼
url = '要爬取的網頁' r = requests.get(url, timeout=30) soup = BeautifulSoup(r.text, 'lxml')
亂碼原因
我爬取的網頁使用的編碼是GBK。所以要按GBK編碼,才能避免中文亂碼。
解決亂碼的程式碼
url = '要爬取的網頁' r = requests.get(url, timeout=30) r.encoding='GBK'#增加encoding=‘GBK’,解決中文亂碼問題 soup = BeautifulSoup(r.text, 'lxml')
【原創宣告】轉載請標明出處:https://www.cnblogs.com/surecheun/p/9694052.html