1. 程式人生 > >爬取網頁資料時,出現UnicodeEncodeError: 'gbk' codec can't encode character '\ue4bf'

爬取網頁資料時,出現UnicodeEncodeError: 'gbk' codec can't encode character '\ue4bf'

UnicodeEncodeError: 'gbk' codec can't encode character '\ue4bf' in position 1235: illegal multibyte

網頁的資料應該是'utf-8'編碼,這個可以在網頁的head上面看得到,然後你爬網頁的時候會把它轉化成Unicode,出問題的是在print()這兒,對於print()這個函式,他需要把內容轉化為'gbk'編碼才能顯示出來. 然後解決辦法是這樣,你在轉化後的Unicode編碼的string後面,加上 .encode('GBK','ignore').decode('GBK') 也就是先用gbk編碼,忽略掉非法字元,然後再譯碼。