[Python3填坑之旅]1、urllib模組網頁爬蟲訪問中文網址出錯

阿新 • • 發佈：2018-11-10

正在學習網頁爬蟲，用的Python3+urllib模組，當遇到連結裡有中文字元的時候總是報錯。之前以為是Python編碼的問題，不斷去嘗試不同的編碼去encode與decode，可以問題總是解決不了，沒有辦法繼續查閱資料，最後發現其實解決方法特別簡單。

問題描述
當我訪問帶有中文字元的網址時總會報錯：

UnicodeEncodeError: 'ascii' codec can't encode characters in position 10-11: ordinal not in range(128)

最開始以為編碼問題，沒有解決
原始碼程式碼如下：

import urllib

rooturl = "https://baike.baidu.com/item/"
item = "爬蟲"
url = rooturl+item
print(url)

request = urllib.request.Request(url=url)
reponse = urllib.request.urlopen(request)
result = reponse.read()
result = str(result, encoding="utf-8")
print(result)

解決方法
最後找到了問題，就是應為中文“爬蟲”出的問題，卻不是編碼問題。
原來是Python3的urllib模組urllib.request.Request()方法中無法處理帶有中文字元的連結，需要通過urllib.parse.quote()對中文字串轉換一下新增程式碼即可：

item = urllib.parse.quote(item)

但是要注意一點，只要對中文部分進行轉換，如果連結全部轉換也會報錯：

ValueError: unknown url type: 'https%3A//baike.baidu.com/item/%E7%88%AC%E8%99%AB'

完整程式碼：

import urllib

rooturl = "https://baike.baidu.com/item/"
item = "爬蟲"
item = urllib.parse.quote(item)
url = rooturl+item
print(url)

request = urllib.request.Request(url=url)
reponse = urllib.request.urlopen(request)
result = reponse.read()
result = str(result, encoding="utf-8")
print(result)

今天又踩了這個坑，我把它填平了，希望後來者路平攤些
謝謝觀看

[Python3填坑之旅]1、urllib模組網頁爬蟲訪問中文網址出錯

正在學習網頁爬蟲，用的Python3+urllib模組，當遇到連結裡有中文字元的時候總是報錯。之前以為是Python編碼的問題，不斷去嘗試不同的編碼去encode與decode，可以問題總是解決不了，沒有辦法繼續查閱資料，最後發現其實解決方法特別簡單。問題描述當我訪問帶有中文

Play 填坑之旅 1

play framework 所有檔案都要是utf-8編碼的，如果有不是該編碼的檔案會出現encoding error，並且所有通過activator生成的檔案也要是utf-8編碼。如果指明瞭在寫哪個檔案時出現了編碼問題的，直接去修改該檔案的編碼，不用去找其他檔案的問題

Git 深度學習填坑之旅二（檔案三種狀態、打標籤）

0x01 三種狀態 Git 有三種狀態，你的檔案可能處於其中之一：已提交(committed)、已修改(modified)和已暫存(staged)。已提交表示資料已經安全的儲存在本地資料庫中。已修改表示修改了檔案，但還沒儲存到資料庫中。已暫存表示對一個已修改檔案的當前版本做了標記，使之包含在下次

Git 深度學習填坑之旅三（分支branch、遠程操作）

操作完成後啟用 remove branch word mil soft 文件的 0x01 分支branch依舊借用大表哥(@表元素)的圖很多時候，我們需要建立另一條分支來進行項目的獨立開發，當完成後再跟主流回合進行合並這個時候就要啟用分支branch功能 git b

[python3 Numpy 填坑之旅]使用Numpy廣播機制實現陣列與數字比較大小的問題

在使用Numpy開發的時候，遇到一個問題，需要Numpy陣列的每一個元素都與一個數進行比較，返回邏輯陣列。我們在使用Numpy計算是可以直接使用陣列與數字運算，十分方便。當我嘗試使用廣播機制來處理陣列與數字比較大小問題的時候發現廣播機制同樣適用，以下是測試程式碼：示例一，二維

[python3 OpenCV3填坑之旅]解決影象數學運算後無法正確顯示的問題

最近用的OpenCV python3 開發場景識別的應用，遇到了在影象進行數學邏輯運算後無法真確顯示的問題，問題程式碼如下： out = 1*((img[:,:,2]>img[:,:,1])&(img[:,:,1]>img[:,:,0])) print(out.sha

Git 深度學習之填坑之旅一（git安裝和配置、基本命令）

2018-11-07 14:37 by 蟬時雨, ... 閱讀, ... 評論, 收藏, 編輯前戲最近不管是工作還是ctf比賽，接觸與使用git變得越來越多，git半吊子水平的我已經不能支撐日常工作了。碰巧自己公司專案剛上線，現在能擠出一

13、最新安卓Xamarin繫結相關填坑之旅

今天群裡面有兄弟夥說第三方庫用不起。說實話在我覺得第三方庫能成功的機率大於90% 除了極少數噁心的庫以外。絕大部分第三方庫都還是可以繫結好的這個是官方的也有對應的demo 首先遇到繫結庫我會第一時間nuget查詢下雖然這種庫很少有人會用。但是萬一有人綁定了呢？然後我會在github搜尋

Android填坑之旅（第二十一篇）天貓開源框架V_layout使用總結

基本使用流程網上案例很多，大多都是貼上複製，當然也沒有問題，只要讀者能夠明白使用的流程即可，筆者也是從網上一步一步按部就班去學習，梳理並最終運用到自身專案當中去在學習以及運用過程中碰到些

記一次9.png的填坑之旅

歡迎訪問我的個人獨立部落格 ittiger.cn，原創文章，未經允許不得隨意轉載。最近在專案中進行介面調整時遇到了一個9.PNG圖引起的View的padding值不正常導致UI顯示不符合預期結果的問題。這篇文章就來記錄我當時遇到的問題的表現形式，以及

easyrecyclerview 重新整理載入功能程式碼分析(填坑之旅)

想選一個重新整理載入又可以新增各種header 的列表控制元件，挑來挑去也就easyrecyclerview 最好用了，可是重新整理載入卻也有bug 1.重新整理的時候不能載入，載入的時候不能重新整理，解決重新整理的時候不能載入（我的方案

一名Android開發者的微信小程式填坑之路(1)

前言首先要宣告的是，我是一名 Android 開發者，之前基本沒有前端開發經驗，甚至連 JS ，HTML 都是為了開發小程式現學的一些皮毛——所以文章中所提到的一些點也許在資深前端開發者看來只是小case，但是站在一個 Android 開發者的角度來看確實是

React Native填坑之旅 -- 使用iOS原生檢視（高德地圖）

在開發React Native的App的時候，你會遇到很多情況是原生的檢視元件已經開發好了的。有的是系統的SDK提供的，有的是第三方試圖元件，總之你的APP可以直接使用的原生檢視是很多的。React Native提供了一套完善的機制，你可以非常簡單的用來包裝已有

Android填坑之旅（第二十二篇）使用友盟社會化分享的碰到的坑

最近有個專案又要使用分享功能模組，況且之前也整合過，於是乎趁現在專案沒有啟動，就提前預熱了一把，本想著兩個鐘頭搞定，然而儘管之前整合過一次，筆者發現過段時間之後還是像剛剛整合一樣，故寫下這篇博文加以記錄。 1.在使用友盟分享面板的時候出現面板無法彈出，只是

Android填坑之旅（第十三篇）教你一招搞定專案混淆配置

# Add project specific ProGuard rules here. # By default, the flags in this file are appended to flags specified # in D:\Androi

stm32填坑之旅一 - stm32f103c8t6點亮板載貼片藍色LED

轉載請註明：https://www.cnblogs.com/rockyf/p/11691622.html 開篇開篇一定要精彩，不然路人不理睬！下述是筆者作為arm小白的填坑之旅沒錯，這個之前一直從事軟體開發的筆者，開始搞硬體了，當然僅僅是數電！模電需要有很紮實的電路基礎，而筆者有的只有“紮實”的邏輯基礎。

python 3.6.1 安裝scrapy踩坑之旅

ext href sta 版本 deb targe IE src pyw 系統環境：win10 64位系統安裝 python基礎環境配置不做過多的介紹 window環境安裝scrapy需要依賴pywin32，下載對應python版本的exe文件執行安裝，下載的pywin

android studio 3.1.3爬坑之旅

出錯資訊：The SourceSet 'instrumentTest' is not recognized by the Android Gradle Plugin. Perhaps you misspelled something? 翻譯：“SourceSet” 的

微信小程式填坑之路（三）：佈局適配方案（rpx、px、vw、vh）

因為小程式是以微信為平臺執行的，可以同時執行在android與ios的裝置上，所以不可避免的會遇到佈局適配問題，特別是在iphone5上，因為螢幕尺寸小的緣故，也是適配問題最多的機型，下面就簡單介紹幾種適配方法。 rpx適配 rpx是小程式中

微信小程式填坑之路（四）：微信登入獲取openid、unionid

在微信小程式中，因為各種各樣的原因我們會需要獲取到使用者的openid或者unionid下面就簡單來講一下在小程式中如何獲取openid和unionid。步驟一：微信登入獲取登入憑證

[Python3填坑之旅]1、urllib模組網頁爬蟲訪問中文網址出錯

相關推薦