python爬蟲常見異常及處理方法

阿新 • • 發佈：2019-01-09

在編寫python爬蟲時經常會遇到異常中斷的情況，導致爬蟲意外終止，一個理想的爬蟲應該能夠在遇到這些異常時繼續執行。下面就談談這幾種常見異常及其處理方法：

異常1：requests.exceptions.ProxyError

對於這個錯誤，stackoverflow給出的解釋是
The ProxyError exception is not actually the requests.exceptions exception; it an exception with the same name from the embedded urllib3 library, and it is wrapped in a MaxRetryError exception.
翻譯過來就是這個錯誤實際上不是requests.exceptions中的異常，這是嵌入到urllib2庫中的同名異常，這個異常是封裝在MaxRetryError當中的。補充一點，通常在代理伺服器不通時出現這個異常。
異常2：requests.exceptions.ConnectionError

對於這個錯誤，stackoverflow給出的解釋是
In the event of a network problem (e.g. DNS failure, refused connection, etc), Requests will raise a ConnectionError exception.
翻譯過來就是說這是網路問題出現的異常事件（如DNS錯誤，拒絕連線，等等），這是Requests庫中自帶的異常
一種解決辦法是捕捉基類異常，這種方法可以處理所有的異常情況:
try:
r = requests.get(url, params={’s’: thing})
except requests.exceptions.RequestException as e: # This is the correct syntax
print e
sys.exit(1)
另外一種解決辦法是分別處理各種異常，這裡面有三種異常：
try:
r = requests.get(url, params={’s’: thing})
except requests.exceptions.Timeout:
except requests.exceptions.TooManyRedirects:
except requests.exceptions.RequestException as e:
print e
sys.exit(1)
異常3：requests.exceptions.ChunkedEncodingError

對於這個錯誤，stackoverflow給出的解釋是
The link you included in your question is simply a wrapper that executes urllib’s read() function, which catches any incomplete read exceptions for you. If you don’t want to implement this entire patch, you could always just throw in a try/catch loop where you read your links.
問題中給出的連結是執行urllib’s庫的read函式時，捕捉到了讀取不完整資料導致的異常。如果你不想實現這個完整的不動，只要在讀取你的連結時丟擲一個try/catch迴圈即可：
try:
page = urllib2.urlopen(urls).read()
except httplib.IncompleteRead, e:
page = e.partial

對於上面的異常，還有一個比較簡單易用的解決方法，就是直接在處理異常時返回函式原型，這樣就可以在捕捉到異常後繼續執行下去，直到不出現異常為止，具體的實現方法如下：

def myfunc(para)
try:
     your code
except your except:
    print(your except)
    return myfunc

python爬蟲常見異常及處理方法

在編寫python爬蟲時經常會遇到異常中斷的情況，導致爬蟲意外終止，一個理想的爬蟲應該能夠在遇到這些異常時繼續執行。下面就談談這幾種常見異常及其處理方法：異常1：requests.exceptions.ProxyError 對於這個錯誤，stack

銳捷Windows認證客戶端常見問題及處理方法

windows 銳捷認證客戶 1：無法開機自啟動？A：在客戶端設置界面中勾選開機自動運行項，並檢查系統或第三方軟件（主要是第三方WIFI或外掛之類軟件）是否配置了阻止客戶端的自動運行，可通過卸載或徹底停止相關軟件然後測試客戶端來確認。2：無法接收到通告消息？A：在客戶端設置界面中勾選校園網消息提

Maven常見異常及解決方法

for display maven2 main collect nts exist temp set 異常1： [ERROR] Failed to execute goal on project biz_zhuhai: Could not resolve dependen

Maven常見異常及解決方法---測試代碼編譯錯誤

detail mave https ror 錯誤 failure 異常 gin pro [ERROR] Please refer to E:\maven\web_nanchang\target\surefire-reports for the individual test

開發過程中遇到的異常及處理方法

------Mapped Statements collection already contains value for com.chong.model.AccountMapper.checkAccount ------錯誤原因是由於使用mybatis的AccountMapper.xml

Nginx常見錯誤及處理方法

原文轉載:https://www.cnblogs.com/liyongsan/p/6795851.html 404 bad request 一般原因:請求的Header過大。解決方法：配置nginx.conf相關設定 client_header_buffer_size

git部署自動同步站點常見問題及處理方法

說明本人自己搭建了git伺服器並設定了程式碼提交後自動同步至站點目錄，在使用的過程中出現了一些問題，總結了一下，方便大家參考，如有問題，請大家聯絡我或在評論中指正。問題一問題描述：程式碼提交(

常見漏洞及處理方法

1、sql注入什麼是sql注入？就是使用者輸入特殊字元改變原有sql的語義，這就叫sql注入。我們看一下例子：首先建立一個簡單的user表模擬一下sql注入，如圖所示然後我們模擬一下使用者登入： $us

linux下vi/vim開啟檔案異常及處理方法

用vi/vim開啟之前寫過的c程式碼，會多次出現這個狀況：網易有道詞典翻譯如下：檔案編輯檢視搜尋終端幫助 E325:注意找到一個名為“.mybash.c.swp”的交換檔案業主:fr 日期:2018年11月11日11:31:55

Maven常見異常及解決方法（本篇更新至16-4-12）

本篇文章記錄了老貓在學習整合Maven和SSH過程中遇到的問題，有的問題能夠解決，有的問題還不能解決。方法不一定適合所有的環境，但絕對是本人常遇到的常見異常，在這裡做一個筆記和記錄，也分享給大家

hadoop常見錯誤及處理方法

如果大家在安裝的時候遇到問題，或者按步驟安裝完後卻不能執行Hadoop，那麼建議仔細檢視日誌資訊，Hadoop記錄了詳盡的日誌資訊，日誌檔案儲存在logs資料夾內。無論是啟動，還是以後會經常用到的MapReduce中的每一個job，以及HDFS等相關資訊，Hadoop均

java出現的異常及處理方法

1、MyBatis中資料返回型別不對，情況如下：（1）Mapper method 'com.forms.jms.webapp.systemmanage.doc.dao.DocDAO.delete' has an unsupported return type: class [

Java Web開發常見異常及排查方法記錄

突然想寫一篇部落格，記錄下java web開發常見異常及排查方法（持續更新，想到就會新增）先簡單講一下異常的分類所有異常的根類是Throwable。直接繼承自Throwable的是Error和Exception。Error表明發生的是嚴重的錯誤，程式很難處理和恢復的錯誤，比如

1.2 常見異常的處理方法

簡單 1.2 req 獲取網頁 quest 處理方法鏈接註意方法在import後面的第一行代碼： html = urlopen("http://www.baidu.com") 常見的異常主要有以下兩種：網頁在服務器上不存在（或者獲取頁面的時候出現錯誤

常見的手機小故障及處理方法

kkk 常見的手機小故障及處理方法世界在變，社會在發展，而現如今的手機已經成為人們生活中不可或缺的一部分了。眾所周知不管是什麽東西用久了都會出現或大或小的毛病。如人會生病，手機也和人是一樣的用久了也會出現一些小毛病的。當手機出現問題時，不要著急，深圳莊文展國際手

java JVM常見的四大異常及處理方案

maxperm 就是 locate stack 修飾 gpo 異常 native 思路區域作用異常控制參數解決思路 java堆存放對象的實例。 java.lang.OutOfMemory Error:Java heap space -Xms（初始化堆

Python 爬蟲常見的坑和解決方法

gpo 爬蟲 nic 詳細 true wow user html encoding 1.請求時出現HTTP Error 403: Forbidden headers = {‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; WOW64;

Python的異常及處理

python異常案例一自定義異常 class ShortInputException( Exception ): #繼承自Exception #定義構造方法 #__init__是構造方法，用於類的物件初始化 # self相當於Java中的this，表示

python入門19 異常及異常處理異常捕獲

常見異常舉例 """ 一些異常舉例：""" '''模組不存在 ModuleNotFoundError: No module named 'data' ''' #import data1 '''索引越界 IndexError: list index out of range ''' l

Spark 執行時常見異常及資料傾斜的解決方法

spark執行異常：現象1：有時會出現的一種情況非常普遍，在spark的作業中；shuffle file not found。（spark作業中，非常非常常見的）而且，有的時候，它是偶爾才會出現的一種情況。有的時候，出現這種情況以後，會重新去

python爬蟲常見異常及處理方法

相關推薦