python爬蟲URL重試機制實現(python2.7以及python3.5)

阿新 • • 發佈：2019-02-15

應用場景：

狀態不是200的URL重試多次

程式碼比較簡單還有部分註釋

python2.7實現：

# -*-coding:utf-8-*-
"""
ayou
"""

import requests

def url_retry(url,num_retries=3):
    print("access!")
    try:
        request = requests.get(url,timeout=60)
        #raise_for_status(),如果不是200會丟擲HTTPError錯誤
        request.raise_for_status()
        html = request.content
    except requests.HTTPError as e:
        html=None
        if num_retries>0:
            #如果不是200就重試，每次遞減重試次數
            return url_retry(url,num_retries-1)
    #如果url不存在會丟擲ConnectionError錯誤，這個情況不做重試
    except requests.exceptions.ConnectionError as e:
        return
    return html

url_retry("http://httpbin.org/status/404")

python3.5實現：

# -*-coding:utf-8-*-
"""
ayou
"""
import asyncio
import aiohttp

async def print_page(url,num_retries=3):
    async with aiohttp.ClientSession() as session:
        try:
            async with session.get(url,timeout=60) as response:
                print("access!")
                  #raise_for_status(),如果不是200會丟擲HttpProcessingError錯誤
                response.raise_for_status()
                body = await response.text()
        except aiohttp.errors.HttpProcessingError as e:
            body = None
            if num_retries > 0:
                  #如果不是200就重試，每次遞減重試次數
                return await print_page(url, num_retries - 1)
        #不存在URL會丟擲ClientResponseError錯誤
        except aiohttp.errors.ClientResponseError as e:
            return e
    session.close()
    print(body)
    return body

def main():
    #這是一個不存在URL
    # url = 'http://httpbin.org/status/404111'
    #這是一個404的URL
    url = 'http://httpbin.org/status/404'
    loop = asyncio.get_event_loop()
    loop.run_until_complete(print_page(url))
    loop.close()

if __name__ == '__main__':
    main()

爬蟲URL重試機制封裝成修飾器(python2.7以及python3.5以上)

python2.7版本：

# -*-coding:utf-8-*-
"""
ayou
"""
import requests

#定義一個重試修飾器，預設重試一次
def retry(num_retries=1):
    #用來接收函式
    def wrapper(func):
        #用來接收函式的引數
        def wrapper(*args,**kwargs):
            #為了方便看丟擲什麼錯誤定義一個錯誤變數
            last_exception =None
            #迴圈執行包裝的函式
            for _ in range(num_retries):
                try:
                    #如果沒有錯誤就返回包裝的函式，這樣跳出迴圈
                    return func(*args, **kwargs)
                except Exception as e:
                    #捕捉到錯誤不要return，不然就不會迴圈了
                    last_exception = e
            #如果要看丟擲錯誤就可以丟擲
            # raise last_exception
        return wrapper
    return wrapper

if __name__=="__main__":
    @retry(5)
    def url_retry(url):
        request = requests.get(url, timeout=60)
        print("access!")
        request.raise_for_status()
        html = request.content
        print(html)
        return html

    url_retry("http://httpbin.org/status/404")
    # url_retry("http://httpbin.org/status/404111")
    # url_retry("http://www.baidu.com")

python3.5以上版本：

# -*-coding:utf-8-*-
"""
ayou
"""
import aiohttp,asyncio

#定義一個重試修飾器，預設重試一次
def retry(num_retries=1):
    #用來接收函式
    def wrapper(func):
        #用來接收函式的引數
        def wrapper(*args,**kwargs):
            #為了方便看丟擲什麼錯誤定義一個錯誤變數
            last_exception =None
            #迴圈執行包裝的函式
            for _ in range(num_retries):
                try:
                    #如果沒有錯誤就返回包裝的函式，這樣跳出迴圈
                    return func(*args, **kwargs)
                except Exception as e:
                    #捕捉到錯誤不要return，不然就不會迴圈了
                    last_exception = e
            #如果要看丟擲錯誤就可以丟擲
            # raise last_exception
        return wrapper
    return wrapper

async def print_page(url):
    async with aiohttp.ClientSession() as session:
        async with session.get(url,timeout=60) as response:
            print("access!")
              #raise_for_status(),如果不是200會丟擲HttpProcessingError錯誤
            response.raise_for_status()
            body = await response.text()
    session.close()
    print(body)
    return body

@retry(5)
def loop_get():
    # url = "http://www.baidu.com"
    # url = 'http://httpbin.org/status/404111'
    url = 'http://httpbin.org/status/404'
    loop = asyncio.get_event_loop()
    loop.run_until_complete(print_page(url))
    loop.close()

if __name__ == '__main__':
    loop_get()

python爬蟲URL重試機制實現(python2.7以及python3.5)

應用場景：狀態不是200的URL重試多次程式碼比較簡單還有部分註釋 python2.7實現： # -*-coding:utf-8-*- """ ayou """ import reques

在centos6.5環境下搭建多版本python(python2.6、python2.7、python3.5)共存環境

可能存在的問題 yum安裝、原始碼安裝、二進位制安裝用哪個，官網文件是原始碼安裝，所以咱們就用原始碼安裝在原始碼安裝的時候會有什麼問題一個是預設路徑的問題，在編譯的時候時候如果不指定路徑的話，很多二進位制檔案會安裝到預設的目錄下/usr/bin下面，系

Ubuntu16.04 python2.7升級python3.5

指向 -1 images 默認 6.0 聲明需要 all www. 　　正常情況下，你安裝好ubuntu16.04版本之後，系統會自帶 python2.7版本，如果需要下載新版本的python3.5，就需要進行更新。下面給出具體教程：　　1.首先在ubuntu的終端te

Ubuntu 16.04編譯Opencv 3.4 (For python2.7 and python3.5)

相關依賴庫的安裝： apt install python-pip python3-pip pip2 install numpy pip3 install numpy 【上面兩步可以apt安裝更快 apt install python-numpy python3-nump

【轉載】Anaconda2下的Python2 7和Python3 5的共存

Anaconda 本質上是一個軟體發行版，包含了 conda、Python 等 180 多個科學包及其依賴項。因為包含了大量的科學包，Anaconda 的下載檔案比較大（約 500 MB），如果只需要某些包，或者需要節省頻寬或儲存空間，也可以使用Miniconda這個較小的發行版（僅包含conda和 Pyt

Python2.7及Python3.5.2的Scipy安裝

最近一直在用Pycharm的IDE，但是執行程式需要基本的庫，Scipy就是其中一個，其他的庫都在Pycharm的 File->Settings->Project InterPreter-

Anaconda2下的Python2.7和Python3.5的共存

Anaconda 本質上是一個軟體發行版，包含了 conda、Python 等 180 多個科學包及其依賴項。因為包含了大量的科學包，Anaconda 的下載檔案比較大（約 500 MB），如果只需要某些包，或者需要節省頻寬或儲存空間，也可以使用Minico

python2.7 和python3.5切換

1. 設定優先順序這裡我們預設讓python3.5優先順序150，高於python2.7優先順序100 sudo update-alternatives --install /usr/bin/pyth

Mac中升級Python2.7到Python3.5步驟

強烈建議不要直接sudo ln -s (會直接覆蓋系統原來的link導致想呼叫自帶python的軟體出現問題)，修改path variable雖然比較安全，但對於你的需要是沒有太大必要的。想要實現你的如下要求在終端裡直接輸入“python”命令就會執行3.5的py版本？直接在.profile加一個alia

樹莓派刪除python2.7預設python3.5

樹莓派自帶python2和3版本，要想使用3的話，還得特地敲python3、pip3等等一系列的指令但是python2我們基本上都已經不學了我們今天忍痛割去python2.7，輸入：sudo apt-get autoremove python2.7解除安裝完後，我們發現想用p

ubuntu 16.04 配置Python2.7 和 Python3.5 同時呼叫OpenCV

參考https://blog.csdn.net/jiandanjinxin/article/details/71438780 其中有改動;sudo apt-get -y install libtiff4-dev 改為sudo apt-get -y instal

linux筆記（python2.7與python3.5版本切換）

設定優先順序 sudo update-alternatives --install /usr/bin/python python /usr/bin/python2 100 sudo update-al

python爬蟲url去重

1.url去重從字面上理解，url去重即去除重複的url,在爬蟲中就是去除已經爬取過的url,避免重複爬取，既影響爬蟲效率，又產生冗餘資料。 2.url去重策略從表面上看，url去重策略就是消除url重複的方法，常見的url去重策略有五種，如下：

C# Command命令(行為型模式)+佇列實現事務,帶非同步命令重試機制和生命週期

一、簡介耦合是軟體不能抵禦變變化的根本性原因,不僅實體物件與實體物件之間有耦合關係(如建立性設計模式存在的原因),物件和行為之間也存在耦合關係. 二、實戰 1、常規開發中,我們經常會在控制器中或者Main方法中呼叫多個物件,進行批量的操作(完成一次事務性的操作),像下面這樣:

RxJava retryWhen操作符實現錯誤重試機制

業務需求當我們在app裡發起網路請求時，可能會因為各種問題導致失敗。如何利用RxJava來實現出現錯誤後重試若干次，並且可以設定重試的時間間隔。具體實現網路請求使用Retrofit來做，請求使用者資訊介面 @GET("/userinfo?n

包裝實現一個具有重試機制的RestTemplate

package com.wxind.httpexecutor; import org.springframework.boot.SpringApplication; import org.springframework.boot.autoconfigure.SpringBootApplication; im

自動化測試實戰技巧：「用例失敗重試機制」實現方案分享

![](https://tva1.sinaimg.cn/large/007S8ZIlgy1gfyokxzffsj30x80j0n63.jpg) # 1. 背景說明在開展自動化測試工作時，經常會由於一些外在原因（如網路中斷、返回超時）導致自動化測試用例執行失敗，而這些失敗並不是用例本身驗證或被測程式存

jedis超時重試機制註意事項

del number 十進制包含 str 沒有時間機制 await 最近使用redis集群進行incr操作，總是發現計數不準確，後來經過檢查發現redis在執行incr超時會執行重試機制，造成計數不準確，測試代碼： /** * incrf: *

URL重定向漏洞，python打造URL重定向漏洞檢測腳本

我們防止其他 bre enter 開發來源 current 後臺管理前言：今天學習了重定向漏洞，這個漏洞比較好理解漏洞名：URL重定向漏洞威脅：低漏洞的來源：開發者對head頭做好對應的過濾和限制例子：有漏洞的網站：http://a.c

guava的重試機制guava-retrying使用

tco exceptio AI ide .class exc erb BE 一個 1，添加maven依賴 <dependency> <groupId>com.github.rholder</groupId> &l

python爬蟲URL重試機制實現(python2.7以及python3.5)

相關推薦