python學習筆記——爬蟲2——反反爬

阿新 • • 發佈：2019-02-18

import requests
import re
import random
import time

#建立一個反反爬的類
class download:
    def __init__(self):

        self.iplist = [] ##初始化一個list用來存放獲取到的ip
        html = requests.get(' http://haoip.cc/tiqu.htm')##使用requests中的get方法獲取頁面的內容
        iplistn = re.findall(r'r/>(.*?)<b',html.text,re.S)##正則表示式，表示從html中獲取所有r/><b中的內容，re.S的意思是包括匹配包括換行符，findall返回的是列表
        for ip in iplistn:
            i = re.sub('\n','',ip)##利用re.sub替換方法，將\n替換為空
            self.iplist.append(i.strip())##將兩端去除空格後新增到上面的list裡面

        self.user_agent_list=[
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
            "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
            "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
            "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
            "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
            "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
            "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
            "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
            "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
        ]

    def get(self,url,timeout,proxy=None,num_retries=6):##給函式一個預設引數proxy為空,預設num_retries為6次
        UA = random.choice(self.user_agent_list)##從user_agent_list中隨機取出一個字串。
        headers = {'User_Agent':UA}##構造一個完整的User_Agent

        if proxy == None:##當代理為空時，不使用代理獲取response
            try:
                return requests.get(url,headers=headers)##返回一個requests.get的頁面檔案，呼叫隨機的headers，伺服器以為我們是真的瀏覽器了
            except:##如果上面的程式碼執行報錯則執行下面的程式碼
                if num_retries >0: ##num_retries是限定的重試次數
                    time.sleep(10) ##延遲10秒
                    print(u'獲取網頁出錯，10s後將獲取倒數第：',num_retries,u'次')
                    return self.get(url,timeout,num_retries-1)##呼叫自身，並減1，實現迴圈6次
                else:
                    print(u'開始使用代理')
                    time.sleep(10)
                    IP = ''.join(str(random.choice(self.iplist)).strip())##將從self.iplist中隨機獲取的字串處理成需要的格式。去除兩邊空格後，用join拼接？
                    proxy = {'http':IP}
                    return self.get(url,timeout,proxy)##代理不為空的時候

        else: ##當代理不為空
            try:
                IP = ''.join(str(random.choice(self.iplist)).strip())##將從self.iplist中隨機獲取的字串處理成需要的格式。去除兩邊空格後，用join拼接？
                proxy = {'http':IP}##構造成一個代理
                return requests.get(url,headers=headers,proxies = proxy,timeout=timeout)##使用代理獲取response
            except:
                if num_retries >0:
                    time.sleep(10)
                    IP = ''.join(str(random.choice(self.iplist)).strip())
                    proxy = {'http':IP}
                    print(u'正在更換代理，10s後將重新獲取倒數第',num_retries,u'次')
                    print(u'當前代理是：',proxy)
                    return self.get(url,timeout,proxy,num_retries-1)
                else:
                    print(u'代理也不好使！取消代理')
                    return self.get(url,3)

request = download()

python學習筆記——爬蟲2——反反爬

import requests import re import random import time #建立一個反反爬的類 class download: def __init__(self): self.iplist = [] ##初始化一個list用來存放獲取到的ip

c&c++反彙編與逆向分析學習筆記（2）--反彙編靜態分析工具IDA

所謂“靜態分析”，是相對於前面提到的“動態分析”而言的。在“動態分析”過程中，偵錯程式載入程式，並以除錯模式執行起來，分析者可以在程式的執行過程中觀察程式的執行流程和計算記過。但是，在實際分析中，很多場合不方便執行目標，比如軟體的某一模組（無法單獨執行）、病

Python學習筆記（2.1）函數參數練習

col python學習 nbsp cnblogs print item info inf -- 關鍵字參數和命名關鍵字參數 # -*- coding: utf-8 -*- def print_scores(**kw): print(‘

Byte of Python學習筆記（2）——回文練習

span forbidden you 一點學習筆記成員 reverse 大小寫 lis 　　Byte of Python 第111頁有關回文的作業練習，原題為：要想檢查文本是否屬於回文需要忽略其中的標點、空格與大小寫。例如，“Rise to vote, sir.”是一段

Python學習筆記（2）

PythonUnicode字符串： GB2312編碼為表示中文產生 python內部編碼是unicode編碼Unicode通常用兩個字節表示一個字符，原有的英文編碼從單字節變成雙字節，只需要把高字節全部填0 就可以以Unicode表示的字符串用u’….’表示如：print u’中文’

Python學習筆記__3.2章叠代

編程語言 Python # 這是學習廖雪峰老師python教程的學習筆記1、概覽如果給定一個list或tuple，我們可以通過for循環來遍歷這個list或tuple，這種遍歷我們稱為叠代（Iteration）。當然，不止 list 和 tuple 可以叠代。只要是可叠代對象，無論有無下標，都

Python學習筆記__2.2章定義函數

編程語言 Python # 這是學習廖雪峰老師python教程的學習筆記1、定義函數定義一個函數需要有函數名、參數、函數體。函數體中最好還有傳入的參數判斷 1.1、函數創建定義一個函數用def，數據類型檢查用isinstance。例子如下：def my_abs(x): if not

python學習筆記——爬蟲的抓取策略

寬度優先寬度重要 ron image alt 學習 http 技術 1 深度優先算法 2 廣度/寬度優先策略 3 完全二叉樹遍歷結果深度優先遍歷的結果：[1, 3, 5, 7, 9, 4, 12, 11, 2, 6, 14, 13, 8, 10] 廣度優先遍

Python學習筆記__4.2章返回函數

編程語言 python # 這是學習廖雪峰老師python教程的學習筆記1、函數作為返回值高階函數除了可以接受函數作為參數外，還可以把函數作為結果值返回。# 累加函數def external(*args): def internal(): ax = 0 for n i

Python學習筆記__8.2章調試

編程語言 Python # 這是學習廖雪峰老師python教程的學習筆記1、概覽如何在程序出錯時，知道哪些變量的值是正確的，哪些變量的值是錯誤的。1.1、print()用print()把可能有問題的變量打印出來def foo(s): n = int(s) print('>&g

Python學習筆記__9.2章 StringIO 和 BytesIO

編程語言 Python # 這是學習廖雪峰老師python教程的學習筆記很多時候，數據讀寫不一定是文件，也可以在內存中讀寫。1、StringIOStringIO顧名思義就是在內存中讀寫str。1.1、寫入StringIO要把str寫入StringIO，我們需要先創建一個StringIO，然後，像文件一

Python學習筆記__10.2章多線程

編程語言 Python # 這是學習廖雪峰老師python教程的學習筆記1、概覽多任務可以由多進程完成，也可以由一個進程內的多線程完成。進程是由若幹線程組成的，一個進程至少有一個線程。由於線程是操作系統直接支持的執行單元，因此，高級語言通常都內置多線程的支持，Python也不例外，並且，Python的

Python學習筆記__12.2章collections

編程語言 Python # 這是學習廖雪峰老師python教程的學習筆記collections是Python內建的一個集合模塊，提供了許多有用的集合類。1、namedtuplenamedtuple是一個函數，它用來創建一個自定義的tuple對象，並且規定了tuple元素的個數，並可以用屬性而不是索引來

Python學習筆記__13.2章 requests

編程語言 Python # 這是學習廖雪峰老師python教程的學習筆記相比於Python內置的urllib模塊，使用requests可以更好地處理URL資源。1、使用requests 1）通過GET訪問一個頁面>>> import requests>>> r

python學習筆記——爬蟲中提取網頁中的信息

個數傳輸自由 tro 不一定很多 set 字符串 2.4 1 數據類型網頁中的數據類型可分為結構化數據、半結構化數據、非結構化數據三種 1.1 結構化數據常見的是MySQL，表現為二維形式的數據 1.2 半結構化數據是結構化數據的一種形式，並不符合關系型數據

Python學習筆記__16.2章 TCP編程

編程語言 Python # 這是學習廖雪峰老師python教程的學習筆記Socket是網絡編程的一個抽象概念。通常我們用一個Socket表示“打開了一個網絡鏈接”，而打開一個Socket需要知道目標計算機的IP地址和端口號，再指定協議類型即可。1、客戶端大多數連接都是可靠的TCP連接。創建TCP連接時

python學習筆記-day8-2-【python 異常處理 try except】

finall 沒有 class cond col pytho span try 學習 python的異常處理，與其它語言的異常一樣，當錯誤發生的時候，能捕獲到發生的錯誤，不會導致程序crash。一、try except 1、 try except Exception，

python學習筆記——（2）pandas中的資料型別

在用python進行資料處理的時候，自帶的五種資料型別使用起來顯然是有侷限性的，python之強大在於各種包，在資料處理中用的最多的就是pandas和numpy。本文章主要介紹pandas的資料結構。 pandas有兩種資料結構

Python學習筆記（2）通過sqlalchemy建立資料庫表

在之前的學習筆記中講了如何通過sqlalchemy來連線資料庫，那麼以此為前提我們通過sqlalchemy來建立資料庫表，如果不知道的話請看Python學習筆記（1）使用sqlalchemy連線mysql # encoding: utf-8 from sqlalchem

Python學習筆記（2）：生成隨機數

Python中的random模組提供了一些很有用的方法來幫我們生成隨機數。接下來我們來看一下random模組中都包括哪些方法。 randint randint方法接收兩個整型引數a和b，其中第一個引數必須小於第二個引數（可以等於，但是沒有意義）。然後返回

python學習筆記——爬蟲2——反反爬

相關推薦