python爬蟲由淺入深15---利用Redis+Flask來維護代理池和Cookie池

阿新 • • 發佈：2018-12-31

Redis主要用來維護池，提供池的佇列儲存

關於Redis的安裝與配置，可見點選開啟連結

Flask來實現池的介面，用它來從中拿出內容

代理池：

作用：用來偽裝IP，更好地利用代理資源來應對站點的反爬蟲策略

要求：多站抓取，非同步檢測

定時篩選，持續更新

提供介面，易於提取（利用Python的Flask包來提供web介面）

代理池的架構：

代理池的實現：此處貼上Github上大佬的開源專案

將其程式碼down下來，發現其結構如下：

配置代理池

cd proxypool

進入proxypool目錄，修改settings.py檔案

PASSWORD為Redis密碼，如果為空，則設定為None

安裝依賴

pip3 install -r requirements.txt

開啟代理池和API

python3 run.py

獲取代理

利用requests獲取方法如下

import requests

PROXY_POOL_URL = 'http://localhost:5000/get'

def get_proxy():
    try:
        response = requests.get(PROXY_POOL_URL)
        if response.status_code == 200:
            return response.text
    except ConnectionError:
        return None

各模組功能

getter.py

爬蟲模組
- class proxypool.getter.FreeProxyGetter
  
  爬蟲類，用於抓取代理源網站的代理，使用者可複寫和補充抓取規則。
schedule.py

排程器模組
- class proxypool.schedule.ValidityTester
  
  非同步檢測類，可以對給定的代理的可用性進行非同步檢測。
- class proxypool.schedule.PoolAdder
  
  代理新增器，用來觸發爬蟲模組，對代理池內的代理進行補充，代理池代理數達到閾值時停止工作。
- class proxypool.schedule.Schedule
  
  代理池啟動類，執行RUN函式時，會建立兩個程序，負責對代理池內容的增加和更新。
db.py

Redis資料庫連線模組
- class proxypool.db.RedisClient
  
  資料庫操作類，維持與Redis的連線和對資料庫的增刪查該，
error.py

異常模組
- class proxypool.error.ResourceDepletionError
  
  資源枯竭異常，如果從所有抓取網站都抓不到可用的代理資源，
  
  則丟擲此異常。
- class proxypool.error.PoolEmptyError
  
  代理池空異常，如果代理池長時間為空，則丟擲此異常。
api.py

API模組，啟動一個Web伺服器，使用Flask實現，對外提供代理的獲取功能。
utils.py

工具箱
setting.py

設定

Cookie池：

為什麼要維護cookie池？？
1.有的網站需要登入後才能爬取，如新浪微博

2.爬取過程中如果頻率過高會導致封號，那麼如果想要獲得非常多的資料，則需要非常多的賬號

cookie池的要求：

1.自動登入更新

2.定時驗證篩選

3.提供外部介面（可將池架在遠端的伺服器上，實現遠端部署）

cookie池的架構

cookie池的實現：需要先將一定量的賬號密碼之類的cookie存進Redis資料庫，然後利用python呼叫並維護

關於cookies池的維護，有以下開源專案案例可供參考：

python爬蟲由淺入深15---利用Redis+Flask來維護代理池和Cookie池

Redis主要用來維護池，提供池的佇列儲存關於Redis的安裝與配置，可見點選開啟連結 Flask來實現池的介面，用它來從中拿出內容代理池：作用：用來偽裝IP，更好地利用代理資源來應對站點的反爬蟲策略要求：多站抓取，非同步檢測定時篩選，持續更新

Python爬蟲入門之使用Redis+Flask維護動態代理池

代理池的要求多站抓取, 非同步檢測定時篩選, 持續更新提供介面, 易於提取代理池架構程式碼程式碼放到github上了,稍微修改了一點,可以正常運行了.有問題評論留言討論.

Python爬蟲通過替換http request header來欺騙瀏覽器實現登錄

kit 5.0 目的 user ima blog 界面 chrom num 以豆瓣為例，訪問https://www.douban.com/contacts/list 來查看自己關註的人，要登錄才能查看。如果用requests.get()方法獲取這個http，沒登錄只能

Python爬蟲案例：利用Python爬取笑話網

htm 分享 targe pen 技術分享搞笑 lan tle import 學校的服務器可以上外網了，所以打算寫一個自動爬取笑話並發到bbs的東西，從網上搜了一個笑話網站，感覺大部分還不太冷，html結構如下：可以看到，笑話的鏈接列表都在<div cla

PYTHON 爬蟲筆記十:利用selenium+PyQuery實現淘寶美食數據搜集並保存至MongeDB（實戰項目三）

pre pager 淘寶 NPU group color 存在 pan rgs 利用selenium+PyQuery實現淘寶美食數據搜集並保存至MongeDB 目標站點分析流程框架爬蟲實戰 spider詳情頁 import pymongo im

python爬蟲實戰：利用scrapy，短短50行代碼下載整站短視頻

start mongodb efi 本地 rtp 公司 loader 右鍵 more 近日，有朋友向我求助一件小事兒，他在一個短視頻app上看到一個好玩兒的段子，想下載下來，可死活找不到下載的方法。這忙我得幫，少不得就抓包分析了一下這個app，找到了視頻的下載鏈接，幫他解決

python爬蟲實戰：利用scrapy，短短50行程式碼下載整站短視訊

近日，有朋友向我求助一件小事兒，他在一個短視訊app上看到一個好玩兒的段子，想下載下來，可死活找不到下載的方法。這忙我得幫，少不得就抓包分析了一下這個app，找到了視訊的下載連結，幫他解決了這個小問題。因為這個事兒，勾起了我另一個念頭，這不最近一直想把python爬蟲方面的知識梳理梳理嗎，乾脆藉機行事，正湊

python爬蟲由淺入深9---定向爬取股票資料資訊並儲存至本地檔案

技術路線：requests庫+bs4庫+re庫的整合使用目標：獲得上交所和深交所所有股票的名稱和交易資訊輸出：儲存至本地檔案可選資料網路有：新浪股票和百度股票，，通過檢視網頁原始碼可知，新浪股票的資料是通過javascript指令碼獲取的，故通過以上方式無法解析呃呃

python爬蟲由淺入深1-從網頁中爬取檔案並儲存至本地

學過python語法的基礎，由此將由淺入深地進行以此python爬蟲的相關知識點的梳理從網頁中爬取檔案並儲存至本地 import requests import os url = "http://image.nationalgeographic.com.cn/2017

python爬蟲實戰：利用pyquery爬取貓眼電影TOP100榜單內容-2

上次利用pyquery爬取貓眼電影TOP100榜單內容的爬蟲程式碼中點選開啟連結存在幾個不合理點。1. 第一個就是自定義的create_file（檔案存在判斷及建立）函式。我在後來的python檔案功能相關學習中，發現這個自定義函式屬於重複造輪子功能。因為 for data

【1】python爬蟲入門，利用bs4以及requests獲取靜態網頁

注：本文僅適用於爬蟲初級入門者，並不涉及太多技術本質感謝您閱讀此文。最近放假在家，閒時無聊，開始入門了python爬蟲，可以完成一些基本的資料爬取（對於一些反爬取例如JS渲染，介面加密等頁面仍然處於學習之中），本文就是簡單總結最近已熟練掌握的爬取靜態網頁的方法。若是從未

小白學 Python 爬蟲（15）：urllib 基礎使用（五）

人生苦短，我用 Python 前文傳送門：小白學 Python 爬蟲（1）：開篇小白學 Python 爬蟲（2）：前置準備（一）基本類庫的安裝小白學 Python 爬蟲（3）：前置準備（二）Linux基礎入門小白學 Python 爬蟲（4）：前置準備（三）Docker基礎入門小白學 Pyth

Python 爬蟲框架 Scrapy 在 Windows10 系統環境下的安裝和配置

環境： Windows10 系統、python3.4.3 版本安裝 Scrapy ：使用 pip 安裝 Scrapy,在命令列視窗中輸入命令 “pip install Scrapy”,若不報錯即可安裝成功。注意：可在命令列視窗中輸入命令“pip -h”測試 pip 模組是否已安

如何利用C語言來獲取當地時間和UTC時間（設當地時間是北京時間）

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

python 爬蟲獲取西刺網免費高匿代理ip

import chardet import requests from scrapy.selector import Selector import random from telnetlib import Telnet ip_list = [] def g

python爬蟲爬取淘寶，羅蘭電鋼琴和雅馬哈電鋼琴（參考崔大）

淘寶網上有很多商品，這些商品的資訊就是一個很不錯的資料來源，於是我參考資料後依葫蘆畫瓢弄了一個爬蟲程式來爬一爬夢寐以求的電鋼琴。宣告一下：電鋼琴和電子琴是兩種不同的琴，我在正則表示式裡面設定了只要含有電子琴這個詞語一律不抓取。同時淘寶商家的很多商品欄都是重複的，不加篩選前

Python爬蟲解析htm時lxml的HtmlElement對象獲取和設置inner html方法

3.6 The target 接口導入模塊查找內容 XML encoding Python的lxml是一個相當強悍的解析html、XML的模塊，最新版本支持的python版本從2.6到3.6，是寫爬蟲的必備利器。它基於C語言庫libxml2 和 libxslt，進行了

如何利用C語言來獲取當地時間和UTC時間？（設當地時間是北京時間）

#include <stdio.h> #include <time.h> int main() { time_t t = time(NULL); tm *t

Python爬蟲之requests庫(三)：傳送表單資料和JSON資料

import requests 一、傳送表單資料要傳送表單資料，只需要將一個字典傳遞給引數data payload = {'key1': 'value1', 'key2': 'value

python爬蟲：爬取貓眼電影（分數的處理和多執行緒）

爬取用的庫是requests和beautifulsoup，程式碼編寫不難，主要是個別的細節處理需要注意 1、電影得分的處理右鍵審查元素，我們看到分數的整數部分和小數部分是分開的，在beautifulsoup中，我們可以用（.strings或者.stripped_stri

python爬蟲由淺入深15---利用Redis+Flask來維護代理池和Cookie池

配置代理池

安裝依賴

開啟代理池和API

獲取代理

各模組功能

相關推薦