Python爬蟲scrapy框架Cookie池（微博Cookie池）的使用

阿新 • • 發佈：2019-01-01

下載程式碼Cookie池（這裡主要是微博登入，也可以自己配置置其他的站點網址）

下載安裝過後注意看網頁下面的相關基礎配置和操作！！！！！！！！！！！！！

自己的設定主要有下面幾步：

1、配置其他設定

2、設定使用的瀏覽器

3、設定模擬登陸

原始碼cookies.py的修改（以下兩處不修改可能會產生bug）：

4、獲取cookie

隨機獲取Cookies： http://localhost:5000/weibo/random（注意：cookie使用時是需要後期處理的！！）

簡單的處理方式，如下程式碼（偶爾需要對獲取的cookie處理）：

 def get_cookie(self):
        return requests.get('http://127.0.0.1:5000/weibo/random').text

    def stringToDict(self,cookie):
        itemDict = {}
        items = cookie.replace(':', '=').split(',')
        for item in items:
            key = item.split('=')[0].replace(' ', '').strip(' "')
            value = item.split('=')[1].strip(' "')
            itemDict[key] = value
        return itemDict

    def start_requests(self):
        ua = UserAgent()
        headers = {
            'User-Agent': ua.random,
            }
        cookies = self.stringToDict(str(self.get_cookie().strip('{|}')))

        yield scrapy.Request(url=self.start_urls[0], headers=headers,
                             cookies=cookies, callback=self.parse) 
cookies = self.stringToDict(str(self.get_cookie().strip('{|}')))

        yield scrapy.Request(url=self.start_urls[0], headers=headers,
                             cookies=cookies, callback=self.parse)

scrapy爬蟲的使用示例（爬取微博）：

middlewares.py中自定義請求中介軟體

import requests
import logging
import json
# 自定義微博請求的中介軟體
class WeiBoMiddleWare(object):
    def __init__(self, cookies_pool_url):
        self.logging = logging.getLogger("WeiBoMiddleWare")
        self.cookies_pool_url = cookies_pool_url

    def get_random_cookies(self):
        try:
            response = requests.get(self.cookies_pool_url)
        except Exception as e:
            self.logging.info('Get Cookies failed: {}'.format(e))
        else:
            # 在中介軟體中，設定請求頭攜帶的Cookies值，必須是一個字典，不能直接設定字串。
            cookies = json.loads(response.text)
            self.logging.info('Get Cookies success: {}'.format(response.text))
            return cookies

    @classmethod
    def from_settings(cls, settings):
        obj = cls(
            cookies_pool_url=settings['WEIBO_COOKIES_URL']
        )
        return obj

    # process_request()該方法會被多次呼叫，每一個request請求都會經過這個方法交給downloader
    def process_request(self, request, spider):
        request.cookies = self.get_random_cookies()
        return None

    def process_response(self, request, response, spider):
        """
        對此次請求的響應進行處理。
        :param request:
        :param response:
        :param spider:
        :return:
        """
        # 攜帶cookie進行頁面請求時，可能會出現cookies失效的情況。訪問失敗會出現兩種情況：1. 重定向302到登入頁面；2. 也能會出現驗證的情況；

        # 想攔截重定向請求，需要在settings中配置。
        if response.status in [302, 301]:
            # 如果出現了重定向，獲取重定向的地址
            redirect_url = response.headers['location']
            if 'passport' in redirect_url:
                # 重定向到了登入頁面，Cookie失效。
                self.logging.info('Cookies Invaild!')
            if '驗證頁面' in redirect_url:
                # Cookies還能繼續使用，針對賬號進行的反爬蟲。
                self.logging.info('當前Cookie無法使用，需要認證。')

            # 如果出現重定向，說明此次請求失敗，繼續獲取一個新的Cookie，重新對此次請求request進行訪問。
            request.cookies = self.get_random_cookies()
            # 返回值request: 停止後續的response中介軟體，而是將request重新放入排程器的佇列中重新請求。
            return request

        # 如果沒有出現重定向，直接將response向下傳遞後續的中介軟體。
        return response

settings.py 中的配置：

5、錄入賬號和密碼：

格式規定（賬號----密碼）

6、驗證：（注意：使用cmd）

7、使用時注意保持cmd開啟執行！！

使用時一定要開啟cmd,並執行如第6步。

得到Cookie是判斷是否處理處理Cookie（幾乎都需要！！）類比第4步！！！

Python爬蟲scrapy框架Cookie池（微博Cookie池）的使用

下載程式碼Cookie池（這裡主要是微博登入，也可以自己配置置其他的站點網址）下載安裝過後注意看網頁下面的相關基礎配置和操作！！！！！！！！！！！！！自己的設定主要有下面幾步： 1、配置其他設定 2、設定使用的瀏覽器 3、設定模擬登陸

python爬蟲scrapy專案詳解（關注、持續更新）

python爬蟲scrapy專案（一）　　爬取目標：騰訊招聘網站（起始url：https://hr.tencent.com/position.php?keywords=&tid=0&start）　　爬取內容：職位；職位型別；招聘人數；工作地點；釋出時間；招聘詳細連結；工作職責；工作要求

python爬蟲scrapy專案詳解（關注、持續更新）！

爬取目標：騰訊招聘網站（起始url：https://hr.tencent.com/position.php?keywords=&tid=0&start）爬取內容：職位；職位型別；招聘人數；工作地點；釋出時間；招聘詳細連結；工作職責；工作要求反反爬措施：設定隨機user-a

python 爬蟲 scrapy框架的使用一

1 首先安裝 scrapy ： pip install scrapy 2 用命令建立一個spider工程： scrapy startproject spider5 3 建立一個spider檔案，並指定爬蟲開始的域名： scrapy gensp

python 爬蟲 scrapy框架的使用一

pytho clas 工程本地 emp mpi 原理 png 下載 1 首先安裝 scrapy ： pip install scrapy 2 用命令創建一個spider工程： scrapy startproject spider5 3 創建一個s

Python爬蟲scrapy框架爬取動態網站——scrapy與selenium結合爬取資料

scrapy框架只能爬取靜態網站。如需爬取動態網站，需要結合著selenium進行js的渲染，才能獲取到動態載入的資料。如何通過selenium請求url，而不再通過下載器Downloader去請求這個url?方法：在request物件通過中介軟體的時候，在中介軟體內部開始

python爬蟲scrapy框架——人工識別登入知乎倒立文字驗證碼和數字英文驗證碼(2)

import scrapy import re import json class ZhihuSpider(scrapy.Spider): name = 'zhihu' allowed_domains = ['www.zhihu.com'] start_urls = ['http

python爬蟲Scrapy框架之中間件

gin 關於 pre ces alt python類分享新建爬蟲 Downloader Middleware處理的過程主要在調度器發送requests請求的時候以及網頁將response結果返回給spider的時候, 所以說下載中間件是結余Scrapy的request

python爬蟲----scrapy框架簡介和基礎應用

就是 all 安裝持久化數據 whl 執行編寫通用一、什麽是scrapy？　　scrapy是一個為了爬取網站數據，提取結構性數據而編寫的應用框架，非常出名，非常強悍。所謂的框架就是一個已經被集成了各種功能（高性能異步下載，隊列，分布式，解析，持久化等）的具有很

[Python爬蟲]Scrapy框架爬取bilibili個人資訊

啟動檔案main.py from scrapy.cmdline import execute execute('scrapy crawl bili_gr_xx'.split()) 執行spider下的爬取檔案 # -*- coding: ut

python爬蟲scrapy框架——人工識別知乎登入知乎倒立文字驗證碼和數字英文驗證碼

import requests try: import cookielib except: import http.cookiejar as cookielib import re import time def get_xsrf(): # 獲取xsrf code res

python爬蟲Scrapy框架之增量式爬蟲

obj lib show prop open html back extract hot 一增量式爬蟲什麽時候使用增量式爬蟲：增量式爬蟲：需求當我們瀏覽一些網站會發現，某些網站定時的會在原有的基礎上更新一些新的數據。如一些電影網站會實時更新最近熱門的電影。那麽，當我

python爬蟲之git的使用（coding.net的使用）

git push github上版本 es2017 push 我們執行命令 pytho 最好的 1、註冊coding.net賬號，然後登陸。 2、創建項目套路和github都一樣。 1.1、我們在遠程倉庫上創建了一個倉庫，這樣的話，我們需要在本地隨便建立一

楊超越微博爬蟲（微博文字+圖片）粉絲資訊待續

# -*- coding: utf-8 -*- import urllib.request import json import time import random from urllib.request import urlopen from bs4 import BeautifulSoup im

[python爬蟲] Selenium爬取新浪微博內容及使用者資訊

登入入口新浪微博登入常用介面：http://login.sina.com.cn/ 對應主介面：http://weibo.com/但是個人建議採用手機端微博入口：http://login.weibo.cn/login/ 其原因是手機端資料相對更輕量型，同時基本資料都齊全，可能缺少些個人基本資訊，如"個人資料

Android載入超長圖（微博長圖）

對於一些需要載入超長圖需求的同學，可能一開始使用使用bitmap或者inputstream轉bitmap（或類似載入庫）會發現出現圖片太大載入不出來的問題（其實我也是遇到了這個問題ヽ(≧Д≦)ノ）。解決問題的思路可以參考Coding_the_world封裝自己的庫（然而我

Python爬蟲從入門到放棄（十一）之 Scrapy框架整體的一個了解

object 定義 roc encoding eth obi pipe pos 等等這裏是通過爬取伯樂在線的全部文章為例子，讓自己先對scrapy進行一個整理的理解該例子中的詳細代碼會放到我的github地址：https://github.com/pythonsite/

Python爬蟲從入門到放棄（十三）之 Scrapy框架的命令行詳解

directory xpath idf 成了 spider i386 名稱 4.2 不同的這篇文章主要是對的scrapy命令行使用的一個介紹創建爬蟲項目 scrapy startproject 項目名例子如下： localhost:spider zhaofan$ sc

Python的scrapy框架爬蟲專案中加入郵箱通知（爬蟲啟動關閉等資訊以郵件的方式傳送到郵箱）

前面關於傳送郵件的部落格參考：普通郵件部落格——點選開啟連結帶附件的郵件——點選開啟連結準備： 1、建立scrapy爬蟲專案 2、程式碼主要是兩部分：呈上程式碼第一部分是傳送郵

Python爬蟲從入門到放棄（十五）之 Scrapy框架中Spiders用法

ide 字典初始化需要工作流程 www. 默認 apple 一個原文地址https://www.cnblogs.com/zhaof/p/7192503.html Spider類定義了如何爬去某個網站，包括爬取的動作以及如何從網頁內容中提取結構化的數據，總的來說spi

Python爬蟲scrapy框架Cookie池（微博Cookie池）的使用

下載程式碼Cookie池（這裡主要是微博登入，也可以自己配置置其他的站點網址）

自己的設定主要有下面幾步：

相關推薦