1. 程式人生 > >scrapy 設定代理ip和cookies(微博)

scrapy 設定代理ip和cookies(微博)



pipelines.py程式碼
from fake_useragent import UserAgent
import requests


class UserAgentMiddlewares(object):
    """
自定義一個UserAgent的下載中介軟體。    """
def __init__(self, user_agent_type):
        self.ua = UserAgent()
        self.user_agent_type = user_agent_type

    @classmethod
def from_crawler(cls, crawler):
        obj = cls
( user_agent_type=crawler.settings.get('USER_AGENT_TYPE', 'random') ) return obj def get_user_agent(self): # getattr():通過self.ua呼叫self.user_agent_type user_agent = getattr(self.ua, self.user_agent_type) return user_agent def get_cookies(self): return
requests.get('http://localhost:5000/weibo/random').text def get_proxy(self): return requests.get('http://localhost:5010/get/').text def process_request(self, request, spider): # 設定隨機的User-Agent request.headers.setdefault(b'User-Agent', self.get_user_agent()) # 設定代理IP # request.meta['proxy'] = 'http://' + self.get_proxy()
request.cookies = eval(self.get_cookies()) return None
settings.py 程式碼:
DOWNLOADER_MIDDLEWARES = {
   'Weibo.middlewares.WeiboDownloaderMiddleware': None,
   'Weibo.middlewares.UserAgentMiddlewares': 543,

}

USER_AGENT_TYPE = 'random'

相關推薦

scrapy 設定代理ipcookies

pipelines.py程式碼from fake_useragent import UserAgent import requests class UserAgentMiddlewares(object): """ 自定義一個UserAgent的下載中介軟體。

Python實現爬蟲設定代理IP偽裝成瀏覽器的方法分享

Python實現爬蟲設定代理IP和偽裝成瀏覽器的方法分享  1.python爬蟲瀏覽器偽裝   1

python爬蟲設定代理ip池——方法

"""在使用python爬蟲的時候,經常會遇見所要爬取的網站採取了反爬取技術,高強度、高效率地爬取網頁資訊常常會給網站伺服器帶來巨大壓力,所以同一個IP反覆爬取同一個網頁,就很可能被封,那如何解決呢?使用代理ip,設定代理ip池。以下介紹的免費獲取代理ip池的方法:優點:1.

HttpClient-- 使用代理IP 超時設置

超時設置 cti proto eat 超時時間 user 判斷 wow wow64 1.代理IP的用處:   在爬取網頁的時候,有的目標站點有反爬蟲機制,對於頻繁訪問站點以及規則性訪問站點的行為,會采集屏蔽IP措施。這時候,就可以使用代理IP,屏蔽一個就換一個IP。 2

scrapy中間鍵如何使用代理IP使用者代理

1.middleware.py中程式碼 class IPPOOlS(HttpProxyMiddleware): def __init__(self, ip=''): self.ip = ip # 請求處理 # 先隨機選擇一個IP def

設定代理 IP | Requests & Scrapy

對於採取了比較強的反爬措施網站來說,要想順利爬取網站資料,設定隨機 User-Agent 和代理 IP 是非常有效的兩個方法。本文介紹如何在 Requests 和 Scrapy 中設定代理 IP。 本文的目標測試網頁選擇下面這個 URL,請求該網頁可以返回當前的 IP 地址: htt

Maven的pom.xml文件結構之基本配置packaging多模塊聚合結構服務

second maven項目 支持 其中 jar maven 所有 了解 ack 1. packaging packaging給出了項目的打包類型,即作為項目的發布形式,其可能的類型。在Maven 3中,其可用的打包類型如下: jar,默認類型 war ejb ear r

教你用 Python 多執行緒爬京東商城商品評論代理ip請閱讀上一篇

爬蟲永不停息 最近改進上一篇的爬蟲,不爬豆瓣了,改爬一爬京東評論,先放幾張圖研究看看先。 研究了一下,發現商品的id就是連結.html前面的數字。我們把它複製貼上下拉 1,對上一篇的代表進行修改和新增 class Spider(): def

centos7使用圖形介面設定網路IPDNS(VM)中

點選應用程式,系統工具,進入設定: 然後點選網路,有線連線右邊的設定符號: 然後點選IPV4,將自動獲取改為手動:    接下來是重點了,要配置這個系統的IP,要知道它的閘道器和子網ip: 開啟VM中編輯裡的虛擬網路編輯器點選NAT設定:

java中為ChromeDriver設定代理IP

ChromeOptions options = new ChromeOptions(); // 設定代理ip String ip = "ip:port"; options.addArguments("--proxy-server=http://" + ip); WebDriver driver =

Scrapy:測試代理ip

import requests try: requests.get('http://www.baidu.com', proxies={'http': 'http://101.96.11.73:8080'}) except: print('connect failed')

Web開發——JavaScript庫jQuery HTML——獲取/設定內容屬性DOM操作 續,需要整合在一起

  3.2 text()、html() 以及 val()的回撥函式   上面的三個 jQuery 方法:text()、html() 以及 val(),同樣擁有回撥函式。回撥函式由兩個引數:被選元素列表中當前元素的下標,以及原始(舊的)值。然後以函式新值返回您希望使用的字串。   下面的例子演示

Web開發——JavaScript庫jQuery HTML——獲取/設定內容屬性DOM操作

  jQuery 擁有可操作 HTML 元素和屬性的強大方法。 1、jQuery DOM 操作   jQuery 中非常重要的部分,就是操作 DOM 的能力。   jQuery 提供一系列與 DOM 相關的方法,這使訪問和操作元素和屬性變得很容易。   提示:DOM = Document Object

通過httpClient設定代理Ip

背景:   我們有個車管系統,需要定期的去查詢車輛的違章,之前一直是調第三方介面去查,後面發現數據不準確(和深圳交警查的對不上),問題比較多。於是想幹脆直接從深圳交警上查,那不就不會出問題了嗎,但是問題又來了,因為車比較多,一次查的資料量很大,如果同時間段大批量請求深圳交警可能會導致ip被他們那邊封禁,那有

【轉載】Jsoup設定代理ip訪問

轉載地址:https://blog.csdn.net/qq_36980713/article/details/80913248 import java.io.IOException; import java.util.*; import java.util.concurrent.Exec

CentOS7 修改設定靜態IPDNS

用虛擬機器裝CentOS7,使用的NAT的網路模式,為了防止再次啟動系統的時候網路IP發生變化,因此設定靜態IP和DNS。 由於CentOS是最小化安裝,沒有ifconfig命令,因此可以採用ip命令檢視。 檢視IP分配情況: #ip addr

乾貨|Python爬蟲如何設定代理IP

在學習Python爬蟲的時候,經常會遇見所要爬取的網站採取了反爬取技術導致爬取失敗。高強度、高效率地爬取網頁資訊常常會給網站伺服器帶來巨大壓力,所以同一個IP反覆爬取同一個網頁,就很可能被封,這裡講述一個爬蟲技巧,設定**代理IP**。 配置環境 安裝requests庫 安

專案的網段訪客的網段儘量設定不同的網段網路安全

前言:故事發生在前兩天,我們去參觀工業園區內一家電商公司。去參觀他們公司的時候,我說要用下無線網,他們技術說密碼就是他們的網站域名,我一臉懵逼表示我不知道域名,然後對方接過我手機給我連上了他們wifi。然後就有了後面的故事。0x01 邪惡的想法在回來的時候,我注意到,他們公司在二樓,在樓下wifi訊號也還好,

jsoup 設定代理ip

Jsoup.connect("https://www.sina.com").proxy("123.100.89.100", 8123).header("Accept", "*/*")          &n

【Python】matplotlib畫圖設定顏色、標記線型系列2

摘要 上一節講了如何設定標題、軸標籤、刻度、刻度標籤。 本節講解設定顏色、標記和線型。 1.畫基礎圖 import matplotlib.pyplot as plt from numpy.random import randn plt.plot(randn(30).cumsum(