用scrapy爬取有用的免費的西刺代理

阿新 • • 發佈：2018-12-16

爬蟲為什麼要使用代理伺服器？

可以總結為以下幾點：

1.我們在使用python爬蟲爬取一個網站時，通常會頻繁訪問該網站。網站的反爬蟲技術就會檢某一段時間某個IP的訪問次數，如果

訪問次數過多，它就會禁用你的IP，所以我們可以設定一些代理伺服器來幫助你做工作，每隔一段時間換一個代理，這樣便不會出

現因為頻繁訪問而導致禁止訪問的現象。

2.由於網路環境因素，直爬取速度太慢，但我們訪問代理速度比較快，代理訪問目標網站速度也比較快，所以我們使用代理提高爬

取速度。

3.由於某些地方法律或政治原因，某些網站無法直接訪問，使用代理繞開訪問限制。

閒言少敘，來看scrapy如何爬取能用的西刺代理。

# -*- coding: utf-8 -*-
import scrapy
import json

#高匿代理
class ProxySpider(scrapy.Spider):
    name = 'proxy'
    allowed_domains = ['www.xicidaili.com']
    start_urls = ['http://www.xicidaili.com/nn/%s' % i for i in range(1,6)]

    def parse(self, response):
        #position()>1 獲取tr標籤位置大於1的標籤
        for sel in response.css('table#ip_list').xpath('.//tr[position()>1]'):
            # nth-child(2)獲取第二個子標籤 （注意這裡的順序從1開始）
            ip = sel.css('td:nth-child(2)::text').extract_first()   #ip
            port = sel.css('td:nth-child(3)::text').extract_first()  #埠
            scheme = sel.css('td:nth-child(6)::text').extract_first()  #型別HTTP，https

            # 拼接代理url
            proxy = '%s://%s:%s' % (scheme,ip,port)

            # 定義json資料 meta 文字
            meta = {
                'proxy':proxy,
                'dont_retry':True,        #只下載一次，失敗不重複下載
                'download_timeout':10,    # 設定等待時間 

                '_proxy_ip':ip,
                '_proxy_scheme':scheme
            }

            #校驗代理是否可用  通過訪問httpbin.org/ip,進行檢測
            url = '%s://httpbin.org/ip' % scheme
            yield scrapy.Request(url,callback=self.check,meta=meta,dont_filter=True)

    def check(self,response):
        proxy_ip = response.meta['_proxy_ip']
        proxy_scheme = response.meta['_proxy_scheme']

        #json.loads（）將json文字返回字典型別   origin原代理
        if json.loads(response.text)['origin'] == proxy_ip:
            yield {
                'proxy':response.meta['proxy'],
                'scheme':proxy_scheme,
            }

執行爬蟲時，將爬取到的內容放到json檔案中，留作後用。

scrapy crawl proxy -o proxy_list.json

用scrapy爬取有用的免費的西刺代理

爬蟲為什麼要使用代理伺服器？可以總結為以下幾點： 1.我們在使用python爬蟲爬取一個網站時，通常會頻繁訪問該網站。網站的反爬蟲技術就會檢某一段時間某個IP的訪問次數，如果訪問次數過多，它就會禁用你的IP，所以我們可以設定一些代理伺服器來幫助你做工作，每隔一段時間

用scrapy爬取搜狗Lofter圖片

request index import rap .so 圖片 file loader clas 用scrapy爬取搜狗Lofter圖片 # -*- coding: utf-8 -*- import json import scrapy from scrapy.http

用scrapy爬取京東商城的商品信息

keywords XML 1.5 rom toc ons lines open 3.6 軟件環境： 1 gevent (1.2.2) 2 greenlet (0.4.12) 3 lxml (4.1.1) 4 pymongo (3.6.0) 5 pyO

用scrapy爬取京東的數據

identify allow 9.png spider main %d 網頁 pro fyi 本文目的是使用scrapy爬取京東上所有的手機數據,並將數據保存到MongoDB中。一、項目介紹主要目標 1、使用scrapy爬取京東上所有的手機數據 2、將爬取的數據

經典爬蟲：用Scrapy爬取百度股票

前言今天我們編寫一個用 Scrapy 框架來爬取百度股票的程式碼，之前寫過一篇爬取百度股票的文章（點我），程式碼的邏輯和這篇文章的邏輯是一樣的，用到的解析器不同罷了。 Scrapy 爬蟲框架 Scrapy 爬蟲框架是由 7+2 的結構構成：引擎

用 scrapy 爬取 xml 源

1.建立專案資料夾：scrapy startproject myxml 2.編輯 items 檔案，定義要儲存的結構化資料 3.建立一個爬蟲檔案用於分析 XML 源： 1)scrapy genspider -l 先查詢可使用爬蟲模板檔案 2)scrapy genspider -t x

用scrapy爬取京東的資料

# -*- coding: utf-8 -*- import scrapy from ..items import JdphoneItem import sys reload(sys) sys.setdefaultencoding("utf-8") class JdSpider(scrapy.Spid

用scrapy爬取ttlsa博文相關數據存儲至mysql

添加 contains exec 什麽 dev paths 爬取 spa mark 運維生存時間這個博客內容還是比較詳盡的,對與運維技術人員的我來說,是偶爾溜達進來的地方,從中也學習到不少知識，感謝博主的奉獻! 這段時間我就通過scrapy來收集下此博客內文章的相關數據,供

用Scrapy爬取筆趣閣小說

今天早上無聊，去筆趣閣扒了點小說存Mongodb裡存著，想著哪天做一個小說網站有點用，無奈網太差，爬了一個小時就爬了幾百章，爬完全網的小說，不知道要到猴年馬月去了。再說說scrapy這個爬蟲框架，真是不用不知道，一用嚇一跳，這個實在太好用了，比自己用request，Beaut

scrapy爬取西刺網站ip

close mon ins css pro bject esp res first # scrapy爬取西刺網站ip # -*- coding: utf-8 -*- import scrapy from xici.items import XiciItem clas

Python爬蟲從入門到放棄（十八）之 Scrapy爬取所有知乎用戶信息(上)

user 說過 -c convert 方式 bsp 配置文件 https 爬蟲爬取的思路首先我們應該找到一個賬號，這個賬號被關註的人和關註的人都相對比較多的，就是下圖中金字塔頂端的人，然後通過爬取這個賬號的信息後，再爬取他關註的人和被關註的人的賬號信息，然後爬取被關註人

利用 Scrapy 爬取知乎用戶信息

oauth fault urn family add token post mod lock 　　思路：通過獲取知乎某個大V的關註列表和被關註列表，查看該大V和其關註用戶和被關註用戶的詳細信息，然後通過層層遞歸調用，實現獲取關註用戶和被關註用戶的關註列表和被關註列表，最終實

教你分分鐘學會用python爬蟲框架Scrapy爬取你想要的內容

python 爬蟲 Scrapy python爬蟲教你分分鐘學會用python爬蟲框架Scrapy爬取心目中的女神 python爬蟲學習課程，下載地址：https://pan.baidu.com/s/1v6ik6YKhmqrqTCICmuceug 課程代碼原件：課程視頻：教你分分鐘學會用py

scrapy框架用post 爬取網站資料的兩種方法區別

post請求，一定要重新呼叫父類的 start_requests(self)方法方法1：（推薦）重構start_requests def start_requests(self): data = { 'source': 'index_na

爬資料時？IP老被封？這樣就不會被封了！爬取西刺代理IP並驗證

胡蘿蔔醬最近在爬取知乎使用者資料，然而爬取不了一會，IP就被封了，所以去爬取了西刺代理IP來使用。這裡爬取的是西刺國內高匿IP。我們需要的就是這一串數字。進群：548377875&nbs

爬取西刺代理

spider： # -*- coding: utf-8 -*-import scrapyfrom collectip.items import CollectipItemclass XiciSpider(scrapy.Spider): name = 'xici' allowed_domains

建立自己的IP代理池[爬取西刺代理]

一:基本引數和匯入的包 import requests import re import random url = 'http://www.xicidaili.com/nn' headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64)

爬爬看：爬取西刺代理

關鍵字：西刺代理爬蟲 CSV檔案前言由於群裡一位水友的提問，我打算寫這份程式碼。西刺網站的代理分為四種：高匿、普通（透明）、HTTPS 、HTTP 。對應頁面的 URL 特徵是：nn

用Python Scrapy爬取某電影網站並存儲入mysql

爬取目標：javlib，使用框架Scrapy 首先使用在命令列裡scrapy startproject projectname和scrapy genspider spidername指令建立爬蟲。首先定義items.pyimport scrapy class Av

教你分分鐘學會用python爬蟲框架Scrapy爬取心目中的女神

Scrapy，Python開發的一個快速,高層次的螢幕抓取和web抓取框架，用於抓取web站點並從頁面中提取結構化的資料。Scrapy用途廣泛，可以用於資料探勘、監測和自動化測試。 Scrapy吸引人的地方在於它是一個框架，任何人都可以根據需求方便的修改。它也提供了多種型別爬蟲

用scrapy爬取有用的免費的西刺代理

相關推薦