request+redis 分散式爬蟲

阿新 • • 發佈：2019-01-11

# __author__ = ''
# __createTime__ = '2019/1/7 13:49'
# __description__ = '‘’
# # -*- coding:utf-8 -*-
import random
from itertools import chain
from urllib.parse import quote
from concurrent.futures import ThreadPoolExecutor
from redis import Redis
import pymysql
import requests
from lxml import etree
 
'''redis + requests 分散式'''

redis_connect = Redis.from_url("redis://:6379", decode_responses=True)
db = pymysql.connect(host='193.112.41.49', user='', password="",
                                  database='spiders', port=3306,
                                  charset='utf8mb4')
cursor = db.cursor()

 
class Conton_Fair():
    def __init__(self,url):
        self.url = url
        self.headers = {
                        'Accept': '*/*',
                        'Accept-Encoding': 'gzip, deflate',
                        'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8,und;q=0.7',
                        'Cache-Control 
': 'no-cache',
                        'Connection': 'keep-alive',
                        'Cookie': 'ASP.NET_SessionId=u1rolptswy22kite05yuu2dr; Hm_lvt_26d823f5326e82607b28c9dd5bb3276f=1546075438; Hm_lpvt_26d823f5326e82607b28c9dd5bb3276f=1546075438; _gcl_au=1.1.1828690268.1546075439; _ga=GA1.3.682141728.1546075439; _ym_uid=15460754431066088148; _ym_d=1546075443; ASPSESSIONIDSQARTRST=JBKMEFAABPPOIONCBCGLIDOM; cookie-notification=1; ASPSESSIONIDQASDDBCA=ODAOCGMCBGEJAHGFIDCKFJHL; _ctauu_469_1=%7B%22uuid%22%3A%22cp21gbzc66s18asqrg96%22%2C%22vsts%22%3A2%2C%22imps%22%3A%7B%7D%2C%22cvs%22%3A%7B%7D%7D; safedog-flow-item=; WT_FPC=id=2eedfbfb975c7db4e0b1546075438399:lv=1546830767948:ss=1546830613964',
                        'Host': 'www.cantonfair.org.cn',
                        'Pragma': 'no-cache',
                        'Referer':self.url,
                        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36'''
                        }
    def Get_url(self):
        htmls = requests.get(url=self.url,headers = self.headers)
        html = etree.HTML(htmls.text)
        return self.Save_url(html)

    def Save_url(self,html):
        h4 = html.xpath('//li//h4')
        for Company in h4:
            if Company.xpath('.//text()'):
                link =(Company.xpath('./a/@href')[0].replace('Product', 'Company').split('&productid')[
                          0] + '&corptype=1').replace('en', 'cn')
                # 加入快取
                redis_connect.sadd("urls", link)
        # 下一頁
        Next = html.xpath('//a[text()="Next"]/@href')
        if Next:
            self.url = 'http://www.cantonfair.org.cn/en/search/%s'%Next[0]
            self.Get_url()
def main(kw):
    url_datas = quote(kw)
    url = list.aspx?k=%s&lang=2&len=100' % url_datas
    Class_Conton = Conton_Fair(url)
    Class_Conton.Get_url()


if __name__ == '__main__':
    # while True:
    ssql = """SELECT kw FROM words WHERE status=0 or status=5 LIMIT 100 """
    cursor.execute(ssql)
    dataAll = cursor.fetchall()
    list_url = list(chain.from_iterable(dataAll))
    # urls = list(chain.from_iterable(dataAll))
    with ThreadPoolExecutor(3) as executor:
        for data_url in list_url:
            executor.submit(main,data_url)
            upda = '''UPDATE words SET status=5 WHERE kw=%r'''%data_url
            cursor.execute(upda)
            db.commit()

使用分散式爬取，我的思路是這樣的，一臺機器爬取指定的url，存到快取，爬url比解析總是要快吧，一頁都有好幾十的那種，就算每臺機器的速度都一樣，爬一次的url夠幾臺機器同時去解析的了

接下來就是我們的解析了：

因為這個網站需要的資料是動態載入的，我js比較差，也不想去找函式，我就直接使用splash渲染了，它和selenium差不多，但是的話，splash比較快一些，就選擇這個了。

可以去了解了解哦

# __author__ = ''
# __createTime__ = '2019/1/7 15:20'
# __description__ = '程式碼簡要說明'

import time
import requests
from redis import Redis

redis_connect = Redis.from_url("redis:/:6379", decode_responses=True)

def splash_render(url):
    splash_url = "http:/:8050/render.html"

    args = {
        "url": url,
        "timeout": 5,
        "image": 0
    }
    response = requests.get(splash_url, params=args)
    return response.text


if __name__ == '__main__':
    # 判斷快取中是否有url
    if "first_urls" in redis_connect.keys():
        # 隨機取一個url並且移除，如果需要去重的話，可以考慮使用布隆過濾器去去重
        url = redis_connect.spop("urls")
        html = splash_render(url)
        print(html)

解析網頁的結果這份程式碼可以拷貝到許多臺機器同時執行，當然，以上只是簡單版的，不要以為這樣分散式就完事了

request+redis 分散式爬蟲

# __author__ = '' # __createTime__ = '2019/1/7 13:49' # __description__ = '‘’ # # -*- coding:utf-8 -*- import random from itertools import chain from ur

redis資料庫配合redis分散式爬蟲

爬蟲，在採集處理資料的時候，要想注重速度效率，並且要採集的資料量比較大的話，很有必要使用分散式。首先進行的第一步，安裝redis資料庫。 REmote DIctionary Server(Redis) 是一個由Salvatore Sanfilippo寫的key-value儲存系統。 R

scrapy-redis分散式爬蟲爬取美女圖片

背景：家裡網速慢（500kb左右，哎~），網站都是大圖，載入好慢好慢，每每夜深人靜訪問的時候一等就是一分鐘，急啊，索性，直接爬到本地，想怎麼看怎麼看。爬取目標：（你懂得） url: h t t p s : / / w w w . j p x g y w . c o

scrapy-redis分散式爬蟲

準備工作 1.安裝scrapy_redis包,開啟cmd工具,執行命令pip install scrapy_redis 2.準備好一個沒有BUG,沒有報錯的爬蟲專案 3.準備好redis主伺服器還有跟程式相關的mysql資料庫前提mysql資料庫要開啟允許遠端連線

【Python3爬蟲】爬取美女圖新姿勢--Redis分散式爬蟲初體驗

一、寫在前面　　之前寫的爬蟲都是單機爬蟲，還沒有嘗試過分散式爬蟲，這次就是一個分散式爬蟲的初體驗。所謂分散式爬蟲，就是要用多臺電腦同時爬取資料，相比於單機爬蟲，分散式爬蟲的爬取速度更快，也能更好地應對IP的檢測。本文介紹的是利用Redis資料庫實現的分散式爬蟲，Redis是一種常用的菲關係型資料庫，常用資料

scrapy-redis分散式爬蟲實戰

Scrapy-Redis程式碼實戰 Scrapy 是一個通用的爬蟲框架，但是不支援分散式，Scrapy-redis是為了更方便地實現Scrapy分散式爬取，而提供了一些以redis為基礎的元件(僅有元件)。 scrapy-redis在scrapy的架構上增加了redis，基於redis的特性拓展瞭如下四種

爬蟲(三) redis&分散式爬蟲

redis redis, 稱為記憶體資料庫, 以key-value的形式存放資料, 是一個非關係型資料庫 redis 提供類豐富的資料型別, 其有 string list map set sortSet 五種資料型別 redis 的資料型別指的是value的

scrapy_redis分散式爬蟲遇到的問題DEBUG: Filtered offsite request to

一、遇到的問題: DEBUG: Filtered offsite request to 'www.99yiyuan.com': <GET http://www.99yiy。。。二、解決方法：設定setting.py檔案 SPIDER_MIDDLEWARE

6-Python爬蟲-分散式爬蟲/Redis

分散式爬蟲單機爬蟲的問題：單機效率 IO吞吐量多爬蟲問題資料共享在空間上不同的多臺機器，可以成為分散式需要做：共享佇列去重 Redis 記憶體資料庫同時

利用scrapy-redis實現分散式爬蟲

環境要求 Python 2.7, 3.4 or 3.5 Redis >= 2.8 Scrapy >= 1.1 redis-py >= 2.10 1. 先安裝scrapy-redis sudo pip3 in

搭建redis-scrapy分散式爬蟲環境

ubuntu上作主機 A . 主機---管理指紋佇列，資料佇列，request隊：redis, 建議不要爬資料。 1臺主機，用ubutnu系統上課演示的是這臺電腦也爬取，不光要安裝redis, 還要安裝scrapy(先)和scrapy-r

python下使用scrapy-redis模組分散式爬蟲的爬蟲專案部署詳細教程————————gerapy

1.使用gerapy進行分散式爬蟲管理準備工作：首先將你使用scrapy-redis寫的分散式爬蟲全部完善模組準備：安裝： pip install pymongo【依賴模組】 pip install gerapy 2.在本地建立部署專案的資料夾

Python分散式爬蟲打造搜尋引擎完整版-基於Scrapy、Redis、elasticsearch和django打造一個完整的搜尋引擎網站

Python分散式爬蟲打造搜尋引擎基於Scrapy、Redis、elasticsearch和django打造一個完整的搜尋引擎網站https://github.com/mtianyan/ArticleSpider 未來是什麼時代？是資料時代！資料分析服務、網際網路金融，資

爬蟲-基於scrapy-redis兩種形式的分散式爬蟲

redis分散式部署 1.scrapy框架是否可以自己實現分散式？　　　　- 不可以。原因有二。　　　　　　其一：因為多臺機器上部署的scrapy會各自擁有各自的排程器，這樣就使得多臺機器無法分配start_urls列表中的url。（多臺機器無法共享同

基於scrapy-redis兩種形式的分散式爬蟲

【個人專案】基於scrapy-redis的股票分散式爬蟲實現及其股票預測演算法研究

前言都說做計算機的，專案實踐是最能帶給人成長的。之前學習了很多的大資料和AI的知識，但是從來沒有自己做過一個既包含大資料又包含AI的專案。後來就決定做了個大資料+AI的分散式爬蟲系統。下面筆者會講述整個專案的架構，以及所用到技術點的些許介紹。專案介紹這個專

17.基於scrapy-redis兩種形式的分散式爬蟲

redis分散式部署 1.scrapy框架是否可以自己實現分散式？　　　　- 不可以。原因有二。　　　　　　其一：因為多臺機器上部署的scrapy會各自擁有各自的排程器，這樣就使得多臺機器無法分配start_urls列表中的url

基於Redis的三種分散式爬蟲策略

前言：爬蟲是偏IO型的任務，分散式爬蟲的實現難度比分散式計算和分散式儲存簡單得多。個人以為分散式爬蟲需要考慮的點主要有以下幾個：爬蟲任務的統一排程爬蟲任務的統一去重儲存問題速度問題足夠“健壯”的情況下實現起來越簡單/方便越好最好支援“斷點

基於Python+scrapy+redis的分散式爬蟲實現框架

爬蟲技術，無論是在學術領域，還是在工程領域，都扮演者非常重要的角色。相比於其他技術，爬蟲技術雖然在實現上比較簡單，沒有那麼多深奧的技術難點，但想要構建一套穩定、高效、自動化的爬蟲框架，也並不是一件容易的事情。這裡筆者打算就個人經驗，介紹一種分散式爬蟲框架的實

python原生爬蟲+scrapy+redis分散式

資料獲取途徑注意：robots.txt1、瀏覽器版Chrome2、手機版Chrome3、合作網站（豬隊友網站）、子網站請求方式requests.get(url,headers = headers,verify=False,proxies = proxies);requests

request+redis 分散式爬蟲

相關推薦