python3 scrapy_redis 分散式爬取房天下存mongodb

阿新 • • 發佈：2019-02-19

（一）scrapy_redis 簡單介紹

scrapy_redis基於scrapy框架的基礎上集成了redis，通過了redis實現了去重，多臺伺服器進行分散式的爬取資料。

（二）scrapy_redis 簡單配置

（1）settings.py 檔案中加入兩行程式碼：

#啟用Redis排程儲存請求佇列
SCHEDULER = "scrapy_redis.scheduler.Scheduler"

#確保所有的爬蟲通過Redis去重
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

（2）spider檔案中把scrapy.Spider改為RedisSpider；加入redis_key

以上就是scrapy_redis在scrapy框架中的簡單配置，更多的配置內容，請檢視以往部落格介紹

（三）房天下爬蟲程式碼的編寫

（一）獲取的內容是優選房源

因為這個頁面是下滑重新整理的，並沒有點選下一頁的操作，而是動態JS進行載入的，我們可以使用審查元素中的網路，檢視介面請求資訊

其中的一個連結：

我們可以看到 page=3 只要我們操控這個變數就完全可以了。

但是：當我們開啟上面的連結的時候，出現一堆的亂碼：

（二）我們在parse()方法中使用decode 方法解碼一下，就可以顯示正常了。

    def parse(self,response) 
:
          print(response.body.decode('utf-8'))

敲黑板！！！

因為這裡用了分散式，我使用的方法是一臺專門爬url，就是列表頁的url，另外一臺專門進行列表頁url的解析工作。

基於現在的情況，我現在只有一臺電腦，所以我進行了兩個爬蟲進行執行，一個進行url的爬取，一個進行頁面的解析工作。

（1）url爬取：

（2）頁面解析：

（1）爬取url的spider程式碼：

# -*- coding: utf-8 -*-
# @Time    : 2018/4/30 14:14
# @Author  : 蛇崽
# @Email   : [email protected] 

# @File    : fangtianxia.py（房天下）
import scrapy
import redis
from scrapy_redis.spiders import RedisSpider

from zhilianspider.settings import REDIS_HOST,REDIS_PWD


class FangtianxiaSpider(RedisSpider):

    name = 'fangtianxia'

    allowed_domains = ['m.fang.com']
    """
    44684 p:16  index 3192
    """
   # start_urls = ['https://m.fang.com/zf/?purpose=%D7%A1%D5%AC&jhtype=zf&city=%B1%B1%BE%A9&renttype=cz&c=zf&a=ajaxGetList&city=bj&r=0.7782449595236586&page=1']

    base_url = 'https://m.fang.com/zf/?purpose=%D7%A1%D5%AC&jhtype=zf&city=%B1%B1%BE%A9&renttype=cz&c=zf&a=ajaxGetList&city=bj&r=0.7782449595236586&page='

    # 獲取到redis

    pool = redis.ConnectionPool(host=REDIS_HOST, port=6379, db=0, password=REDIS_PWD)
    redis = redis.StrictRedis(connection_pool=pool)

    for index in range(1,3192):
        star_url = base_url+str(index)
        redis.lpush('fangtianxia:start_urls',star_url)

    redis_key = 'fangtianxia:start_urls'


    def parse(self,response):
        #print(response.body.decode('utf-8'))
        url = response.xpath("//*[@class='tongjihref']/@href").extract()
        for v_url in url:
            print(v_url)
            n_v_url = 'https:'+v_url
            print('nvurl  ',n_v_url)
            self.redis.rpush('fangtianxia:house_urls',n_v_url)

（2）解析頁面的程式碼

# -*- coding: utf-8 -*-
# @Time    : 2018/4/30 14:14
# @Author  : 蛇崽
# @Email   : 643435675@QQ.com
# @File    : fangtianxia.py（房天下）
import scrapy
import redis
from scrapy_redis.spiders import RedisSpider

from zhilianspider.items import FanItem
from zhilianspider.settings import REDIS_HOST,REDIS_PWD


class FangtianxiaSpider(RedisSpider):

    name = 'fangtianxia_down'

    allowed_domains = ['m.fang.com']

    redis_key = 'fangtianxia:house_urls'

    # start_urls = ['https://m.fang.com/zf/bj/JHAGT_404572021_11444434x1010063105_163711602.html']

    def parse(self,response):
        item = FanItem()
        item["title"] = response.xpath('//*[@class="xqCaption mb8"]/h1/text()')[0].extract()
        item["area"] = response.xpath('//*[@class="xqCaption mb8"]/p/a[2]/text()')[0].extract()
        item["location"] = response.xpath('//*[@class="xqCaption mb8"]/p/a[3]/text()')[0].extract()
        item["housing_estate"] = response.xpath('//*[@class="xqCaption mb8"]/p/a[1]/text()')[0].extract()
        item["rent"] = response.xpath('//*[@class="f18 red-df"]/text()')[0].extract()
        item["rent_type"] = response.xpath('//*[@class="f12 gray-8"]/text()')[0].extract()
        item["floor_area"] = response.xpath('//*[@class="flextable"]/li[3]/p/text()')[0].extract()
        item["house_type"] = response.xpath('//*[@class="flextable"]/li[2]/p/text()')[0].extract()
        item["floor"] = response.xpath('//*[@class="flextable"]/li[4]/p/text()')[0].extract()
        item["orientations"] = response.xpath('//*[@class="flextable"]/li[5]/p/text()')[0].extract()
        item["decoration"] = response.xpath('//*[@class="flextable"]/li[6]/p/text()')[0].extract()
        item["house_info"] = response.xpath('//*[@class="xqIntro"]/p/text()')[0].extract()
        item["house_tags"] = ",".join(response.xpath('//*[@class="stag"]/span/text()').extract())
        yield item

（三）items.py程式碼：

class FanItem(scrapy.Item):
    # 標題
    title = scrapy.Field()
    # 區（朝陽）
    area = scrapy.Field()
    # 區域 (勁鬆)
    location = scrapy.Field()
    # 小區 （勁鬆五區）
    housing_estate = scrapy.Field()
    # 租金
    rent = scrapy.Field()
    # 建築面積
    floor_area = scrapy.Field()
    # 戶型
    house_type = scrapy.Field()
    # 樓層
    floor = scrapy.Field()
    # 朝向
    orientations = scrapy.Field()
    # 裝修
    decoration = scrapy.Field()
    # 房源描述
    house_info = scrapy.Field()
    # 標籤
    house_tags = scrapy.Field()
    # 租房型別（押一付三etc）
    rent_type = scrapy.Field()

（四）資料展示

現在的資料還沒有爬完，到現在redis的詳情url已經是60萬的資料了，怕要是撐爆了。

mongo資料庫裡面的資料是3萬左右：

總結一下：scrapy_redis 中的url爬取，這是用這個框架以來第一次用的這種方式，或許這種方式更支援分散式操作，一個爬url，多個通過url進行頁面的解析操作，比較解析頁面是比較費時的。

其餘程式碼都是跟前面爬取智聯招聘的程式碼都差不多一樣的，這裡就不貼出來了，完整的程式碼我會上傳上來。

python3 scrapy_redis 分散式爬取房天下存mongodb

（一）scrapy_redis 簡單介紹 scrapy_redis基於scrapy框架的基礎上集成了redis，通過了redis實現了去重，多臺伺服器進行分散式的爬取資料。（二）scrapy_redis 簡單配置（1）settings.py 檔案中

分散式scrapy+redis 爬取房天下租房資訊

利用scrapy框架結合redis分散式爬蟲 #建立專案 scrapy startproject homepro #根據提示進入指定目錄建立爬蟲 scrapy genspider home example.com #spider爬蟲 scrapy genspider -t c

Selenium+Python爬取房天下二手房資料

注意！注意！注意！本文中大圖較多，建議使用PC檢視，手機端效果較差！在上篇“Selenuim+Python網路爬蟲基礎講解”博文中講了一些Selenium的基礎知識，接下來就要開始實戰了。其實使用Selenium爬取網頁的思路很簡單，首先梳理一下爬取流程。開啟二手房珠海地區首頁

【Python3爬蟲】爬取美女圖新姿勢--Redis分散式爬蟲初體驗

一、寫在前面　　之前寫的爬蟲都是單機爬蟲，還沒有嘗試過分散式爬蟲，這次就是一個分散式爬蟲的初體驗。所謂分散式爬蟲，就是要用多臺電腦同時爬取資料，相比於單機爬蟲，分散式爬蟲的爬取速度更快，也能更好地應對IP的檢測。本文介紹的是利用Redis資料庫實現的分散式爬蟲，Redis是一種常用的菲關係型資料庫，常用資料

Python3使用BeautifulSoup4爬取《三國演義》

文章解析器 end read print menu contents htm 地址 #!/sur/bin/python#conding=utf-8import urllib.requestfrom bs4 import BeautifulSoupurl="http://w

python實現數據爬取-清洗-持久化存儲-數據平臺可視化

爬蟲 python 數據分析數據清理數據挖掘基於python對淘寶模特個人信息進行篩選爬取，數據清洗，持久化寫入mysql數據庫.使用django對數據庫中的數據信息篩選並生成可視化報表進行分析。數據爬取，篩選，存庫：# -*- coding:utf-8 -*- import

Python3.5：爬取網站上電影數據

x64 沒有 () nbsp 運行 lpar target __init__ doc 首先我們導入幾個pyhton3的庫: from urllib import requestimport urllibfrom html.parser import HTMLParser 在

【Python3 爬蟲】爬取博客園首頁所有文章

表達式技術標記 itl 1.0 headers wow64 ignore windows 首先，我們確定博客園首頁地址為：https://www.cnblogs.com/ 我們打開可以看到有各種各樣的文章在首頁，如下圖：我們以上圖標記的文章為例子吧！打開網頁源碼，搜

【爬蟲】002 python3 +beautifulsoup4 +requests 爬取靜態頁面

bgcolor img err 預覽政府 bold 技術貴的頁面元素實驗環境: win7 python3.5 bs4 0.0.1 requests 2.19 實驗日期：2018-08-07 爬取網站：http://www.xhsd.cn/ 現在的網站大多有復雜

Scrapy:虎牙爬取，圖片存儲與數據分析

alt 數據分析 mage 加載 ram data afr frame bubuko 第一次爬取虎牙主播數據，有點小激動 1.共批量爬取的101個主播的，包括頭像主播名字房間號房間鏈接 2.數據規整部分，需要將json數據加載到pandas的Dataframe，

import requests from bs4 import BeautifulSoup url = 'http://quote.eastmoney.com/stocklist.html' user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Wind

python3.6.4爬取裁判文書網----------基本js逆向解析----玉米都督

如果您覺得我的文章對您有用,請您給我一個關注,您的每一個關注都是對我極大的支援,我也會極大的提高產出效率,To_share_code 裁判文書網:http://wenshu.court.gov.cn/ 這個政府網站垃圾慢,需要耐心 ps: 其實沒必要關心js函式的內部細

爬取伯樂在線文章（四）將爬取結果保存到MySQL

-a 邏輯 inf url cti dba image png post Item Pipeline 當Item在Spider中被收集之後，它將會被傳遞到Item Pipeline，這些Item Pipeline組件按定義的順序處理Item。每個Item Pipeli

python3 anaconda pycharm 爬取百度圖片

#-*- coding:utf-8 -*- import time import requests from urllib import request from xml import etree import random import os class baiduimgspider(obj

Python3使用selenium爬取鬥魚直播平臺數據

進入鬥魚平臺首頁，點選頁面底部下一頁，發現url地址沒有發生變化，這樣的話再使用urllib2傳送請求將獲取不到完整的資料，這時候我們可以使用selenium和Chrome來模擬瀏覽器點選下一頁，這樣就可以獲取到完整的響應資料了程式程式碼： from selenium import

使用Scrapy-redis實現分散式爬取

Scrapy是一個比較好用的Python爬蟲框架，你只需要編寫幾個元件就可以實現網頁資料的爬取。但是當我們要爬取的頁面非常多的時候，單個主機的處理能力就不能滿足我們的需求了（無論是處理速度還是網路請求的併發數），這時候分散式爬蟲的優勢就顯現出來。而Scrapy-Redis則是一個基於Redis的

Python3 Scrapy框架學習四：爬取的資料存入MongoDB

1. 新建一個scrapy專案： 2.使用PyCharm開啟該專案 3.在settings.py檔案中新增如下程式碼： #模擬瀏覽器，應對反爬 USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebK

基於python3.x的爬取馬蜂窩旅遊的遊記照片

前幾天在csdn首頁看到一個大佬爬取看準網資料並分析的部落格，自己搞了一下，各種問題，已超過目前的認知領域，so，先從基本的做起吧，一點點新增新內容。本次任務為爬取馬蜂窩旅行達人的遊記照片，之前搞過幾次馬蜂窩，中間停頓過長，再次迴歸吧。上程式碼： import re

Python3爬蟲-selenium爬取百度文庫

這是筆者爬取的第一個動態載入的網頁，使用的IDE是Pycharm，選擇的是百度文庫的一篇16年六級卷子的文件。若直接使用requests模組去得到網頁原始碼，會發現所得非所見，不能獲取到文件中的內容。看了網上數篇博文的思路，最後還是嘗試了使用selenium

【Python3爬蟲】爬取中國國家地理的62個《古鎮》和363張攝影照片

宣告：爬蟲為學習使用，請各位同學務必不要對當放網站或i伺服器造成傷害。務必不要寫死迴圈。 - 思路：古鎮——古鎮列表（迴圈獲取古鎮詳情href）——xx古鎮詳情（獲取所有img的src） - from bs4 import BeautifulSoup import u

python3 scrapy_redis 分散式爬取房天下存mongodb

（一）scrapy_redis 簡單介紹

（二）scrapy_redis 簡單配置

（三）房天下爬蟲程式碼的編寫

敲黑板！！！

相關推薦