Python爬蟲項目--爬取鏈家熱門城市新房

阿新 • • 發佈：2018-11-09

聲明 rules nal logging 命令行 -- new exec 狀態

本次實戰是利用爬蟲爬取鏈家的新房(聲明: 內容僅用於學習交流, 請勿用作商業用途)

環境

win8, python 3.7, pycharm

正文

1. 目標網站分析

通過分析, 找出相關url, 確定請求方式, 是否存在js加密等.

2. 新建scrapy項目

1. 在cmd命令行窗口中輸入以下命令, 創建lianjia項目

scrapy startproject lianjia

2. 在cmd中進入lianjia文件中, 創建Spider文件

cd lianjia
scrapy genspider -t crawl xinfang lianjia.com

這次創建的是CrawlSpider類, 該類適用於批量爬取網頁

3. 新建main.py文件, 用於執行scrapy項目文件

到現在, 項目就創建完成了, 下面開始編寫項目

3 定義字段

在items.py文件中定義需要的爬取的字段信息

import scrapy
from scrapy.item import Item, Field

class LianjiaItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    city = Field()          #城市名
    name = Field()          # 
樓盤名
    type = Field()          #物業類型
    status = Field()        #狀態
    region = Field()        #所屬區域
    street = Field()        #街道
    address = Field()       #具體地址
    area = Field()          #面積
    average_price = Field() #平均價格
    total_price = Field()   #總價
    tags = Field()          #標簽

4 爬蟲主程序

在xinfang.py文件中編寫我們的爬蟲主程序

from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from lianjia.items import LianjiaItem

class XinfangSpider(CrawlSpider):
    name = ‘xinfang‘
    allowed_domains = [‘lianjia.com‘]
    start_urls = [‘https://bj.fang.lianjia.com/‘]
    #定義爬取的規則, LinkExtractor是用來提取鏈接(其中,allow指允許的鏈接格式, restrict_xpaths指鏈接處於網頁結構中的位置), follow為True表示跟進提取出的鏈接, callback則是調用函數
    rules = (
        Rule(LinkExtractor(allow=r‘\.fang.*com/$‘, restrict_xpaths=‘//div[@class="footer"]//div[@class="link-list"]/div[2]/dd‘), follow=True),
        Rule(LinkExtractor(allow=r‘.*loupan/$‘, restrict_xpaths=‘//div[@class="xinfang-all"]/div/a‘),callback= ‘parse_item‘, follow=True)
    )
    def parse_item(self, response):
        ‘‘‘請求每頁的url‘‘‘‘
        counts = response.xpath(‘//div[@class="page-box"]/@data-total-count‘).extract_first()
        pages = int(counts) // 10 + 2
        #由於頁數最多為100, 加條件判斷
        if pages > 100:
            pages = 101
        for page in range(1, pages):
            url = response.url + "pg" + str(page)
            yield scrapy.Request(url, callback=self.parse_detail, dont_filter=False)

    def parse_detail(self, response):
        ‘‘‘解析網頁內容‘‘‘
        item = LianjiaItem()
        item["title"] = response.xpath(‘//div[@class="resblock-have-find"]/span[3]/text()‘).extract_first()[1:]
        infos = response.xpath(‘//ul[@class="resblock-list-wrapper"]/li‘)
        for info in infos:
            item["city"] = info.xpath(‘div/div[1]/a/text()‘).extract_first()
            item["type"] = info.xpath(‘div/div[1]/span[1]/text()‘).extract_first()
            item["status"] = info.xpath(‘div/div[1]/span[2]/text()‘).extract_first()
            item["region"] = info.xpath(‘div/div[2]/span[1]/text()‘).extract_first()
            item["street"] = info.xpath(‘div/div[2]/span[2]/text()‘).extract_first()
            item["address"] = info.xpath(‘div/div[2]/a/text()‘).extract_first().replace(",", "")
            item["area"] = info.xpath(‘div/div[@class="resblock-area"]/span/text()‘).extract_first()
            item["average_price"] = "".join(info.xpath(‘div//div[@class="main-price"]//text()‘).extract()).replace(" ", "")
            item["total_price"] = info.xpath(‘div//div[@class="second"]/text()‘).extract_first()
            item["tags"] = ";".join(info.xpath(‘div//div[@class="resblock-tag"]//text()‘).extract()).replace(" ","").replace("\n", "")
            yield item

5 保存到Mysql數據庫

在pipelines.py文件中編輯如下代碼

import pymysql
class LianjiaPipeline(object):
    def __init__(self):
        #創建數據庫連接對象
        self.db = pymysql.connect(
            host = "localhost",
            user = "root",
            password = "1234",
            port = 3306,
            db = "lianjia",
            charset = "utf8"
        )
        self.cursor = self.db.cursor()
    def process_item(self, item, spider):
        #存儲到數據庫中
        sql = "INSERT INTO xinfang(city, name, type, status, region, street, address, area, average_price, total_price, tags) VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)"
        data = (item["city"], item["name"], item["type"], item["status"], item["region"], item["street"], item["address"], item["area"], item["average_price"], item["total_price"], item["tags"])
        try:
            self.cursor.execute(sql, data)
            self.db.commit()
        except:
            self.db.rollback()
        finally:
            return item

6 反反爬措施

由於是批量性爬取, 有必要采取些反反爬措施, 我這裏采用的是免費的IP代理. 在middlewares.py中編輯如下代碼:

from scrapy import signals
import logging
import requests
class ProxyMiddleware(object):
    def __init__(self, proxy):
        self.logger = logging.getLogger(__name__)
        self.proxy = proxy
    @classmethod
    def from_crawler(cls, crawler):
        ‘‘‘獲取隨機代理的api接口‘‘‘
        settings = crawler.settings
        return cls(
            proxy=settings.get(‘RANDOM_PROXY‘)
        )
    def get_random_proxy(self):
　　　　 ‘‘‘獲取隨機代理‘‘‘
        try:
            response = requests.get(self.proxy)
            if response.status_code == 200:
                proxy = response.text
                return proxy
        except:
            return False
    def process_request(self, request, spider):
　　　　 ‘‘‘使用隨機生成的代理請求‘‘‘
        proxy = self.get_random_proxy()
        if proxy:
            url = ‘http://‘ + str(proxy)
            self.logger.debug(‘本次使用代理‘+ proxy)
            request.meta[‘proxy‘] = url

7 配置settings文件

import random
RANDOM_PROXY = "http://localhost:6686/random"
BOT_NAME = ‘lianjia‘
SPIDER_MODULES = [‘lianjia.spiders‘]
NEWSPIDER_MODULE = ‘lianjia.spiders‘
ROBOTSTXT_OBEY = False
DOWNLOAD_DELAY = random.random()*2
COOKIES_ENABLED = False
DEFAULT_REQUEST_HEADERS = {
  ‘Accept‘: ‘text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8‘,
  ‘Accept-Language‘: ‘en‘,
}
DOWNLOADER_MIDDLEWARES = {
   ‘lianjia.middlewares.ProxyMiddleware‘: 543
}
ITEM_PIPELINES = {
   ‘lianjia.pipelines.LianjiaPipeline‘: 300,
}

8 執行項目文件

在mian.py中執行如下命令

from scrapy import cmdline
cmdline.execute(‘scrapy crawl xinfang‘.split())

scrapy項目即可開始執行, 最後爬取到1萬4千多條數據.

Python爬蟲項目--爬取鏈家熱門城市新房

聲明 rules nal logging 命令行 -- new exec 狀態本次實戰是利用爬蟲爬取鏈家的新房(聲明: 內容僅用於學習交流, 請勿用作商業用途) 環境 win8, python 3.7, pycharm 正文 1. 目標網站分析通過分析, 找出相關url

Python爬蟲專案--爬取鏈家熱門城市新房

本次實戰是利用爬蟲爬取鏈家的新房(宣告: 內容僅用於學習交流, 請勿用作商業用途) 環境 win8, python 3.7, pycharm 正文 1. 目標網站分析通過分析, 找出相關url, 確定請求方式, 是否存在js加密等. 2. 新建scrapy專案 1. 在cmd命令列視窗中輸入以

Python爬蟲項目--爬取自如網房源信息

xml解析 quest chrom 當前 b2b cal 源代碼 headers 判斷本次爬取自如網房源信息所用到的知識點: 1. requests get請求 2. lxml解析html 3. Xpath 4. MongoDB存儲正文 1.分析目標站點 1. url:

Python爬蟲實戰之爬取鏈家廣州房價_04鏈家的模擬登入(記錄)

問題引入開始鏈家爬蟲的時候，瞭解到需要實現模擬登入，不登入不能爬取三個月之內的資料，目前暫未驗證這個說法是否正確，這一小節記錄一下利用瀏覽器(IE11)的開發者工具去分析模擬登入網站(鏈家)的內部邏輯過程，花了一個週末的時間，部分問題暫未解決。思路介

python 學習 - 爬蟲入門練習爬取鏈家網二手房資訊

import requests from bs4 import BeautifulSoup import sqlite3 conn = sqlite3.connect("test.db") c = conn.cursor() for num in range(1,101): url = "h

Python的scrapy之爬取鏈家網房價資訊並儲存到本地

因為有在北京租房的打算，於是上網瀏覽了一下鏈家網站的房價，想將他們爬取下來，並儲存到本地。先看鏈家網的原始碼。。房價資訊都儲存在 ul 下的li 裡面爬蟲結構：其中封裝了一個數據庫處理模組，還有一個user-agent池。。先看mylian

Python的scrapy之爬取鏈家網房價信息並保存到本地

width gif pat lse idt ext tst maximum spa 因為有在北京租房的打算，於是上網瀏覽了一下鏈家網站的房價，想將他們爬取下來，並保存到本地。先看鏈家網的源碼。。房價信息都保存在 ul 下的li 裏面 ? 爬蟲結構： ? 其中封裝了一

初識Scrapy框架+爬蟲實戰(7)-爬取鏈家網100頁租房資訊

Scrapy簡介 Scrapy，Python開發的一個快速、高層次的螢幕抓取和web抓取框架，用於抓取web站點並從頁面中提取結構化的資料。Scrapy用途廣泛，可以用於資料探勘、監測和自動化測試。Scrapy吸引人的地方在於它是一個框架，任何人都可以根

Python爬蟲三：抓取鏈家已成交二手房資訊（58W資料）

環境：Windows7+python3.6+Pycharm2017 目標：抓取鏈家北京地區已成交二手房資訊（無需登入），如下圖，戶型、朝向、成交時間價格等，儲存到csv。最後一共抓取約58W資料，程式執行8h。 --------全部文章：京東爬蟲、鏈家爬蟲、美團爬蟲、

python爬蟲學習之爬取全國各省市縣級城市郵政編碼

例項需求：運用python語言在http://www.ip138.com/post/網站爬取全國各個省市縣級城市的郵政編碼，並且儲存在excel檔案中例項環境：python3.7　　　　　　 requests庫(內建的python庫，無需手動安裝)　　　　　　 xlwt庫(需要自己手動安裝) 例項網站：

python爬蟲：爬取鏈家深圳全部二手房的詳細信息

data sts rip 二手房 lse area 列表 dom bubuko 1、問題描述：爬取鏈家深圳全部二手房的詳細信息，並將爬取的數據存儲到CSV文件中 2、思路分析: (1)目標網址：https://sz.lianjia.com/ershoufang/ (2

python爬蟲爬取鏈家二手房資訊

一種有想做個爬蟲的想法，正好上個月有足夠的時間和精力就學了下scrapy，一個python開源爬蟲框架。好多事開始以為很難，但真正下定決心去做的時候，才發現非常簡單，scrapy我從0基礎到寫出第一個可用的爬蟲只用了兩天時間，從官網例項到我的demo，真是遇到一堆問題，通

Django實戰: Python爬蟲爬取鏈家上海二手房資訊，存入資料庫並在前端顯示

好久沒寫Django實戰教程了，小編我今天就帶你把它與Python爬蟲結合做出個有趣的東西吧。我們將開發這樣一個應用，前端使用者可以根據行政區劃，房廳數和價格區間選擇需要爬取的二手房房源資訊，後臺Python開始爬取資料。爬取資料完成後，通過Django將爬來的資料存入資料庫

利用高德API + Python爬取鏈家網租房資訊 01

看了實驗樓的專案發現五八同城爬取還是有點難度所以轉戰鏈家實驗程式碼如下 from bs4 import BeautifulSoup from urllib.request import urlopen import csv url = 'https://gz.lia

分享爬取鏈家地圖找房房價資料的小爬蟲

一、說在前面受人所託，爬取鏈家上地圖找房的資料：https://bj.lianjia.com/ditu/。上面有按區域劃分的二手房均價和在售套數，我們的任務就是抓下這些資料。二、開幹 2.1失敗一次老樣子，Chrome 按下F12開啟Chrome DevTo

python爬取鏈家新房資料

轉載：https://blog.csdn.net/clyjjczwdd/article/details/79466032 from bs4 import BeautifulSoup import requests import time import pandas as p

聽說現在買房就是給自己投資?Python爬取鏈家二手房樓盤！

發現請求頭資訊如下，這個是後面要模擬的： Host: m.lianjia.com User-Agent: Mozilla/5.0 (Windows NT 6.3; WOW64; rv:32.0) Gecko/20100101

爬蟲，爬取鏈家網北京二手房資訊

# 鏈家網二手房資訊爬取 import re import time import requests import pandas as pd from bs4 import BeautifulSoup url = 'http://bj.lianjia.com/ershouf

Python爬取鏈家地鐵房資料

#coding=gbk #因為涉及到中文，utf-8會報錯 ### 環境：Python 3.6### import requests import re import pandas as pd import csv from bs4 import BeautifulSoup

爬蟲爬取鏈家二手房資訊，對二手房做分析

import numpy as np import pandas as pd import matplotlib.pyplot as plt from bs4 import BeautifulSoup import requests def genera

Python爬蟲項目--爬取鏈家熱門城市新房

環境

正文

1. 目標網站分析

2. 新建scrapy項目

3 定義字段

4 爬蟲主程序

5 保存到Mysql數據庫

6 反反爬措施

7 配置settings文件

8 執行項目文件

相關推薦