python爬蟲爬取鏈家二手房資訊

阿新 • • 發佈：2019-01-19

一種有想做個爬蟲的想法，正好上個月有足夠的時間和精力就學了下scrapy，一個python開源爬蟲框架。好多事開始以為很難，但真正下定決心去做的時候，才發現非常簡單，scrapy我從0基礎到寫出第一個可用的爬蟲只用了兩天時間，從官網例項到我的demo，真是遇到一堆問題，通過查docs查部落格，一個個問題解決下來，發現已經漸漸熟知了這個框架，真是發現帶著問題去學習才是快的學習方式。
　　大學的時候有用python寫過爬蟲，但沒用什麼框架，用urllib把網頁原始碼down下來後，寫一堆正則表示式來提取其中的內容，真是快吐了。所以我一直覺得爬蟲網頁內容解析才是最麻煩的地方，scrapy提供xpath的方式提取網頁內容，大大簡化了爬蟲的開發。另外，我們自己實現爬蟲還要去管理所有的爬取動作，你爬取完這頁，你還得去觸發下一頁，為了防止被ban，你還要構造header頭，設定爬取規則…… scrapy簡化了這一切，你只需要告訴它你要爬什麼，要哪些資料，資料怎麼儲存即可。你只需要專注於爬取結果就好了，剩下的寫middleware、pipline、item…… 簡單的爬蟲甚至不需要這些。
　　我用scrapy實現了一個爬取鏈家二手房的爬蟲，全部原始碼我已經放到github上了

https://github.com/xindoo/ershoufang。我需要宣告的是這只是個簡答的demo，存在一些問題，接下來我先說明有哪些問題，再來看看核心程式碼。
　　

問題一

　　鏈家網站也有反爬蟲策略和robots限制，robots限制忽略（不然沒法爬），另外頻繁爬取會直接導致被ban，需要隔天才會解禁止。防止被ban的方法有多種，1.禁止cookie 2.設定header 3.加大爬取間隔 4.使用代理。我只用了前三種方法，具體可以在settings.py 和middlewares.py裡看到。因為沒有免費好用的代理，所以在爬蟲實際使用中沒用方法4，但我在middlewares.py裡也留下了相關程式碼，可稍做參考，但需要注意那幾個代理ip是不可用的。

問題二

　　我程式碼裡只爬取了3000套二手房價格，北京市實際在售的二手房大概有兩萬套，不是我不想全爬，只是鏈家只展示100頁（3000套）的內容，排序方式我也並不清楚。我嘗試通過分割槽域來爬取以獲得更多的資料，但爬蟲更容易被ban，大概爬幾頁後就被禁了，目前看來只能通過使用代理的方式解決。

問題三

　　我的爬取起始頁是http://bj.lianjia.com/ershoufang/pg1/，一直爬取到100頁，我在程式碼裡註釋掉的 start_urls包含了北京市所有的區，如果不被ban，理論上是可以拿到北京市所有的二手房資訊的。爬取的資料有如下。

‘region’: 小區
‘url’: 房屋詳情頁連結
‘houseInfo’: 房屋資訊類似| 3室2廳 | 126.4平米 | 南北 | 精裝 | 有電梯

‘unitPrice’: 每平米單價（元）
‘totalPrice’: 房屋總結（萬元）
‘attention’: 被關注數
‘visited’: 被經紀人帶看次數
‘publishday’: 房屋釋出多長時間

下面是爬蟲核心程式碼，全部程式碼可以上我github獲取。

# -*- coding: utf-8 -*-
import scrapy
import re

class ershoufangSpider(scrapy.Spider):
    name = "ershoufang"
    #下面是北京市所有區的起始url
    # start_urls = ["http://bj.lianjia.com/ershoufang/dongcheng/pg1", "http://bj.lianjia.com/ershoufang/xicheng/pg1", "http://bj.lianjia.com/ershoufang/chaoyang/pg1", "http://bj.lianjia.com/ershoufang/haidian/pg1", "http://bj.lianjia.com/ershoufang/fengtai/pg1", "http://bj.lianjia.com/ershoufang/shijingshan/pg1", "http://bj.lianjia.com/ershoufang/tongzhou/pg1", "http://bj.lianjia.com/ershoufang/changping/pg1", "http://bj.lianjia.com/ershoufang/daxing/pg1", "http://bj.lianjia.com/ershoufang/yizhuangkaifaqu/pg1", "http://bj.lianjia.com/ershoufang/shunyi/pg1", "http://bj.lianjia.com/ershoufang/fangshan/pg1", "http://bj.lianjia.com/ershoufang/mentougou/pg1", "http://bj.lianjia.com/ershoufang/pinggu/pg1", "http://bj.lianjia.com/ershoufang/huairou/pg1", "http://bj.lianjia.com/ershoufang/miyun/pg1", "http://bj.lianjia.com/ershoufang/yanqing/pg1", "http://bj.lianjia.com/ershoufang/yanjiao/pg1"]
    #實際爬取過程中我只用了預設的起始url，不容易被ban
    start_urls = ["http://bj.lianjia.com/ershoufang/pg1"]
    def parse(self, response):
        houses = response.xpath(".//ul[@class='sellListContent']/li")
        for house in houses:
            attention = ''
            visited = ''
            publishday = ''
            try:
                attention = house.xpath(".//div[@class='followInfo']/text()").re("\d+")[0]
                visited = house.xpath(".//div[@class='followInfo']/text()").re("\d+")[1]
                #因為釋出日期中可能單位不是天，所以我做了簡單的轉化。
                if u'月' in house.xpath(".//div[@class='followInfo']/text()").extract()[0].split('/')[2]:
                    number = house.xpath(".//div[@class='followInfo']/text()").re("\d+")[2]
                    publishday = '' + int(number)*30

                elif u'年' in house.xpath(".//div[@class='followInfo']/text()").extract()[0].split('/')[2]:
                    number = house.xpath(".//div[@class='followInfo']/text()").re("\d+")[2]
                    publishday = '365'
                else:
                    publishday = house.xpath(".//div[@class='followInfo']/text()").re("\d+")[2]
            except:
                print "These are some ecxeptions"
            else:
                pass
            yield {
                'region': house.xpath(".//div[@class='houseInfo']/a/text()").extract(),
                'url':house.xpath(".//a[@class='img ']/@href").extract(),
                'houseInfo':house.xpath(".//div[@class='houseInfo']/text()").extract(),
                'unitPrice':house.xpath(".//div[@class='unitPrice']/span").re("\d+.\d+"),
                'totalPrice':house.xpath(".//div[@class='totalPrice']/span").re("\d+.\d+"),
                'attention': attention,
                'visited': visited,
                'publishday': publishday
            }
        page = response.xpath("//div[@class='page-box house-lst-page-box'][@page-data]").re("\d+")
        p = re.compile(r'[^\d]+')
        #這裡是判斷有沒有下一頁，畢竟不是所有區都是有第100頁的，不能for迴圈到100
        if len(page)>1 and page[0] != page[1]:
            next_page = p.match(response.url).group()+str(int(page[1])+1)
            next_page = response.urljoin(next_page)
            yield scrapy.Request(next_page, callback=self.parse)

結語

　　說幾個我拿資料看出來的結果。1.通過publishday我發現平均房屋留存時間變長。2.房屋均價上個月7萬，這個月大概下降3-5k。 3.北京最便宜房屋單價1.6萬/平方米，最貴14.9萬/平方米（最貴和最便宜的一直都沒賣出去）。說明房市稍有降溫。再次申明，這是從3000套房資料的統計結果，不是全量房屋統計結果，大家看看就好。

python爬蟲爬取鏈家二手房資訊

問題一

問題二

問題三

結語

python爬蟲爬取鏈家二手房資訊

爬蟲爬取鏈家二手房資訊，對二手房做分析

Django實戰: Python爬蟲爬取鏈家上海二手房資訊，存入資料庫並在前端顯示

聽說現在買房就是給自己投資?Python爬取鏈家二手房樓盤！

Python爬取鏈家地鐵房資料

利用高德API + Python爬取鏈家網租房資訊 01

Python的scrapy之爬取鏈家網房價資訊並儲存到本地

利用Python爬蟲爬取京東商品的簡要資訊

Python爬蟲爬取智聯招聘職位資訊

python 爬蟲爬取所有上市公司公告資訊（一）

python 爬蟲爬取所有上市公司公告資訊（五）

python3爬蟲抓取鏈家上海租房資訊

一、如何爬取鏈家網頁房源資訊

python 爬蟲爬取所有上市公司公告資訊（二）

爬取鏈家網租房資訊（萬級資料的簡單實現）

python爬蟲：爬取鏈家深圳全部二手房的詳細信息

python 學習 - 爬蟲入門練習爬取鏈家網二手房資訊

爬蟲，爬取鏈家網北京二手房資訊

python+scrapy 爬取成都鏈家二手房和成交資訊

Python爬蟲項目--爬取鏈家熱門城市新房

python爬蟲爬取鏈家二手房資訊

問題一

問題二

問題三

結語

相關推薦