利用Python爬蟲和Tableau分析鏈家網二手房資訊

阿新 • • 發佈：2019-02-13

1、明確分析的目標和思路

目的：近年來，房價時時刻刻牽動著廣大老百姓的心，尤其是急需買房的剛需族和二胎家庭的置換族。本文希望通過對上海市中心城區二手房資訊的分析，能夠對房價和地理位置、房齡等因素的關係有一定的掌握。

分析思路：通過python爬取鏈家網二手房資訊，經過資料清洗、規約等處理後，匯入Tableau軟體，進行視覺化分析，得出結論。

2、爬取鏈家網二手房資訊

以上海市中心城區為分析物件，包括黃浦、徐匯、長寧、靜安（包括原靜安和閘北）、普陀、虹口、楊浦。

首先，開啟鏈家網，分析網頁中的元素，如下圖

標號1處是各行政區的小區數量，這個數字可用來控制python生成的小區列表頁網址的數量；

標號2處是小區列表頁各個小區的連結，可以獲取連結的網頁地址，進去各個小區的詳情頁，從而爬取各個小區的資訊。

接下來，就可以用python編寫爬蟲程式了。

（1）匯入需要用到的模板

import requests
import re
from bs4 import BeautifulSoup

（2）分析鏈家網小區頁面的URL地址後，可以發現其中的規律，定義area_urls()函式，獲取各個行政區小區頁面的首頁URL地址

def area_urls():
    areas = ['xuhui','putuo','yangpu','changning','huangpu','zhabei','hongkou','jingan']
    url_base = 'https://sh.lianjia.com/xiaoqu/{}/'
    for area in areas:
        yield url_base.format(area) #生成器

（3）定義detail_urls()函式，獲取所有的小區頁面的URL地址，這時標號1處的小區數量就派上用場了

def detail_urls():
    for area_url in area_urls():
        response = requests.get(area_url)
        if response.status_code == 200:
            soup1 = BeautifulSoup(response.text, 'lxml')
            numlist = soup1.select('body > div.content > div.leftContent > div.resultDes.clear > h2 > span') #獲取小區數量
            num1 = int(numlist[0].text)

            if num1 % 30 == 0:
                pages = num1 // 30
            else:
                pages = num1 // 30 + 1 #獲取小區頁面的數量
            for page in range(1,pages+1):
                yield area_url + 'pg' + str(page) #生成所有小區頁面的URL地址

（4）定義get_community_info()函式，爬取小區資訊（小區名稱、地址、房屋總數、建築年代、小區均價、在售二手房）

def get_community_info(detail_url):
    global count
    url = requests.get(detail_url)
    if url.status_code == 200:
        re_set = re.compile('<a class="img" href="(.*?)"')
        re_get = re.findall(re_set, url.text)

        for community_url in re_get[:-1]:
            res = requests.get(community_url)
            if res.status_code == 200:
                soup = BeautifulSoup(res.text, 'lxml')

                names = soup.select('body > div.xiaoquDetailHeader > div > div.detailHeader.fl > h1') #小區名稱
                adds = soup.select('body > div.xiaoquDetailHeader > div > div.detailHeader.fl > div') #地址
                nums = soup.select('body > div.xiaoquOverview > div.xiaoquDescribe.fr > div.xiaoquInfo > div:nth-of-type(7) > span.xiaoquInfoContent') #房屋總數
                years = soup.select('body > div.xiaoquOverview > div.xiaoquDescribe.fr > div.xiaoquInfo > div:nth-of-type(1) > span.xiaoquInfoContent') #建築年代
                prices = soup.select('body > div.xiaoquOverview > div.xiaoquDescribe.fr > div.xiaoquPrice.clear > div') #小區均價
                onsales = soup.select('body > div.content > div.leftContent > div.resultDes.clear > h2 > span') #在售二手房

最後，把爬取的結果存到Excel文件中。

3、資料處理

（1）根據小區地址欄位解析地圖經緯度，這裡用到軟體XGeocoding，工作介面如下：

結果輸出如下，P、Q列即為緯度和精度。

（2）繪製各區的多邊形地圖的座標點，用到軟體Draw Tool for Tableau，介面如下：

結果輸出如下：

這樣就可以在Tableau地圖上繪製多邊形地圖了。

（3）資料規約

買賣活躍度 = 在售二手房 / 房屋總數

建築年代根據“5年以內”，“10年以內”，“15年以內”，“20年以內”，“20年以上”分為五類，分別評分100/80/60/40/20。

區域人口稠密程度 = 面積 / 人口數（百度可知）

最終處理好的資料如下所示：

4、資料視覺化

（1）分析各區域的人口稠密程度

根據多邊形地圖顏色的深淺可知，長寧區的人口稠密程度最高，虹口區最低。

（2）分析小區房齡的分佈情況

如圖所示：

a. 上海市中心城區的小區房齡大部分在20年以上；

b. 越往外圍擴散，房齡小的房子越多。

（3）分析小區均價的分佈情況

如圖所示：

a. 均價高的小區多集中在內環，越往外圍擴散，均價越低；

b. 由於黃浦區基本都處於中心區域，所以均價高的小區數最多；楊浦區和普陀區的位置相對較偏，所以均價相對低的小區居多。

（4）分析小區的買賣活躍度

如圖所示，基本與小區房齡的分析圖如出一轍，上海市中心城區的小區買賣活躍度相對外圍小區偏低。

原因分析如下：

a. 中心城區房價偏高，且住戶多本地老人，換房意願不強；

b. 外圍小區的房價較低，且住戶多年輕人，剛需或置換意願較強。

利用Python爬蟲和Tableau分析鏈家網二手房資訊

1、明確分析的目標和思路目的：近年來，房價時時刻刻牽動著廣大老百姓的心，尤其是急需買房的剛需族和二胎家庭的置換族。本文希望通過對上海市中心城區二手房資訊的分析，能夠對房價和地理位置、房齡等因素的關係有一定的掌握。分析思路：通過python爬取鏈家網二手房資訊，經過資料

python 學習 - 爬蟲入門練習爬取鏈家網二手房資訊

import requests from bs4 import BeautifulSoup import sqlite3 conn = sqlite3.connect("test.db") c = conn.cursor() for num in range(1,101): url = "h

Django實戰: Python爬蟲爬取鏈家上海二手房資訊，存入資料庫並在前端顯示

好久沒寫Django實戰教程了，小編我今天就帶你把它與Python爬蟲結合做出個有趣的東西吧。我們將開發這樣一個應用，前端使用者可以根據行政區劃，房廳數和價格區間選擇需要爬取的二手房房源資訊，後臺Python開始爬取資料。爬取資料完成後，通過Django將爬來的資料存入資料庫

鏈家網二手房資料分析（承接上篇爬蟲）

import pandas as pd import numpy as np import matplotlib.pyplot as plt plt.rcParams['font.sans-serif']=['SimHei']#用來正常顯示中文標籤 path=

43.scrapy爬取鏈家網站二手房資訊-1

首先分析：目的：採集鏈家網站二手房資料1.先分析一下二手房主介面資訊，顯示情況如下：url = https://gz.lianjia.com/ershoufang/pg1/顯示總資料量為27589套，但是頁面只給返回100頁的資料，每頁30條資料，也就是隻給返回3000條資料。

44.scrapy爬取鏈家網站二手房資訊-2

全面採集二手房資料：網站二手房總資料量為27650條，但有的引數欄位會出現一些問題，因為只給返回100頁資料，具體檢視就需要去細分請求url引數去請求網站資料。我這裡大概的獲取了一下篩選條件引數，一些存在問題也沒做細化處理，大致的採集資料量為21096，實際19794條。看一下執行完成結果： {'d

如何採集鏈家網二手房成交資料？

首先我們看一個城市的成交頁面：https://sh.lianjia.com/chengjiao/pg2/擁有非常多的條件組合，同時最大顯示頁數為100頁，如果希望獲取100頁之外的，那就只能拆分搜尋條件了。知道了條件組合以及最大頁數之後，那麼問題來了，上面如果希望檢視詳情的

python爬蟲：爬取鏈家深圳全部二手房的詳細信息

data sts rip 二手房 lse area 列表 dom bubuko 1、問題描述：爬取鏈家深圳全部二手房的詳細信息，並將爬取的數據存儲到CSV文件中 2、思路分析: (1)目標網址：https://sz.lianjia.com/ershoufang/ (2

Python爬蟲專案--爬取鏈家熱門城市新房

本次實戰是利用爬蟲爬取鏈家的新房(宣告: 內容僅用於學習交流, 請勿用作商業用途) 環境 win8, python 3.7, pycharm 正文 1. 目標網站分析通過分析, 找出相關url, 確定請求方式, 是否存在js加密等. 2. 新建scrapy專案 1. 在cmd命令列視窗中輸入以

Python爬蟲和情感分析詳解

　　這篇短文的目的是分享我這幾天裡從頭開始學習Python爬蟲技術的經驗，並展示對爬取的文字進行情感分析(文字分類)的一些挖掘結果。不同於其他專注爬蟲技術的介紹，這裡首先闡述爬取網路資料動機，接著以豆瓣影評為例介紹文字資料的爬取，最後使用文字分類的技術以一種機器學習的方式

Python 爬蟲和資料分析實戰

課程介紹本課程是 Python 爬蟲和資料分析專案實戰課程，主要分 3 部分：第 1 部分是 Python 爬蟲，主要使用 Urllib 3 和 BeautifulSoup 抓取天貓商城和京東商城胸罩銷售資料，並儲存到 SQLite 資料庫中；第 2 部分是對抓取的胸罩銷售資

學習python抓取資料——鏈家北京二手房資料

最近在學習用Python進行資料分析、機器學習，基本都是用現成資料集進行模型訓練及驗證，想用一些實際資料看一下效果，於是想到用Python嘗試抓取一些實際資料。目標：爬取鏈家網北京二手房房價、位置、面積等資料環境：Python3.5.2，Anaconda4.2.0 1.準備工作

爬蟲，爬取鏈家網北京二手房資訊

# 鏈家網二手房資訊爬取 import re import time import requests import pandas as pd from bs4 import BeautifulSoup url = 'http://bj.lianjia.com/ershouf

案例分析|鏈家網大資料平臺樞紐——工具鏈

非常感謝分享，學習了。文 | 呂毅，鏈家網平臺架構師　　鏈家網於2015年成立大資料部門，開始構建基於Hadoop的技術體系，初期大資料部門以運營資料報表需求、公司核心指標需求為主。隨著2015年鏈家網發力線上業務，toB與toC業務齊頭並進，資料需求量激增的情況也

如何利用Python爬蟲從網頁上批量獲取想要的資訊？

稍微說一下背景，當時我想研究蛋白質與小分子的複合物在空間三維結構上的一些規律，首先得有資料啊，資料從哪裡來？就是從一個涵蓋所有已經解析三維結構的蛋白質-小分子複合物的資料庫裡面下載。這時候，手動一個個去下顯然是不可取的，我們需要寫個指令碼，能從特定的網站選擇性得批量下載需

爬蟲實戰：從鏈家網爬取資料

學習python已經很久了，從各個大牛的技術部落格中獲益良多。現在也想把自己的小小收穫公開一下，以方便大家學習python，讓python更加普及的應用。下面我準備寫一個爬蟲例項：從鏈家網爬取福田區二手房的資料。環境： win10專業版 python3.6（需

43.scrapy爬取鏈家網站二手房信息-1

response ons tro 問題 import xtra dom nts class 首先分析：目的：采集鏈家網站二手房數據1.先分析一下二手房主界面信息，顯示情況如下：url = https://gz.lianjia.com/ershoufang/pg1/顯示

爬取鏈家杭州二手房3000套

匯入包 import requests import lxml.html import csv 獲取目標網頁Url lianjiaUrl='https://hz.lianjia.com/ershoufang/pg{}/' 解析Url def g

北京鏈家買二手房的經歷與感受

目錄一、引言一、引言我是2016年8月畢業來到北京的，在武漢經歷了2015年股市暴跌、房價暴漲瘋狂的一年，當時想著房價太貴找工作想去天津來著，後來由於各種原因來了北京，之後就整天面對這天價房價了。

使用Java及jsoup爬取鏈家北京二手房房價資料

由於是初次使用Java寫爬蟲，所以程式碼有些繁瑣，請大家見諒，並能給與指正首先分析鏈家北京二手房頁面，使用360瀏覽器的審查元素功能，檢視原始碼，獲取查詢標籤如圖一級查詢所示，此圖標籤所獲取的是鏈家北京二手房頁面下的一級地區地址由於具體獲取有些複雜，故列大致步驟如下主頁——》

利用Python爬蟲和Tableau分析鏈家網二手房資訊

相關推薦