python爬取全國房價並分析

阿新 • • 發佈：2019-01-13

我相信國內房價一直都是苦逼程式設計師比較關注的事情，我也非常關注全國部分地區的房價，因此我最原始的需求就是想看看全國都哪些地方房價比較高，以及幾個我比較關注的城市房價都是怎麼個漲勢。關於這兩個功能，我並沒有打算做很漂亮的應用，所以實現的思路也很簡單粗暴，但它可以滿足我的基本的需求。如果你也有需要，我們可以一起來完善這個應用，讓他更通用。

使用方法

我說了我並沒有打算做很漂亮的應用，目前這個專案也只是可以滿足我的基本需求，因此本專案稍微需要一點程式設計基礎和mysql操作基礎。至少要入門水平，然後就可以照著下面的步驟操作了：

安裝依賴： pip install -r requirements.txt
安裝mysql並設定密碼然後進入後執行下面命令：

create database house DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci;
use house;
CREATE TABLE residential (
    record_id INT NOT NULL AUTO_INCREMENT,
    province VARCHAR(100) NOT NULL,
    city VARCHAR(100) NOT NULL,
    year YEAR NOT NULL,
    month TINYINT UNSIGNED, # DEFAULT 
 1
    price DOUBLE, # NOT NULL, 單位: 元/m^2
    url VARCHAR(100),
    PRIMARY KEY (record_id)
);

爬取房價資料到資料庫（方便後期分析）： python clawer.py
房價資料分析：簡單閱讀修改 price_analyse.py 檔案的內容後執行 python price_analyse.py 即可。

程式原理

資料來源

最初有這個需求的時候我就百度搜了一下有沒有現成的房價資料可以直接分析，很可惜並沒有找到，但是發現了下面這個網站：

簡單的分析了一下網站的結構，發現它的資料非常好爬！於是馬上決定就是它了。

ps. 程式碼見光後應該很快就不能這麼輕易爬了，如果爬的人多的話…該網站的反爬機制及將上線，到時候再…嗯，道高一尺魔高一丈/笑臉。

資料爬取

房價相關資料抓取下來怎麼存呢？鑑於網站的房價資料現在可以輕易爬下來並不代表將來也可以輕易爬，為了保險起見還是決定先儲存到資料庫方便後期深入分析了。資料庫需要什麼結構呢？說實話我只是關心在哪個省的哪個城市什麼時候房價是多少，於是很自然的我的資料表包含了如下列：省市/城市/年/月/房價等幾個關鍵資料。

下面首先介紹資料庫的操作基本流程（windows使用者需要自己適配用法了，關鍵步驟請看程式碼註釋），然後介紹如何爬取該網站的房價資訊，其實都很簡單。

mac下mysql安裝&使用&建立庫和表

安裝mysql：

brew install mysql
mysql.server start # 手動啟動
mysql.server stop # 手動停止
mysql -uroot # 預設沒有密碼, 登入後設置
SET PASSWORD FOR 'root'@'localhost' = PASSWORD('xyz123');
mysql -u root -p 'xyz123' # 登入

mysql基本操作：

mysql -u root -p # xyz123
# show databases;
create database house DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci; # drop database house
use house;
# 建立和刪除
CREATE TABLE residential (
    record_id INT NOT NULL AUTO_INCREMENT,
    province VARCHAR(100) NOT NULL,
    city VARCHAR(100) NOT NULL,
    year YEAR NOT NULL,
    month TINYINT UNSIGNED, # DEFAULT 1
    price DOUBLE, # NOT NULL, 單位: 元/m^2
    PRIMARY KEY (record_id)
); 
# drop table residential;
# 表檢視
show tables;
describe residential;
# 表修改
ALTER TABLE residential ALTER COLUMN month SET DEFAULT 1; # 修改欄位預設值, COLUMN 可省
ALTER TABLE residential MODIFY price DOUBLE NOT NULL; # 設定欄位非空
ALTER TABLE residential ADD desc_info VARCHAR(100); # 增加欄位
ALTER TABLE residential CHANGE desc_info drop_col VARCHAR(100) NOT NULL; # 修改列名
ALTER TABLE residential DROP drop_col; # 刪除欄位
ALTER TABLE residential ADD url VARCHAR(100); 

CREATE TABLE test (
    record_id INT NOT NULL AUTO_INCREMENT,
    province VARCHAR(100) NOT NULL,
    city VARCHAR(100) NOT NULL,
    year YEAR NOT NULL,
    month TINYINT UNSIGNED, # DEFAULT 1
    price DOUBLE, # NOT NULL, 單位: 元/m^2
    url VARCHAR(100),
    PRIMARY KEY (record_id)
); 

# 資料增改查刪
INSERT INTO residential(province ,city, year, price) VALUES('guizhou','guiyang',1992, 45000);
UPDATE residential SET province='GZ' WHERE province='guizhou';
SELECT * FROM residential;
DELETE FROM residential WHERE province='GZ';
DELETE FROM residential; # 刪除全部資料

網站爬取分析

手動檢視房價資訊的操作流程分析：

點選任意省份，然後右邊的檢視更多，發現地址很有規律：http://www.creprice.cn/proprice/pcguangxi.html 前面都相似，後面就是[pc+省份全拼]，可以以此來爬取全國各省資料（幾個直轄市略有區別，具體參考專案的程式碼實現）。
任何一個地址又分為 住宅/辦公/商鋪 相關的頁面，地址分別也只是最後不一樣： pcguangxi.html/pcguangxi-ty21.html/pcguangxi-ty22.html。我當前只關注住宅的所以就只實現了爬取住宅的程式碼，其他的有需求時再說吧。
任何一個頁面都包含時間選擇和展開更多選項，但是展開的通常都沒有實際資料。而其中時間對應的也是靜態頁面字尾，在上面的.html前加上日期即可，例如 -ti201512.html 遍歷以上一些地方應該可以獲取比較合理的資料結構了。

由此得到爬取流程：獲取中國各省的漢字，然後生成各個省市的拼音，組合生成的年月相關字串，組裝成網址；然後到該網址中找到城市名字和對應的房價，儲存到資料庫。

網站資料抓取程式碼基礎

其實我也是邊百度邊嘗試的，有些庫我也沒用過，都是百度後從庫的基本使用去了解如何滿足自己的需求，比如百度python 漢字轉拼音 才知道還有pinyin這種庫可以用。

from pinyin
>>> print(pinyin.get('你 好'))
nǐ hǎo
>>> print(pinyin.get('你好', format="strip", delimiter=" "))
ni hao
>>> print(pinyin.get('你好', format="numerical"))
ni3hao3
>>> print(pinyin.get_initial('你好'))
n h

省份網址生成器：

def gen_all_url():
    for pr in PROVINCE_NAME:
        for year in range(NOW.year, 2007, -1):
            for month in range(12, 0, -1):
                pr['url'] = "%s/proprice/pc%s-ti%d%02d.html" % (BASE_URL, pr['pinyin'], year, month)
                pr['year'] = year
                pr['month'] = month
                yield pr

網頁下載器：

import requests
res = requests.get('http://www.creprice.cn/proprice/pcguizhou-ti201803.html')
with open('test.html','w') as f:
    f.write(res.text)

其實我也沒想到這個網站的爬取這麼簡單，連基本的反爬機制都沒有，那我就只能不客氣了！
5. 非同步爬蟲：沒想到猴子補丁支援了requests但是對於mysql的支援並不好，而且這個網站動不動就被爬爆了。所以最後沒有采用非同步的方式。

最後爬取的過程大概是下面這樣（看起來比較慢，爬完全部資料大概要3小時吧）：
這裡寫圖片描述

資料分析

資料讀取: 資料庫讀取操作，獲取資料後就直接查詢資料庫就好了，沒什麼技術含量。
繪製房價的溫度圖: 參考程式碼，效果如下，是全國2018年房價的溫度圖。

房價溫度圖

可以看出來除了北上廣深杭以外，國內還有重慶/遼寧/吉林的房價都挺高的。更多資訊大家就自己感受一下吧…

繪製趨勢線型圖: 參考程式碼，效果如下，是幾個城市的房價上漲趨勢。

房價長勢圖

這個圖也說明了國內大部分省市的房價都是在上漲的，就我看的幾個城市而言，從2017年1月開始都普遍大幅度上漲（當時到底發生了什麼？），從上漲的趨勢來看這幾個城市都應該還有一定的上漲空間。如果要買房的話，可以考慮在那兒呢？—fuck…當然時看看在哪兒才買得起啊！

上面的兩個圖也只是舉個例子啦，分析結果也就是我個人的簡單直觀的看法，相信大家看到的比我看到的多，期待聽到大家深入淺出的分析結論。

最後在這個過程中我也發現了一個關於租房資料自動爬取的專案，感興趣的可以圍觀下。
ps. 這個專案看起來比我這個麻煩多了，畢竟要適配多家中介機構的網站，維護起來應該也比較辛苦。

如果本文對你有所幫助，可以點贊以支援作者的持續更新哦

支援作者

python爬取全國房價並分析

使用方法

程式原理

資料來源

資料爬取

mac下mysql安裝&使用&建立庫和表

網站爬取分析

網站資料抓取程式碼基礎

資料分析

python爬取全國房價並分析

Python爬取天氣資訊並定時傳送給微信好友(異地戀神器)！！

詳解使用Python爬取豆瓣短評並繪製詞雲

Python爬取網頁資料並匯入表格

Python 爬取 B 站資料分析，宋智孝李光洙誰最受中國粉絲喜愛

[轉載]Python爬取豆瓣影評並生成詞雲圖程式碼

python 爬取資訊文章並儲存html及pdf格式

Python爬蟲系列之四：利用Python爬取PyODPS頁面並整合成PDF文件

python爬取歌曲評論並進行資料視覺化

用python爬取文章連結並分類

python 爬取指定圖片並將圖片下載到指定資料夾

第十講：Python爬取網頁圖片並儲存到本地，包含次層頁面

拉勾網爬取全國python職位並數據分析薪資，工作經驗，學歷等信息

用python爬取二手房交易資訊並進行分析

Python爬取拉勾網招聘資訊並可視化分析

Python爬取豆瓣電影的短評資料並進行詞雲分析處理

MongoDB+Python 爬取寶寶樹問答模組並進行簡單分析

利用python爬取龍虎榜數據及後續分析

我用Python爬取網易雲音樂上的Hip-hop歌單，分析rapper如何押韻

用python爬取微博數據並生成詞雲

python爬取全國房價並分析

使用方法

程式原理

資料來源

資料爬取

mac下mysql安裝&使用&建立庫和表

網站爬取分析

網站資料抓取程式碼基礎

資料分析

相關推薦