聽說現在買房就是給自己投資?Python爬取鏈家二手房樓盤！

阿新 • • 發佈：2019-01-04

發現請求頭資訊如下，這個是後面要模擬的：

Host: m.lianjia.com
User-Agent: Mozilla/5.0 (Windows NT 6.3; WOW64; rv:32.0) Gecko/20100101 Firefox/32.0
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3
Accept-Encoding: gzip, deflate
Connection: keep-alive

檢視導航連結

點選 firebug 的檢視元素箭頭，選中導航檢視元素：

進群：960410445 獲取原始碼呀！

發現導航的主要是在 class=inner post_ulog 的超連結元素 a 裡面，這裡用 BeautifulSoup 抓取名稱和 href 就好，最後組成一個字典：

# 獲取引導頻道
def getChannel(html):
 channelDict = {}
 soup = BeautifulSoup(html, "html.parser")
 channels = soup.find_all("a", attrs={"class": "inner post_ulog"})
 for channel in channels:
 list_tmp = channel.find_all("div", attrs={"class": "name"})
 channelName = list_tmp[0].get_text()
 channelHref = channel.get('href')
 channelDict[channelName] = channelHref
 return channelDict

結果如下：

{'海外': '/i/', '賣房': '/bj/yezhu/', '新房': '/bj/loupan/fang/', '找小區': '/bj/xiaoqu/', '查成交': '/bj/chengjiao/', '租房': '/chuzu/bj/zufang/', '二手房': '/bj/ershoufang/index/', '寫字樓': 'https://shang.lianjia.com/bj/'}

獲取城市編碼

點選頁面低於按鈕，獲取城市編碼：

聽說現在買房就是給自己投資?Python爬取鏈家二手房樓盤！

發現城市的編碼主要在 class=block city_block 的 div 裡面，如下抓取所有就好，這裡需要的是廣州，廣州的城市編碼是 gz ：

# 獲取城市對應的縮寫
def getCity(html):
 cityDict = {}
 soup = BeautifulSoup(html, "html.parser")
 citys = soup.find_all("div", attrs={"class": "city_block"})
 for city in citys:
 list_tmp = city.find_all('a')
 for a in list_tmp:
 cityHref = a.get('href')
 cityName = a.get_text()
 cityDict[cityName] = cityHref
 return cityDict

結果如下：

{'文昌': '/wc/', '大理': '/dali/', '威海': '/weihai/', '達州': '/dazhou/', '中山': '/zs/', '佛山': '/fs/', '呼和浩特': '/hhht/', '合肥': '/hf/', '南昌': '/nc/', '昆明': '/km/', '定安': '/da/', '宜昌': '/yichang/', '襄陽': '/xy/', '嘉興': '/jx/', '廈門': '/xm/', '青島': '/qd/', '株洲': '/zhuzhou/', '西安': '/xa/', '泉州': '/quanzhou/', '濟南': '/jn/', '澄邁': '/cm/', '濰坊': '/wf/', '保定': '/bd/', '綿陽': '/mianyang/', '重慶': '/cq/', '儋州': '/dz/', '南充': '/nanchong/', '南京': '/nj/', '北京': '/bj/', '杭州': '/hz/', '滁州': '/cz/', '咸寧': '/xn/', '瓊海': '/qh/', '洛陽': '/luoyang/', '紹興': '/sx/', '廊坊': '/lf/', '惠州': '/hui/', '南通': '/nt/', '上饒': '/sr/', '湛江': '/zhanjiang/', '秦皇島': '/qhd/', '黃石': '/huangshi/', '武漢': '/wh/', '天津': '/tj/', '哈爾濱': '/hrb/', '黃岡': '/hg/', '龍巖': '/ly/', '長春': '/cc/', '珠海': '/zh/', '邢臺': '/xt/', '三亞': '/san/', '北海': '/bh/', '太原': '/ty/', '德陽': '/dy/', '萬寧': '/wn/', '承德': '/chengde/', '五指山': '/wzs/', '陵水': '/ls/', '成都': '/cd/', '深圳': '/sz/', '咸陽': '/xianyang/', '煙臺': '/yt/', '東莞': '/dg/', '清遠': '/qy/', '西雙版納': '/xsbn/', '鄭州': '/zz/', '淮安': '/ha/', '漳州': '/zhangzhou/', '常德': '/changde/', '邯鄲': '/hd/', '上海': '/sh/', '開封': '/kf/', '蘇州': '/su/', '衡水': '/hs/', '無錫': '/wx/', '廣州': '/gz/', '銀川': '/yinchuan/', '徐州': '/xz/', '大連': '/dl/', '海口': '/hk/', '晉中': '/jz/', '福州': '/fz/', '新鄉': '/xinxiang/', '瀋陽': '/sy/', '瓊中': '/qz/', '樂東': '/ld/', '淄博': '/zb/', '眉山': '/ms/', '寧波': '/nb/', '張家口': '/zjk/', '保亭': '/bt/', '長沙': '/cs/', '臨高': '/lg/', '石家莊': '/sjz/', '許昌': '/xc/', '鎮江': '/zj/', '樂山': '/leshan/', '貴陽': '/gy/'}

模擬請求二手房

點選二手房連結進入二手房列表頁面，發現列表頁面的 url 是 https://m.lianjia.com/bj/ershoufang/index/ ，把網頁往下拉進行翻頁，發現下一頁的 url 構造為：

聽說現在買房就是給自己投資?Python爬取鏈家二手房樓盤！

只是在原來的網址後面添加了頁碼 pg1 ，但是在 httpfox 裡面驚奇的發現了一段 json ：

聽說現在買房就是給自己投資?Python爬取鏈家二手房樓盤！

對於爬蟲的各位作者有個忠告：能抓取json就抓取json！* json 是一個 API 介面，相比於網頁來說更新頻率低，網頁架構很容易換掉，但是 API 介面一般不會換掉，且換掉後維護的成本比網頁低。試想，介面只是一個 dict ，如果更新只要在程式碼裡面改 key 就好了；而網頁更新後，需要改的是 bs4 裡面的元素，對於以後開發過多的爬蟲來說，維護特別麻煩！

所以對於這裡肯定是抓取 json ，檢視頭部：

聽說現在買房就是給自己投資?Python爬取鏈家二手房樓盤！

頭部需要攜帶 cookie ！

所以這裡需要攜帶 cookie 。而 requests 本身就有抓取攜帶 cookie 的寫法。那麼作者就在從獲取導航連結、城市編碼都獲取更新 cookie 。而在每一次 requests 請求的時候，返回 cookie 的程式碼為：

session.get(url, headers=headers)
html_set_cookie = requests.utils.dict_from_cookiejar(session.cookies)

那麼在導航連結、城市編碼的時候，不僅僅返回網頁的 html ，還多返回一個 cookie ：

print("構建城市編碼url")
url_get_city = url_ori + "/city/"
print("獲取城市編碼", "：", url_get_city)
html_set_cookie, html_city = getHtml(url_get_city)
cityDict = getCity(html_city)
url_city = url_ori + cityDict[city]
print("訪問獲取導航", "：", url_city)
html_set_cookie, html_city_content = getHtml(url_city, _cookie=html_set_cookie)

然後在請求頭攜帶 cookie ：

# 解析網頁
def getHtml(url, _cookie=None):
 html_bytes = session.get(url, headers=headers, cookies=_cookie)
 html_set_cookie = requests.utils.dict_from_cookiejar(session.cookies)
 return html_set_cookie, html_bytes.content.decode("utf-8", "ignore")

這裡也模擬請求頭攜帶 cookie 後抓取下來的 json 為：

聽說現在買房就是給自己投資?Python爬取鏈家二手房樓盤！

而主要的資訊在 body 裡面，直接解析 html 變成 dict ，提取 body 出來：

html_bytes = session.get(url_detail, headers=headerJson, cookies=html_set_cookie)
html_detail = html_bytes.content.decode("utf-8", "ignore")
detailJson = json.loads(html_detail)

發現資訊都在 class=item_list 裡面，直接用 bs4 抓取即可。可以抓取到的資訊為：標題、標籤、房子構造、面積、總價、單價、房屋朝向、詳情頁 url 等：

聽說現在買房就是給自己投資?Python爬取鏈家二手房樓盤！

獲取資訊的部分程式碼為：

# 獲取二手房的詳細資訊
def getInfoErshoufang(html):
 detailArr = []
 soup = BeautifulSoup(html, "html.parser")
 detailInfo = soup.find_all("div", attrs={"class": "item_list"})
 detailUrl = soup.find_all("a", attrs={"class": "a_mask"})
 details = zip(detailInfo, detailUrl)
 for info_url in details:
 info = info_url[0]
 detailDict = {}
 # 獲取標題
 title_tmp = info.find_all("div", attrs={"class": "item_main"})
 detail_title = title_tmp[0].get_text()
 # 獲取房屋大小
 size_tmp = info.find_all("div", attrs={"class": "item_other"})
 detail_size = size_tmp[0].get_text()
 # 獲取價格單價
 price_total_tmp = info.find_all("span", attrs={"class": "price_total"})
 detail_price_total = price_total_tmp[0].get_text()
 try:
 unit_price_tmp = info.find_all("span", attrs={"class": "unit_price"})
 detail_unit_price = unit_price_tmp[0].get_text()
 except:
 detail_unit_price = "88888888元/平"
 # 獲取標籤
 tag_tmp = info.find_all("div", attrs={"class": "tag_box"})
 detail_tag = tag_tmp[0].get_text()
 # 獲取詳情頁
 url_a = info_url[1]

封裝程式碼

為了讓程式碼更加的和諧，這裡對程式碼進行了封裝，包括如下幾個方面：

選擇城市
選擇檢視二手房、新房等
詳情頁抓取頁數
計算首付
按照首付升序排列

目前只寫那麼多了，畢竟博文只教方法給讀者，更多抓取的資訊需要各位讀者根據自己的需求新增

下載原始碼

作者已經將原始碼放到 github 上面了，包括 3 個 py 檔案：

lianjia.py ，跳轉頁面到詳情頁的程式碼，為主程式碼
GetDetail.py，抓取詳情頁翻頁的程式碼
GetInfo.py，提取詳情頁裡面資訊的程式碼

聽說現在買房就是給自己投資?Python爬取鏈家二手房樓盤！

發現請求頭資訊如下，這個是後面要模擬的： Host: m.lianjia.com User-Agent: Mozilla/5.0 (Windows NT 6.3; WOW64; rv:32.0) Gecko/20100101

python爬蟲爬取鏈家二手房資訊

一種有想做個爬蟲的想法，正好上個月有足夠的時間和精力就學了下scrapy，一個python開源爬蟲框架。好多事開始以為很難，但真正下定決心去做的時候，才發現非常簡單，scrapy我從0基礎到寫出第一個可用的爬蟲只用了兩天時間，從官網例項到我的demo，真是遇到一堆問題，通

Python爬取鏈家地鐵房資料

#coding=gbk #因為涉及到中文，utf-8會報錯 ### 環境：Python 3.6### import requests import re import pandas as pd import csv from bs4 import BeautifulSoup

利用高德API + Python爬取鏈家網租房資訊 01

看了實驗樓的專案發現五八同城爬取還是有點難度所以轉戰鏈家實驗程式碼如下 from bs4 import BeautifulSoup from urllib.request import urlopen import csv url = 'https://gz.lia

python爬取鏈家新房資料

轉載：https://blog.csdn.net/clyjjczwdd/article/details/79466032 from bs4 import BeautifulSoup import requests import time import pandas as p

利用Python爬取幾百萬github數據！這些源碼都是我的囊中之物！

.py .com exchange 非阻塞問題判斷 recursion 異步調用 direct 進群：548377875 即可獲取數十套PDF哦！看到這麽簡單的流程，內心的第一想法就是先簡單的寫一個遞歸實現唄，要是性能差再慢慢優化，所以第一

python爬蟲：爬取鏈家深圳全部二手房的詳細信息

data sts rip 二手房 lse area 列表 dom bubuko 1、問題描述：爬取鏈家深圳全部二手房的詳細信息，並將爬取的數據存儲到CSV文件中 2、思路分析: (1)目標網址：https://sz.lianjia.com/ershoufang/ (2

Python爬蟲項目--爬取鏈家熱門城市新房

聲明 rules nal logging 命令行 -- new exec 狀態本次實戰是利用爬蟲爬取鏈家的新房(聲明: 內容僅用於學習交流, 請勿用作商業用途) 環境 win8, python 3.7, pycharm 正文 1. 目標網站分析通過分析, 找出相關url

Python爬蟲專案--爬取鏈家熱門城市新房

本次實戰是利用爬蟲爬取鏈家的新房(宣告: 內容僅用於學習交流, 請勿用作商業用途) 環境 win8, python 3.7, pycharm 正文 1. 目標網站分析通過分析, 找出相關url, 確定請求方式, 是否存在js加密等. 2. 新建scrapy專案 1. 在cmd命令列視窗中輸入以

python 學習 - 爬蟲入門練習爬取鏈家網二手房資訊

import requests from bs4 import BeautifulSoup import sqlite3 conn = sqlite3.connect("test.db") c = conn.cursor() for num in range(1,101): url = "h

Python的scrapy之爬取鏈家網房價資訊並儲存到本地

因為有在北京租房的打算，於是上網瀏覽了一下鏈家網站的房價，想將他們爬取下來，並儲存到本地。先看鏈家網的原始碼。。房價資訊都儲存在 ul 下的li 裡面爬蟲結構：其中封裝了一個數據庫處理模組，還有一個user-agent池。。先看mylian

Python的scrapy之爬取鏈家網房價信息並保存到本地

width gif pat lse idt ext tst maximum spa 因為有在北京租房的打算，於是上網瀏覽了一下鏈家網站的房價，想將他們爬取下來，並保存到本地。先看鏈家網的源碼。。房價信息都保存在 ul 下的li 裏面 ? 爬蟲結構： ? 其中封裝了一

Python爬蟲實戰之爬取鏈家廣州房價_04鏈家的模擬登入(記錄)

問題引入開始鏈家爬蟲的時候，瞭解到需要實現模擬登入，不登入不能爬取三個月之內的資料，目前暫未驗證這個說法是否正確，這一小節記錄一下利用瀏覽器(IE11)的開發者工具去分析模擬登入網站(鏈家)的內部邏輯過程，花了一個週末的時間，部分問題暫未解決。思路介

Django實戰: Python爬蟲爬取鏈家上海二手房資訊，存入資料庫並在前端顯示

好久沒寫Django實戰教程了，小編我今天就帶你把它與Python爬蟲結合做出個有趣的東西吧。我們將開發這樣一個應用，前端使用者可以根據行政區劃，房廳數和價格區間選擇需要爬取的二手房房源資訊，後臺Python開始爬取資料。爬取資料完成後，通過Django將爬來的資料存入資料庫

python+scrapy 爬取成都鏈家二手房和成交資訊

爬蟲設計方案爬取目標成都鏈家的二手房和成交資料。由於web版看不到最新的成交金額資料，因此需要用手機版的資料。成交資料應該去重，可以做成每天增量爬取。需要做成每天爬取一次，定時執行參考文章技術方案使用Scrapy框架，

利用Python給自己寫一款不一樣的吃雞“外掛”！把把吃雞絕不封號

atp 有時成功 alt 基礎入門最大的比較比賽我們那麽我們就用python和R做數據分析來回答以下的靈魂發問？首先來看下數據：進群：125240963 即可獲取數十套PDF或者零基礎入門資料一套哦！

Python爬蟲為何可以這麽叼？爬取百度雲盤資源！並保存到自己雲盤

源碼下載表達 har .cn bdb 裏的 image AC 賬號登錄點擊它，再點擊右邊的【Cookies】就可以看到請求頭裏的 cookie 情況。 cookie分析除了上面說到的兩個 cookie ，其他的請求頭參數可以參照手動轉存

Python爬取天氣資訊並定時傳送給微信好友(異地戀神器)！！

效果前言中國天氣網： http://www.weather.com.cn/ 點選右上角的具體的天氣資料想獲取哪個城市的天氣，就搜尋城市進行切換這裡以青島為例可以看到此時url為： http://www.weather.com.cn/weat

如何使用Python爬取資料？看完這篇文章你就懂了！

前段時間小編髮了一篇有關於Python資料型別的文章，由於只是介紹了資料型別，我覺得遠遠不夠，所以呢我現在寫一篇用Python爬取資料的文章來補充。首先我會介紹如何使用scrapy抓取二手房資料，然後我會將抓下來的資料進行了一些簡單的分析和視覺化。最後奉上資料，感興趣的朋友可

快過年了,Python大神給免費分享一個爬取12306火車票例子（附原始碼）

。。。上面是以前寫的文章的資源，在以前的文章中有對應的資源，有興趣的可以去檢視。作為一種便捷地收集網上資訊並從中抽取出可用資訊的方式，網路爬蟲技術變得越來越有用。使用Python這樣的簡單程式語言，你可以使用少量程式設計技能就可以爬取複雜的網站。如果手機上顯示程式碼錯亂，請分

聽說現在買房就是給自己投資?Python爬取鏈家二手房樓盤！

相關推薦