1. 程式人生 > >python3爬蟲抓取鏈家上海租房資訊

python3爬蟲抓取鏈家上海租房資訊

環境:win10,anaconda3(python3.5)

方法一:利用requests獲取網頁資訊,再利用正則提取資料,並將結果儲存到csv檔案。

程式碼地址:程式碼

抓取到的資料如下所示:

從左往右依次是:房屋連結、房屋描述、房屋佈局、房屋大小、所在區、所在區的具體區域、房屋樓層數、交通訊息、看房時間、房租(/月)、上架時間以及當前有多少人看過該房屋。


方法二:利用requests獲取網頁資訊,再用BeautifulSoup解析資料,並用MongoDB儲存結果。

主要爬取的資料有:房屋連結、房屋描述、小區、戶型、面積,所在區域、房租、交通訊息、多少人看過等。


鏈家只提供100頁資料,所以只爬取這100頁資料。


審查元素髮現每個li標籤就是一個房源


而在每個li標籤中,房屋資訊全在class=info-panel中,所以class=info-panel中的資料即為我們需要抓取的資料塊。

用BeautifulSoup解析資料,

soup = BeautifulSoup(html, 'lxml')
    for item in soup.select('.info-panel'):

一個個裝載資料即可

        houseUrl = item.find("h2").a["href"]
        title = item.find("h2").a["title"]

        。。。。

然後將抓取好的資料,存入資料庫。

先為每個item生成一個連結串列:

yield {
            '_id': id,
            'houseUrl': houseUrl,
            'houseDescription': title,
            'xiaoqu': xiaoqu,
            'huxing': huxing,
            'mianji': mianji,
            'area': area,
            'sub_area': sub_area,
            'traffic': subway,
            'price': price,
            'data': data,
            'watchedPersons': watched
        }

client = pymongo.MongoClient('mongodb://localhost:27017')
db_name = 'lianjia_zufang_shanghai'
db = client[db_name]
collection_set01 = db['set01']

再依次將資料存入資料庫中

for item, index in parse_one_page(html, index):
            collection_set01.save(item)

儲存到資料庫中的資料如下:


完整程式碼:程式碼

總之就是寫好自己的model類,所有資料一股腦搗鼓進去,然後save。

只是個爬蟲小程式,程式碼寫得比較簡單,只是能跑起來而已。

相關推薦

python3爬蟲上海租房資訊

環境:win10,anaconda3(python3.5) 方法一:利用requests獲取網頁資訊,再利用正則提取資料,並將結果儲存到csv檔案。 程式碼地址:程式碼 抓取到的資料如下所示: 從左往右依次是:房屋連結、房屋描述、房屋佈局、房屋大小、所在區、所在區的具體區

Django實戰: Python爬蟲上海二手房資訊,存入資料庫並在前端顯示

好久沒寫Django實戰教程了,小編我今天就帶你把它與Python爬蟲結合做出個有趣的東西吧。我們將開發這樣一個應用,前端使用者可以根據行政區劃,房廳數和價格區間選擇需要爬取的二手房房源資訊,後臺Python開始爬取資料。爬取資料完成後,通過Django將爬來的資料存入資料庫

利用高德API + Python爬租房資訊 01

看了實驗樓的專案發現五八同城爬取還是有點難度所以轉戰鏈家 實驗程式碼如下 from bs4 import BeautifulSoup from urllib.request import urlopen import csv url = 'https://gz.lia

python爬蟲二手房資訊

一種有想做個爬蟲的想法,正好上個月有足夠的時間和精力就學了下scrapy,一個python開源爬蟲框架。好多事開始以為很難,但真正下定決心去做的時候,才發現非常簡單,scrapy我從0基礎到寫出第一個可用的爬蟲只用了兩天時間,從官網例項到我的demo,真是遇到一堆問題,通

爬蟲二手房資訊,對二手房做分析

import numpy as np import pandas as pd import matplotlib.pyplot as plt from bs4 import BeautifulSoup import requests def genera

租房資訊(萬級資料的簡單實現)

這不是一個很難的專案,沒有ajax請求,也沒有用框架,只是一個requests請求和BeautifulSoup的解析 不過,看這段程式碼你會發現,BeautifulSoup不止只有find和fing_all用於元素定位,還有fing_next等其他的更簡單的,

Python爬蟲三:已成交二手房資訊(58W資料)

環境:Windows7+python3.6+Pycharm2017 目標:抓取鏈家北京地區已成交二手房資訊(無需登入),如下圖,戶型、朝向、成交時間價格等,儲存到csv。最後一共抓取約58W資料,程式執行8h。 --------全部文章: 京東爬蟲 、鏈家爬蟲、美團爬蟲、

scrapy的簡單應用-資料

最近使用scrapy 抓取一批資料,就拿鏈家實驗一下吧 環境準備 pip install scrapy 基本命令 建立專案 scrapy startproject myproject 執行某個專案 scrapy crawl myspider 如何

python3 爬蟲豆掰電影TOP 250

個人喜歡看電影,就去爬豆瓣上的電影Top榜,python入門不久,順便學習練下 from urllib import request from bs4 import BeautifulSoup #Beautiful Soup是一個可以從HTML或XML檔案中提取結構化

Python3爬蟲《曾經我也想過一了百了》熱評-因為像你這樣的人生於這世上,我稍稍喜歡這個世界了。

作為初學者,懷著緊張的心情來分享我的第一個爬蟲小程式。看到很多網易雲音樂熱評的爬蟲,我也來試試。我這次要爬取的是《曾經我也想過一了百了》中島美嘉的這首歌。 首先進行抓包分析 首先用瀏覽器開啟網易雲音樂的網頁版,進入歌曲頁面,可以看到下面有評論。接著 F12

Python的scrapy之爬網房價資訊並儲存到本地

因為有在北京租房的打算,於是上網瀏覽了一下鏈家網站的房價,想將他們爬取下來,並儲存到本地。 先看鏈家網的原始碼。。房價資訊 都儲存在 ul 下的li 裡面 ​   爬蟲結構: ​ 其中封裝了一個數據庫處理模組,還有一個user-agent池。。   先看mylian

Python爬蟲 大資料崗位招聘資訊(51job為例)

簡單介紹一下爬蟲原理。並給出 51job網站完整的爬蟲方案。 爬蟲基礎知識 資料來源 網路爬蟲的資料一般都來自伺服器的響應結果,通常有html和json資料等,這兩種資料也是網路爬蟲的主要資料來源。 其中html資料是網頁的原始碼,通過瀏覽器-檢視原始碼可

入門級爬蟲 豆瓣top250 的電影資訊

import requests import lxml.html from bs4 import BeautifulSoup import re import bs4 from pymongo impo

一、如何爬網頁房源資訊

由於個人安裝的Python版本是2.7的,因此此後的相關程式碼也是該版本。 爬取網頁所有資訊 利用urllib2包來抓取網頁的資訊,先介紹下urllib2包的urlopen函式。 urlopen:將網頁所有資訊存到一個object裡,我們可通過讀取這個o

用 Scrapy 的樓盤資訊

最近想爬點東西,又不想造輪子,就用上了scrapy,順便記錄下自己踩過的坑和都做了些什麼。 使用的軟體版本: ipython 5.1.x scrapy 1.4 準備階段(在動手寫之前,一定要先觀察好標籤位置!): 這裡使用Firefox的外掛firebug對進行頁面

Python爬蟲攜程網機票資訊併發郵件通知

背景: 由於要買機票,所以一直進行搜尋,爬蟲可以幫我解決這個問題; 解釋的超級詳細。 於是通過這一過程,基本瞭解了一些; 查詢 上海 到 西安 4.29~05.02的機票: #coding:utf-8 import urllib2 from

python3 爬蟲智聯招聘崗位資訊

這套程式基於python3 ,使用requests和re正則表示式,只需要將程式儲存為.py檔案後,即可將抓取到的資料儲存到指定路徑的Excel檔案中。程式在終端中啟動,啟動命令: #python3 檔名.py 關鍵字 城市 python3 zhilian.p

Python爬租房資訊

爬去鏈家網的租房資訊然後儲存到資料庫中。 #-*- coding:utf-8 -*- import requests import re import random import MySQLdb from bs4 import BeautifulSoup class h

初識Scrapy框架+爬蟲實戰(7)-爬網100頁租房資訊

Scrapy簡介 Scrapy,Python開發的一個快速、高層次的螢幕抓取和web抓取框架,用於抓取web站點並從頁面中提取結構化的資料。Scrapy用途廣泛,可以用於資料探勘、監測和自動化測試。Scrapy吸引人的地方在於它是一個框架,任何人都可以根

深圳租房信息爬練習 附加源碼

list enc dom \n referer brush csv文件 writer nec from urllib import request from time import sleep from lxml import etree import csv # i