python3爬蟲抓取鏈家上海租房資訊

阿新 • • 發佈：2019-01-19

環境：win10，anaconda3（python3.5）

方法一：利用requests獲取網頁資訊，再利用正則提取資料，並將結果儲存到csv檔案。

程式碼地址：程式碼

抓取到的資料如下所示：

從左往右依次是：房屋連結、房屋描述、房屋佈局、房屋大小、所在區、所在區的具體區域、房屋樓層數、交通訊息、看房時間、房租（/月）、上架時間以及當前有多少人看過該房屋。

方法二：利用requests獲取網頁資訊，再用BeautifulSoup解析資料，並用MongoDB儲存結果。

主要爬取的資料有：房屋連結、房屋描述、小區、戶型、面積，所在區域、房租、交通訊息、多少人看過等。

鏈家只提供100頁資料，所以只爬取這100頁資料。

審查元素髮現每個li標籤就是一個房源

而在每個li標籤中，房屋資訊全在class=info-panel中，所以class=info-panel中的資料即為我們需要抓取的資料塊。

用BeautifulSoup解析資料，

soup = BeautifulSoup(html, 'lxml')
for item in soup.select('.info-panel'):

一個個裝載資料即可

houseUrl = item.find("h2").a["href"]
title = item.find("h2").a["title"]

。。。。

然後將抓取好的資料，存入資料庫。

先為每個item生成一個連結串列：

yield {
'_id': id,
'houseUrl': houseUrl,
'houseDescription': title,
'xiaoqu': xiaoqu,
'huxing': huxing,
'mianji': mianji,
'area': area,
'sub_area': sub_area,
'traffic': subway,
'price': price,
'data': data,
'watchedPersons': watched
}

client = pymongo.MongoClient('mongodb://localhost:27017')
db_name = 'lianjia_zufang_shanghai'
db = client[db_name]
collection_set01 = db['set01']

再依次將資料存入資料庫中

for item, index in parse_one_page(html, index):
collection_set01.save(item)

儲存到資料庫中的資料如下：

完整程式碼：程式碼

總之就是寫好自己的model類，所有資料一股腦搗鼓進去，然後save。

只是個爬蟲小程式，程式碼寫得比較簡單，只是能跑起來而已。

python3爬蟲抓取鏈家上海租房資訊

環境：win10，anaconda3（python3.5）方法一：利用requests獲取網頁資訊，再利用正則提取資料，並將結果儲存到csv檔案。程式碼地址：程式碼抓取到的資料如下所示：從左往右依次是：房屋連結、房屋描述、房屋佈局、房屋大小、所在區、所在區的具體區

Django實戰: Python爬蟲爬取鏈家上海二手房資訊，存入資料庫並在前端顯示

好久沒寫Django實戰教程了，小編我今天就帶你把它與Python爬蟲結合做出個有趣的東西吧。我們將開發這樣一個應用，前端使用者可以根據行政區劃，房廳數和價格區間選擇需要爬取的二手房房源資訊，後臺Python開始爬取資料。爬取資料完成後，通過Django將爬來的資料存入資料庫

利用高德API + Python爬取鏈家網租房資訊 01

看了實驗樓的專案發現五八同城爬取還是有點難度所以轉戰鏈家實驗程式碼如下 from bs4 import BeautifulSoup from urllib.request import urlopen import csv url = 'https://gz.lia

python爬蟲爬取鏈家二手房資訊

一種有想做個爬蟲的想法，正好上個月有足夠的時間和精力就學了下scrapy，一個python開源爬蟲框架。好多事開始以為很難，但真正下定決心去做的時候，才發現非常簡單，scrapy我從0基礎到寫出第一個可用的爬蟲只用了兩天時間，從官網例項到我的demo，真是遇到一堆問題，通

爬蟲爬取鏈家二手房資訊，對二手房做分析

import numpy as np import pandas as pd import matplotlib.pyplot as plt from bs4 import BeautifulSoup import requests def genera

爬取鏈家網租房資訊（萬級資料的簡單實現）

這不是一個很難的專案，沒有ajax請求，也沒有用框架，只是一個requests請求和BeautifulSoup的解析不過，看這段程式碼你會發現，BeautifulSoup不止只有find和fing_all用於元素定位，還有fing_next等其他的更簡單的，

Python爬蟲三：抓取鏈家已成交二手房資訊（58W資料）

環境：Windows7+python3.6+Pycharm2017 目標：抓取鏈家北京地區已成交二手房資訊（無需登入），如下圖，戶型、朝向、成交時間價格等，儲存到csv。最後一共抓取約58W資料，程式執行8h。 --------全部文章：京東爬蟲、鏈家爬蟲、美團爬蟲、

scrapy的簡單應用-抓取鏈家資料

最近使用scrapy 抓取一批資料，就拿鏈家實驗一下吧環境準備 pip install scrapy 基本命令建立專案 scrapy startproject myproject 執行某個專案 scrapy crawl myspider 如何

python3 爬蟲抓取豆掰電影TOP 250

個人喜歡看電影，就去爬豆瓣上的電影Top榜，python入門不久，順便學習練下 from urllib import request from bs4 import BeautifulSoup #Beautiful Soup是一個可以從HTML或XML檔案中提取結構化

Python3爬蟲抓取《曾經我也想過一了百了》熱評-因為像你這樣的人生於這世上，我稍稍喜歡這個世界了。

作為初學者，懷著緊張的心情來分享我的第一個爬蟲小程式。看到很多網易雲音樂熱評的爬蟲，我也來試試。我這次要爬取的是《曾經我也想過一了百了》中島美嘉的這首歌。首先進行抓包分析首先用瀏覽器開啟網易雲音樂的網頁版，進入歌曲頁面，可以看到下面有評論。接著 F12

Python的scrapy之爬取鏈家網房價資訊並儲存到本地

因為有在北京租房的打算，於是上網瀏覽了一下鏈家網站的房價，想將他們爬取下來，並儲存到本地。先看鏈家網的原始碼。。房價資訊都儲存在 ul 下的li 裡面爬蟲結構：其中封裝了一個數據庫處理模組，還有一個user-agent池。。先看mylian

Python爬蟲抓取大資料崗位招聘資訊（51job為例）

簡單介紹一下爬蟲原理。並給出 51job網站完整的爬蟲方案。爬蟲基礎知識資料來源網路爬蟲的資料一般都來自伺服器的響應結果，通常有html和json資料等，這兩種資料也是網路爬蟲的主要資料來源。其中html資料是網頁的原始碼，通過瀏覽器-檢視原始碼可

入門級爬蟲抓取豆瓣top250 的電影資訊

import requests import lxml.html from bs4 import BeautifulSoup import re import bs4 from pymongo impo

一、如何爬取鏈家網頁房源資訊

由於個人安裝的Python版本是2.7的，因此此後的相關程式碼也是該版本。爬取網頁所有資訊利用urllib2包來抓取網頁的資訊，先介紹下urllib2包的urlopen函式。 urlopen：將網頁所有資訊存到一個object裡，我們可通過讀取這個o

用 Scrapy 抓取某家的樓盤資訊

最近想爬點東西，又不想造輪子，就用上了scrapy，順便記錄下自己踩過的坑和都做了些什麼。使用的軟體版本： ipython 5.1.x scrapy 1.4 準備階段（在動手寫之前，一定要先觀察好標籤位置！）：這裡使用Firefox的外掛firebug對進行頁面

Python爬蟲抓取攜程網機票資訊併發郵件通知

背景：由於要買機票，所以一直進行搜尋，爬蟲可以幫我解決這個問題；解釋的超級詳細。於是通過這一過程，基本瞭解了一些；查詢上海到西安 4.29～05.02的機票： #coding:utf-8 import urllib2 from

python3 爬蟲爬取智聯招聘崗位資訊

這套程式基於python3 ，使用requests和re正則表示式，只需要將程式儲存為.py檔案後，即可將抓取到的資料儲存到指定路徑的Excel檔案中。程式在終端中啟動，啟動命令： #python3 檔名.py 關鍵字城市 python3 zhilian.p

Python爬鏈家網租房資訊

爬去鏈家網的租房資訊然後儲存到資料庫中。 #-*- coding:utf-8 -*- import requests import re import random import MySQLdb from bs4 import BeautifulSoup class h

初識Scrapy框架+爬蟲實戰(7)-爬取鏈家網100頁租房資訊

Scrapy簡介 Scrapy，Python開發的一個快速、高層次的螢幕抓取和web抓取框架，用於抓取web站點並從頁面中提取結構化的資料。Scrapy用途廣泛，可以用於資料探勘、監測和自動化測試。Scrapy吸引人的地方在於它是一個框架，任何人都可以根

鏈家深圳租房信息爬取練習附加源碼

list enc dom \n referer brush csv文件 writer nec from urllib import request from time import sleep from lxml import etree import csv # i

python3爬蟲抓取鏈家上海租房資訊

相關推薦