利用BeautifulSoup和Xpath爬取趕集網北京二手房房價資訊

阿新 • • 發佈：2018-12-30

利用BeautifulSoup和Xpath爬取趕集網北京二手房房價資訊

文章開始把我喜歡的這句話送個大家：這個世界上還有什麼比自己寫的程式碼執行在一億人的電腦上更酷的事情嗎，如果有那就是讓這個數字再擴大十倍！

1.BeautifulSoup實現

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
Created on Fri Oct 12 17:41:06 2018
Beautiful Soup爬取
@author: Macbook
"""

import requests
import re
from requests.exceptions import RequestException
from bs4 import BeautifulSoup
import csv
import time

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}

def get_one_page(url):
    try:
        response = requests.get(url,headers = headers)
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        return None

def parse_one_page(content):
    try:
        soup = BeautifulSoup(content,'html.parser')
        items = soup.find('div',class_=re.compile('js-tips-list'))
        for div in items.find_all('div',class_=re.compile('ershoufang-list')):
            yield {
                'Name':div.find('a',class_=re.compile('js-title')).text,
                'Type': div.find('dd', class_=re.compile('size')).contents[1].text,#tag的 .contents 屬性可以將tag的子節點以列表的方式輸出
                'Area':div.find('dd',class_=re.compile('size')).contents[5].text,
                'Towards':div.find('dd',class_=re.compile('size')).contents[9].text,
                'Floor':div.find('dd',class_=re.compile('size')).contents[13].text.replace('\n',''),
                'Decorate':div.find('dd',class_=re.compile('size')).contents[17].text,
                'Address':div.find('span',class_=re.compile('area')).text.strip().replace(' ','').replace('\n',''),
                'TotalPrice':div.find('span',class_=re.compile('js-price')).text+div.find('span',class_=re.compile('yue')).text,
                'Price':div.find('div',class_=re.compile('time')).text
            }
        #有一些二手房資訊缺少部分資訊，如：缺少裝修資訊，或者缺少樓層資訊，這時候需要加個判斷，不然爬取就會中斷。
        if div['Name', 'Type', 'Area', 'Towards', 'Floor', 'Decorate', 'Address', 'TotalPrice', 'Price'] == None:
                return None
    except Exception:
        return None

def main():
    for i in range(1,500):
        url = 'http://bj.ganji.com/fang5/o{}/'.format(i)
        content = get_one_page(url)
        print('第{}頁抓取完畢'.format(i))
        for div in parse_one_page(content):
            print(div)
        with open('Data.csv', 'a',encoding='gbk',newline='') as f:  # Data.csv 檔案儲存的路徑,如果預設路徑就直接寫檔名即可。
            fieldnames = ['Name', 'Type', 'Area', 'Towards', 'Floor', 'Decorate', 'Address', 'TotalPrice', 'Price']
            writer = csv.DictWriter(f, fieldnames=fieldnames)
            writer.writeheader()
            for item in parse_one_page(content):
                writer.writerow(item)#.encode('utf-8', 'ignore')
        time.sleep(2)#設定爬取頻率，爬取的太快，導致網頁需要驗證。

if __name__=='__main__':
    main()

2.xpath實現

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
Created on Fri Oct 12 15:37:50 2018
爬取趕集網北京二手房資料
主要練習應用Xpath判斷某些元素是否存在，以防某些元素不存在導致爬取中斷
@author: Macbook
"""
import requests
from lxml import etree
from requests.exceptions import RequestException
import multiprocessing
import time

headers = {
           'User-Agent':'Mozilla/5.0(Windows NT 10.0;WOW64) AppleWebKit/537.36(KHTML,like Gecko) Chrome/55.0.2883.87 Safari/537.36'}

def get_one_page(url):
        try:
                response = requests.get(url,headers=headers)
                if response.status_code == 200:
                        return response.text
                return None
        except RequestException:
                return None
        
def parse_one_page(content):
        try:
                selector = etree.HTML(content)
                ALL = selector.xpath('//*[@id="f_mew_list"]/div[6]/div[1]/div[3]/div[1]/div')
                for div in ALL:
                        yield{
                                        'Name': div.xpath('dl/dd[1]/a/text()')[0],
                                        'Type': div.xpath('dl/dd[2]/span[1]/text()')[0],
                                        'Area': div.xpath('dl/dd[2]/span[3]/text()')[0],
                                        'Towards': div.xpath('dl/dd[2]/span[5]/text()')[0],
                                        'Floor': div.xpath('dl/dd[2]/span[7]/text()')[0].strip().replace('\n', ""),
                                        'Decorate': div.xpath('dl/dd[2]/span[9]/text()')[0],
                                        #地址需要特殊處理一下
                                        'Address': div.xpath('dl/dd[3]//text()')[1]+div.xpath('dl/dd[3]//text()')[3].replace('\n','')+div.xpath('dl/dd[3]//text()')[4].strip(),
                                        'TotalPrice': div.xpath('dl/dd[5]/div[1]/span[1]/text()')[0] + div.xpath('dl/dd[5]/div[1]/span[2]/text()')[0],
                                        'Price': div.xpath('dl/dd[5]/div[2]/text()')[0]
                                }
                if div['Name','Type','Area','Towards','Floor','Decorate','Address','TotalPrice','Price'] == None:##這裡加上判斷，如果有一個為空輸出null
                        return None
        except Exception:
                return None
        
def main():
        for i in range(1,500):#爬500頁
                url = "http://bj.ganji/com/fang5/o{}/".format(i)
                content = get_one_page(url)
                print('第{}頁抓取完畢'.format(i))
                for div in parse_one_page(content):
                        print(div)
                        
if __name__ == '__main__':
        main()

加油吧，程式設計師！

利用BeautifulSoup和Xpath爬取趕集網北京二手房房價資訊

利用BeautifulSoup和Xpath爬取趕集網北京二手房房價資訊文章開始把我喜歡的這句話送個大家：這個世界上還有什麼比自己寫的程式碼執行在一億人的電腦上更酷的事情嗎，如果有那就是讓這個數字再擴大十倍！ 1.BeautifulSoup實現 #!/usr/

使用Java及jsoup爬取鏈家北京二手房房價資料

由於是初次使用Java寫爬蟲，所以程式碼有些繁瑣，請大家見諒，並能給與指正首先分析鏈家北京二手房頁面，使用360瀏覽器的審查元素功能，檢視原始碼，獲取查詢標籤如圖一級查詢所示，此圖標籤所獲取的是鏈家北京二手房頁面下的一級地區地址由於具體獲取有些複雜，故列大致步驟如下主頁——》

利用xpath爬取招聘網的招聘資訊

爬取招聘網的招聘資訊： import json import random import time import pymongo import re import pandas as pd import requests from lxml import etree impor

Python爬蟲——4.4爬蟲案例——requests和xpath爬取招聘網站資訊

# -*-coding:utf-8 -*- ''' 使用requests模組進行資料採集，XPath進行資料篩選''' import requests from lxml import etree #

Java爬蟲--利用HttpClient和Jsoup爬取部落格資料並存入資料庫

由於今日頭條等頭條類產品的出現，以今日頭條為代表所使用的爬蟲技術正在逐漸火熱，在爬蟲領域具有良好效能和較好效果的Python在最近一年的時間裡逐漸火熱起來，同時因為Python良好的資料分析和機器學習的能力，Python的應用越來越廣泛。不過，今天我們要提到

Reptile：requests + Xpath 爬取段子網的段子

三種 word 可能 art nbsp quest odi 當前 del 2019/1/24 中午路飛學成爬蟲課程實驗及筆記。 Xpath是路飛爬蟲課程中老師說的三種解析方式之一，前面是re正則表達式的解析方式，現在是xpath的解析方式，後面還有一個是bs4的解析方式

使用requests和xpath爬取貓眼TOP100電影

技術路線:requests-xpath - 使用 requests 獲取網頁內容使用 try...except 獲取網頁內容 - 使用 xpath 解析網頁對主要資訊使用 xpath 進行提取 - 翻頁及反爬處理貓眼的翻頁處理是 url 處進行翻頁的 ht

Python2 Python3 爬取趕集網租房資訊,帶原始碼分析

*之前偶然看了某個騰訊公開課的視訊,寫的爬取趕集網的租房資訊,這幾天突然想起來,於是自己分析了一下趕集網的資訊,然後自己寫了一遍,寫完又用用Python3重寫了一遍.之中也遇見了少許的坑.記一下.算是一

[Python爬蟲]爬蟲例項:線上爬取噹噹網暢銷書Top500的圖書資訊

本例項還有另外的離線爬蟲實現,有興趣可點選離線爬取噹噹網暢銷書Top500的圖書資訊爬蟲說明 1.使用requests和Lxml庫爬取,(用BS4也很簡單,這裡是為了練習Xpath的語法) 2.爬蟲分類為兩種,一種是離線爬蟲,即先將所爬取的網頁儲存到本地,再從本

[Python爬蟲]爬蟲例項:離線爬取噹噹網暢銷書Top500的圖書資訊

本例項還有另外的線上爬蟲實現,有興趣可點選線上爬取噹噹網暢銷書Top500的圖書資訊爬蟲說明 1.使用requests和Lxml庫爬取,(用BS4也很簡單,這裡是為了練習Xpath的語法) 2.爬蟲分類為兩種,一種是線上爬蟲,即在網站中一邊開啟網頁一邊進行爬取;第

爬蟲，爬取鏈家網北京二手房資訊

# 鏈家網二手房資訊爬取 import re import time import requests import pandas as pd from bs4 import BeautifulSoup url = 'http://bj.lianjia.com/ershouf

python爬蟲——爬取知網體育學刊引證論文資訊

前言國慶百無聊賴，然後幫一個小姐姐爬取知網資訊，覺得知網算目前處理過的對爬蟲稍微有點防範的網站，遂有了這篇部落格目標爬取知網上2003年體育學刊文獻所有論文的引證論文，包括論文名稱、作者、發表時間，也就是下面紅框所指處點選click處，點選黑框，紅框所

python+scrapy 爬取成都鏈家二手房和成交資訊

爬蟲設計方案爬取目標成都鏈家的二手房和成交資料。由於web版看不到最新的成交金額資料，因此需要用手機版的資料。成交資料應該去重，可以做成每天增量爬取。需要做成每天爬取一次，定時執行參考文章技術方案使用Scrapy框架，

43.scrapy爬取鏈家網站二手房信息-1

response ons tro 問題 import xtra dom nts class 首先分析：目的：采集鏈家網站二手房數據1.先分析一下二手房主界面信息，顯示情況如下：url = https://gz.lianjia.com/ershoufang/pg1/顯示

43.scrapy爬取鏈家網站二手房資訊-1

首先分析：目的：採集鏈家網站二手房資料1.先分析一下二手房主介面資訊，顯示情況如下：url = https://gz.lianjia.com/ershoufang/pg1/顯示總資料量為27589套，但是頁面只給返回100頁的資料，每頁30條資料，也就是隻給返回3000條資料。

44.scrapy爬取鏈家網站二手房資訊-2

全面採集二手房資料：網站二手房總資料量為27650條，但有的引數欄位會出現一些問題，因為只給返回100頁資料，具體檢視就需要去細分請求url引數去請求網站資料。我這裡大概的獲取了一下篩選條件引數，一些存在問題也沒做細化處理，大致的採集資料量為21096，實際19794條。看一下執行完成結果： {'d

分享爬取鏈家地圖找房房價資料的小爬蟲

一、說在前面受人所託，爬取鏈家上地圖找房的資料：https://bj.lianjia.com/ditu/。上面有按區域劃分的二手房均價和在售套數，我們的任務就是抓下這些資料。二、開幹 2.1失敗一次老樣子，Chrome 按下F12開啟Chrome DevTo

爬取鏈家杭州二手房3000套

匯入包 import requests import lxml.html import csv 獲取目標網頁Url lianjiaUrl='https://hz.lianjia.com/ershoufang/pg{}/' 解析Url def g

Django實戰: Python爬蟲爬取鏈家上海二手房資訊，存入資料庫並在前端顯示

好久沒寫Django實戰教程了，小編我今天就帶你把它與Python爬蟲結合做出個有趣的東西吧。我們將開發這樣一個應用，前端使用者可以根據行政區劃，房廳數和價格區間選擇需要爬取的二手房房源資訊，後臺Python開始爬取資料。爬取資料完成後，通過Django將爬來的資料存入資料庫

scrapy爬取58同城二手房問題與對策

failure 初始 sin 失敗 handler a10 name lba rom 測試環境： win10，單機爬取，scrapy1.5.0，python3.6.4，mongodb，Robo 3T 其他準備：代理池：測試環境就沒有用搭建的flask抓代理，因為我找

利用BeautifulSoup和Xpath爬取趕集網北京二手房房價資訊

利用BeautifulSoup和Xpath爬取趕集網北京二手房房價資訊

文章開始把我喜歡的這句話送個大家：這個世界上還有什麼比自己寫的程式碼執行在一億人的電腦上更酷的事情嗎，如果有那就是讓這個數字再擴大十倍！

相關推薦