Python爬蟲專案--爬取自如網房源資訊

阿新 • • 發佈：2019-02-16

本次爬取自如網房源資訊所用到的知識點:

1. requests get請求

2. lxml解析html

3. Xpath

4. MongoDB儲存

正文

1.分析目標站點

1. url: http://hz.ziroom.com/z/nl/z3.html?p=2 的p引數控制分頁

2. get請求

2.獲取單頁原始碼

# -*- coding: utf-8 -*-
import requests
import time
from requests.exceptions import RequestException
def get_one_page(page):
    try:
        url = "http://hz.ziroom.com/z/nl/z2.html?p=" + str(page)
        headers = {
            'Referer':'http://hz.ziroom.com/',
            'Upgrade-Insecure-Requests':'1',
            'User-Agent':'Mozilla/5.0(WindowsNT6.3;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/68.0.3440.106Safari/537.36'
        }
        res = requests.get(url,headers=headers)
        if res.status_code == 200:
            print(res.text)
    except RequestException:
        return None
def main():
    page = 1
    get_one_page(page)
if __name__ == '__main__':
    main()
    time.sleep(1)

3.解析單頁原始碼

1. 解析html文件, 目的: 測試XPath表示式

將獲取的原始碼儲存到當前資料夾下的"result.html"中, 然後通過XPath對其進行相應內容的提取, 當然你也可以使用某些線上工具.

from lxml import etree
#解析html文件
html = etree.parse("./resul.html",etree.HTMLParser())
results = html.xpath('//ul[@id="houseList"]/li')
for result in results[1:]:
    title = result.xpath("./div/h3/a/text()")[0][5:] if len(result.xpath("./div/h3/a/text()")[0]) >5 else ""
    location = result.xpath("./div/h4/a/text()")[0].replace("[","").replace("]",'')
    area = " ".join(result.xpath("./div/div/p[1]/span/text()")).replace(" ","",1) #使用join方法將列表中的內容以" "字元連線
    nearby = result.xpath("./div/div/p[2]/span/text()")[0]
    print(title)
    print(location)
    print(area)
    print(nearby)

2. 解析原始碼

from lxml import etree
def parse_one_page(sourcehtml):
    '''解析單頁原始碼'''
    contentTree = etree.HTML(sourcehtml)   #解析原始碼
    results = contentTree.xpath('//ul[@id="houseList"]/li') #利用XPath提取相應內容
    for result in results[1:]:
        title = result.xpath("./div/h3/a/text()")[0][5:] if len(result.xpath("./div/h3/a/text()")[0]) > 5 else ""
        location = result.xpath("./div/h4/a/text()")[0].replace("[", "").replace("]", '')
        area = " ".join(result.xpath("./div/div/p[1]/span/text()")).replace(" ", "", 1)  # 使用join方法將列表中的內容以" "字元連線
        nearby = result.xpath("./div/div/p[2]/span/text()")[0]
        yield {
        "title": title,
        "location": location,
        "area": area,
        "nearby": nearby
        }
def main():
    page = 1
    html = get_one_page(page)
    print(type(html))
    parse_one_page(html)
    for item in parse_one_page(html):
      print(item)

if __name__ == '__main__':
    main()
    time.sleep(1)

4.獲取多個頁面

def parse_one_page(sourcehtml):
    '''解析單頁原始碼'''
    contentTree = etree.HTML(sourcehtml)   #解析原始碼
    results = contentTree.xpath('//ul[@id="houseList"]/li') #利用XPath提取相應內容
    for result in results[1:]:
        title = result.xpath("./div/h3/a/text()")[0][5:] if len(result.xpath("./div/h3/a/text()")[0]) > 5 else ""
        location = result.xpath("./div/h4/a/text()")[0].replace("[", "").replace("]", '')
        area = " ".join(result.xpath("./div/div/p[1]/span/text()")).replace(" ", "", 1)  # 使用join方法將列表中的內容以" "字元連線
        #nearby = result.xpath("./div/div/p[2]/span/text()")[0].strip()這裡需要加判斷, 改寫為下句
        nearby = result.xpath("./div/div/p[2]/span/text()")[0].strip() if len(result.xpath("./div/div/p[2]/span/text()"))>0 else ""
        yield {
        "title": title,
        "location": location,
        "area": area,
        "nearby": nearby
        }
        print(nearby)
    #yield {"pages":pages}
def get_pages():
    """得到總頁數"""
    page = 1
    html = get_one_page(page)
    contentTree = etree.HTML(html)
    pages = int(contentTree.xpath('//div[@class="pages"]/span[2]/text()')[0].strip("共頁"))
    return pages
def main():
    pages = get_pages()
    print(pages)
    for page in range(1,pages+1):
        html = get_one_page(page)
        for item in parse_one_page(html):
            print(item)

if __name__ == '__main__':
    main()
    time.sleep(1)

5. 儲存到MongoDB中

需確保MongoDB已啟動服務, 否則必然會儲存失敗

def save_to_mongodb(result):
    """儲存到MongoDB中"""
    # 建立資料庫連線物件, 即連線到本地
    client = pymongo.MongoClient(host="localhost")
    # 指定資料庫,這裡指定ziroom
    db = client.iroomz
    # 指定表的名稱, 這裡指定roominfo
    db_table = db.roominfo
    try:
        #儲存到資料庫
        if db_table.insert(result):
            print("---儲存到資料庫成功---",result)
    except Exception:
        print("---儲存到資料庫失敗---",result)

6.完整程式碼

# -*- coding: utf-8 -*-
'''
有需要Python學習資料的小夥伴嗎?小編整理一套Python資料和PDF，感興趣者可以加學習群：548377875，反正閒著也是閒著呢，不如學點東西啦~~
'''
import requests
import time
import pymongo
from lxml import etree
from requests.exceptions import RequestException
def get_one_page(page):
    '''獲取單頁原始碼'''
    try:
        url = "http://hz.ziroom.com/z/nl/z2.html?p=" + str(page)
        headers = {
            'Referer':'http://hz.ziroom.com/',
            'Upgrade-Insecure-Requests':'1',
            'User-Agent':'Mozilla/5.0(WindowsNT6.3;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/68.0.3440.106Safari/537.36'
        }
        res = requests.get(url,headers=headers)
        if res.status_code == 200:
            return res.text
        return None
    except RequestException:
        return None
def parse_one_page(sourcehtml):
    '''解析單頁原始碼'''
    contentTree = etree.HTML(sourcehtml)   #解析原始碼
    results = contentTree.xpath('//ul[@id="houseList"]/li') #利用XPath提取相應內容
    for result in results[1:]:
        title = result.xpath("./div/h3/a/text()")[0][5:] if len(result.xpath("./div/h3/a/text()")[0]) > 5 else ""
        location = result.xpath("./div/h4/a/text()")[0].replace("[", "").replace("]", '')
        area = " ".join(result.xpath("./div/div/p[1]/span/text()")).replace(" ", "", 1)  # 使用join方法將列表中的內容以" "字元連線
        #nearby = result.xpath("./div/div/p[2]/span/text()")[0].strip()這裡需要加判斷, 改寫為下句
        nearby = result.xpath("./div/div/p[2]/span/text()")[0].strip() if len(result.xpath("./div/div/p[2]/span/text()"))>0 else ""
        data = {
        "title": title,
        "location": location,
        "area": area,
        "nearby": nearby
        }
        save_to_mongodb(data)
    #yield {"pages":pages}
def get_pages():
    """得到總頁數"""
    page = 1
    html = get_one_page(page)
    contentTree = etree.HTML(html)
    pages = int(contentTree.xpath('//div[@class="pages"]/span[2]/text()')[0].strip("共頁"))
    return pages
def save_to_mongodb(result):
    """儲存到MongoDB中"""
    # 建立資料庫連線物件, 即連線到本地
    client = pymongo.MongoClient(host="localhost")
    # 指定資料庫,這裡指定ziroom
    db = client.iroomz
    # 指定表的名稱, 這裡指定roominfo
    db_table = db.roominfo
    try:
        #儲存到資料庫
        if db_table.insert(result):
            print("---儲存到資料庫成功---",result)
    except Exception:
        print("---儲存到資料庫失敗---",result)

def main():
    pages = get_pages()
    print(pages)
    for page in range(1,pages+1):
        html = get_one_page(page)
        parse_one_page(html)

if __name__ == '__main__':
    main()
    time.sleep(1)

7.最終結果

總結

1. 在第三步中XPath使用注意事項

title = result.xpath("./div/h3/a/text()")
此處的點'.'不能忘記, 它表示當前節點, 如果不加'.', '/'就表示從根節點開始選取

2. 在第四步獲取多個頁面時出現索引超出範圍錯誤

nearby = result.xpath("./div/div/p[2]/span/text()")[0].strip()

IndexError: list index out of range

造成這種錯誤原因有兩種:

1) [index] index超出list範圍

2) [index] index索引內容為空

因為這裡的nearby的index是0, 排除第一種情況, 那麼這裡就是空行了, 加句if判斷就可以解決

nearby = result.xpath("./div/div/p[2]/span/text()")[0].strip()
#改寫以後:
nearby = result.xpath("./div/div/p[2]/span/text()")[0].strip() if len(result.xpath("./div/div/p[2]/span/text()"))>0 else ""

以上主要是對爬蟲過程學習的總結, 若有不對的地方, 還請指正, 謝謝!

Python爬蟲專案--爬取自如網房源資訊

本次爬取自如網房源資訊所用到的知識點: 1. requests get請求 2. lxml解析html 3. Xpath 4. MongoDB儲存正文 1.分析目標站點 1. url: http://hz.ziroom.com/z/nl/z3.html?p=2

Python爬蟲專案--爬取某寶男裝資訊

本次爬取用到的知識點有: 1. selenium 2. pymysql 3 pyquery 正文 1. 分析目標網站 1. 開啟某寶首頁, 輸入"男裝"後點擊"搜尋", 則跳轉到"男裝"的搜尋介面. 2. 空白處"右擊"再點選"檢查"審查網頁元素, 點選"Network". 1) 找到對應的URL, URL

Python爬蟲項目--爬取自如網房源信息

xml解析 quest chrom 當前 b2b cal 源代碼 headers 判斷本次爬取自如網房源信息所用到的知識點: 1. requests get請求 2. lxml解析html 3. Xpath 4. MongoDB存儲正文 1.分析目標站點 1. url:

Python爬蟲專案--爬取鏈家熱門城市新房

本次實戰是利用爬蟲爬取鏈家的新房(宣告: 內容僅用於學習交流, 請勿用作商業用途) 環境 win8, python 3.7, pycharm 正文 1. 目標網站分析通過分析, 找出相關url, 確定請求方式, 是否存在js加密等. 2. 新建scrapy專案 1. 在cmd命令列視窗中輸入以

python爬蟲（爬取蜂鳥網高畫素圖片）_空網頁,錯誤處理

__author__ = 'AllenMinD' import requests,urllib,os from bs4 import BeautifulSoup ans = 1 #counting

(轉)python爬蟲例項——爬取智聯招聘資訊

受友人所託，寫了一個爬取智聯招聘資訊的爬蟲，與大家分享。本文將介紹如何實現該爬蟲。目錄網頁分析網頁的組織結構如下：將網頁程式碼儲存為html檔案（檔案見

python爬蟲例項——爬取智聯招聘資訊

受友人所託，寫了一個爬取智聯招聘資訊的爬蟲，與大家分享。本文將介紹如何實現該爬蟲。目錄網頁分析網頁的組織結構如下：將網頁程式碼儲存為html檔案（檔案見最後連結），使用的軟體是Sublime Text，我們所需的內容如下圖所示：

python爬蟲——抓取自如網房源,匯出為csv

1.抓取自如網房源，其實為了後面一個小專案做資料採集工作 2.為什麼選擇自如，是因為我做租房的同學說，自如網的房源質量比較高 3.因為博主是暫居深圳，就先以深圳市的房源為示例 base_url = "http://sz.ziroom.com/z/nl/

Python爬蟲之爬取煎蛋網妹子圖

創建目錄 req add 註意 not 相同 esp mpi python3 這篇文章通過簡單的Python爬蟲（未使用框架，僅供娛樂）獲取並下載煎蛋網妹子圖指定頁面或全部圖片，並將圖片下載到磁盤。首先導入模塊：urllib.request、re、os import

Python爬蟲：爬取拉勾網資料分析崗位資料

1 JSON介紹 JSON（JavaScript Object Notation）已經成為通過HTTP請求在Web瀏覽器和其他應用程式之間傳送資料的標準格式之一。比CSV格式更加靈活。Json資料格式，非常接近於有效的Pyhton程式碼，其特點是：JSON物件所

Python 爬蟲入門-爬取拉勾網實戰

這幾天學習了 python 爬蟲的入門知識，也遇到很多坑，開個貼記錄一下基本原理 Python 爬蟲基本要具備以下功能：（參考此回答）向伺服器傳送請求，伺服器響應你的請求。（你可能需要了解：網頁的基本知識）從抓取到的網頁中提取出需要

Python實現人人網爬蟲，爬取使用者所有狀態資訊。

之前沒有怎麼用過python，也沒寫過爬蟲，最近幾天抽空學習了一下，寫了個人人網的爬蟲練了練手。用了BeautifulSoup4包來解析HTML標籤，Beautiful Soup 是用 Python 寫的一個 HTML/XML 的解析器，它可以很好的處理不

Python 爬蟲第三步 -- 多執行緒爬蟲爬取噹噹網書籍資訊

XPath 的安裝以及使用 1 . XPath 的介紹剛學過正則表示式，用的正順手，現在就把正則表示式替換掉，使用 XPath，有人表示這太坑爹了，早知道剛上來就學習 XPath 多省事啊。其實我個人認為學習一下正則表示式是大有益處的，之所以換成 XPa

python爬蟲：爬取網站視頻

爬蟲 python python爬取百思不得姐網站視頻：http://www.budejie.com/video/新建一個py文件，代碼如下：#!/usr/bin/python # -*- coding: UTF-8 -*- import urllib,re,requests import sys

團隊-張文然-需求分析-python爬蟲分類爬取豆瓣電影信息

工具新的翻頁需求使用 html 頁面應該一個首先要明白爬網頁實際上就是：找到包含我們需要的信息的網址（URL）列表通過 HTTP 協議把頁面下載回來從頁面的 HTML 中解析出需要的信息找到更多這個的 URL，回到 2 繼續其次還要明白：一個好的列表應該：包含

最最簡單的python爬蟲教程--爬取百度百科案例

python爬蟲；人工智能from bs4 import BeautifulSoupfrom urllib.request import urlopenimport reimport randombase_url = "https://baike.baidu.com"#導入相關的包 his

Python爬蟲入門 | 爬取豆瓣電影信息

Python 編程語言 web開發這是一個適用於小白的Python爬蟲免費教學課程，只有7節，讓零基礎的你初步了解爬蟲，跟著課程內容能自己爬取資源。看著文章，打開電腦動手實踐，平均45分鐘就能學完一節，如果你願意，今天內你就可以邁入爬蟲的大門啦~好啦，正式開始我們的第二節課《爬取豆瓣電影信息》吧！啦啦哩啦啦，

Python 爬蟲 ajax爬取馬雲爸爸微博內容

item ber ODB ont 分享 cache cti book 生成 ajax爬取情況有時候我們在用 Requests 抓取頁面的時候，得到的結果可能和在瀏覽器中看到的是不一樣的，在瀏覽器中可以看到正常顯示的頁面數據，但是使用 Requests 得到的結果並沒有，

我的第一個python爬蟲：爬取豆瓣top250前100部電影

爬取豆瓣top250前100部電影 1 # -*-coding=UTF-8 -*- 2 3 import requests 4 from bs4 import BeautifulSoup 5 6 headers = {'User-Agent':'Moz

python3 學習 3：python爬蟲之爬取動態載入的圖片，以百度圖片為例

轉： https://blog.csdn.net/qq_32166627/article/details/60882964 前言：前面我們爬取圖片的網站都是靜態的，在頁面中右鍵檢視原始碼就能看到網頁中圖片的位置。這樣我們用requests庫得到頁面原始碼後，再用bs4庫解析標籤即可儲存圖片

Python爬蟲專案--爬取自如網房源資訊

正文

1.分析目標站點

2.獲取單頁原始碼

3.解析單頁原始碼

4.獲取多個頁面

5. 儲存到MongoDB中

6.完整程式碼

7.最終結果

總結

相關推薦