Python爬蟲項目--爬取自如網房源信息

阿新 • • 發佈：2018-09-13

xml解析 quest chrom 當前 b2b cal 源代碼 headers 判斷

本次爬取自如網房源信息所用到的知識點:

1. requests get請求

2. lxml解析html

3. Xpath

4. MongoDB存儲

正文

1.分析目標站點

1. url: http://hz.ziroom.com/z/nl/z3.html?p=2 的p參數控制分頁

2. get請求

2.獲取單頁源碼

 1 # -*- coding: utf-8 -*-
 2 import requests
 3 import time
 4 from requests.exceptions import RequestException
 5 def get_one_page(page):
 6     try 
:
 7         url = "http://hz.ziroom.com/z/nl/z2.html?p=" + str(page)
 8         headers = {
 9             ‘Referer‘:‘http://hz.ziroom.com/‘,
10             ‘Upgrade-Insecure-Requests‘:‘1‘,
11             ‘User-Agent‘:‘Mozilla/5.0(WindowsNT6.3;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/68.0.3440.106Safari/537.36 
‘
12         }
13         res = requests.get(url,headers=headers)
14         if res.status_code == 200:
15             print(res.text)
16     except RequestException:
17         return None
18 def main():
19     page = 1
20     get_one_page(page)
21 if __name__ == ‘__main__‘:
22     main()
23     time.sleep(1)

3.解析單頁源碼

1. 解析html文檔, 目的: 測試XPath表達式

將獲取的源碼保存到當前文件夾下的"result.html"中, 然後通過XPath對其進行相應內容的提取, 當然你也可以使用某些在線工具.

 1 from lxml import etree
 2 #解析html文檔
 3 html = etree.parse("./resul.html",etree.HTMLParser())
 4 results = html.xpath(‘//ul[@id="houseList"]/li‘)
 5 for result in results[1:]:
 6     title = result.xpath("./div/h3/a/text()")[0][5:] if len(result.xpath("./div/h3/a/text()")[0]) >5 else ""
 7     location = result.xpath("./div/h4/a/text()")[0].replace("[","").replace("]",‘‘)
 8     area = " ".join(result.xpath("./div/div/p[1]/span/text()")).replace(" ","",1) #使用join方法將列表中的內容以" "字符連接
 9     nearby = result.xpath("./div/div/p[2]/span/text()")[0]
10     print(title)
11     print(location)
12     print(area)
13     print(nearby)

2. 解析源代碼

 1 from lxml import etree
 2 def parse_one_page(sourcehtml):
 3     ‘‘‘解析單頁源碼‘‘‘
 4     contentTree = etree.HTML(sourcehtml)   #解析源代碼
 5     results = contentTree.xpath(‘//ul[@id="houseList"]/li‘) #利用XPath提取相應內容
 6     for result in results[1:]:
 7         title = result.xpath("./div/h3/a/text()")[0][5:] if len(result.xpath("./div/h3/a/text()")[0]) > 5 else ""
 8         location = result.xpath("./div/h4/a/text()")[0].replace("[", "").replace("]", ‘‘)
 9         area = " ".join(result.xpath("./div/div/p[1]/span/text()")).replace(" ", "", 1)  # 使用join方法將列表中的內容以" "字符連接
10         nearby = result.xpath("./div/div/p[2]/span/text()")[0]
11         yield {
12         "title": title,
13         "location": location,
14         "area": area,
15         "nearby": nearby
16         }
17 def main():
18     page = 1
19     html = get_one_page(page)
20     print(type(html))
21     parse_one_page(html)
22     for item in parse_one_page(html):
23       print(item)
24 
25 if __name__ == ‘__main__‘:
26     main()
27     time.sleep(1)

4.獲取多個頁面

 1 def parse_one_page(sourcehtml):
 2     ‘‘‘解析單頁源碼‘‘‘
 3     contentTree = etree.HTML(sourcehtml)   #解析源代碼
 4     results = contentTree.xpath(‘//ul[@id="houseList"]/li‘) #利用XPath提取相應內容
 5     for result in results[1:]:
 6         title = result.xpath("./div/h3/a/text()")[0][5:] if len(result.xpath("./div/h3/a/text()")[0]) > 5 else ""
 7         location = result.xpath("./div/h4/a/text()")[0].replace("[", "").replace("]", ‘‘)
 8         area = " ".join(result.xpath("./div/div/p[1]/span/text()")).replace(" ", "", 1)  # 使用join方法將列表中的內容以" "字符連接
 9         #nearby = result.xpath("./div/div/p[2]/span/text()")[0].strip()這裏需要加判斷, 改寫為下句
10         nearby = result.xpath("./div/div/p[2]/span/text()")[0].strip() if len(result.xpath("./div/div/p[2]/span/text()"))>0 else ""
11         yield {
12         "title": title,
13         "location": location,
14         "area": area,
15         "nearby": nearby
16         }
17         print(nearby)
18     #yield {"pages":pages}
19 def get_pages():
20     """得到總頁數"""
21     page = 1
22     html = get_one_page(page)
23     contentTree = etree.HTML(html)
24     pages = int(contentTree.xpath(‘//div[@class="pages"]/span[2]/text()‘)[0].strip("共頁"))
25     return pages
26 def main():
27     pages = get_pages()
28     print(pages)
29     for page in range(1,pages+1):
30         html = get_one_page(page)
31         for item in parse_one_page(html):
32             print(item)
33 
34 if __name__ == ‘__main__‘:
35     main()
36     time.sleep(1)

5. 存儲到MongoDB中

需確保MongoDB已啟動服務, 否則必然會存儲失敗

 1 def save_to_mongodb(result):
 2     """存儲到MongoDB中"""
 3     # 創建數據庫連接對象, 即連接到本地
 4     client = pymongo.MongoClient(host="localhost")
 5     # 指定數據庫,這裏指定ziroom
 6     db = client.iroomz
 7     # 指定表的名稱, 這裏指定roominfo
 8     db_table = db.roominfo
 9     try:
10         #存儲到數據庫
11         if db_table.insert(result):
12             print("---存儲到數據庫成功---",result)
13     except Exception:
14         print("---存儲到數據庫失敗---",result)

6.完整代碼

 1 # -*- coding: utf-8 -*-
 2 
 3 import requests
 4 import time
 5 import pymongo
 6 from lxml import etree
 7 from requests.exceptions import RequestException
 8 def get_one_page(page):
 9     ‘‘‘獲取單頁源碼‘‘‘
10     try:
11         url = "http://hz.ziroom.com/z/nl/z2.html?p=" + str(page)
12         headers = {
13             ‘Referer‘:‘http://hz.ziroom.com/‘,
14             ‘Upgrade-Insecure-Requests‘:‘1‘,
15             ‘User-Agent‘:‘Mozilla/5.0(WindowsNT6.3;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/68.0.3440.106Safari/537.36‘
16         }
17         res = requests.get(url,headers=headers)
18         if res.status_code == 200:
19             return res.text
20         return None
21     except RequestException:
22         return None
23 def parse_one_page(sourcehtml):
24     ‘‘‘解析單頁源碼‘‘‘
25     contentTree = etree.HTML(sourcehtml)   #解析源代碼
26     results = contentTree.xpath(‘//ul[@id="houseList"]/li‘) #利用XPath提取相應內容
27     for result in results[1:]:
28         title = result.xpath("./div/h3/a/text()")[0][5:] if len(result.xpath("./div/h3/a/text()")[0]) > 5 else ""
29         location = result.xpath("./div/h4/a/text()")[0].replace("[", "").replace("]", ‘‘)
30         area = " ".join(result.xpath("./div/div/p[1]/span/text()")).replace(" ", "", 1)  # 使用join方法將列表中的內容以" "字符連接
31         #nearby = result.xpath("./div/div/p[2]/span/text()")[0].strip()這裏需要加判斷, 改寫為下句
32         nearby = result.xpath("./div/div/p[2]/span/text()")[0].strip() if len(result.xpath("./div/div/p[2]/span/text()"))>0 else ""
33         data = {
34         "title": title,
35         "location": location,
36         "area": area,
37         "nearby": nearby
38         }
39         save_to_mongodb(data)
40     #yield {"pages":pages}
41 def get_pages():
42     """得到總頁數"""
43     page = 1
44     html = get_one_page(page)
45     contentTree = etree.HTML(html)
46     pages = int(contentTree.xpath(‘//div[@class="pages"]/span[2]/text()‘)[0].strip("共頁"))
47     return pages
48 def save_to_mongodb(result):
49     """存儲到MongoDB中"""
50     # 創建數據庫連接對象, 即連接到本地
51     client = pymongo.MongoClient(host="localhost")
52     # 指定數據庫,這裏指定ziroom
53     db = client.iroomz
54     # 指定表的名稱, 這裏指定roominfo
55     db_table = db.roominfo
56     try:
57         #存儲到數據庫
58         if db_table.insert(result):
59             print("---存儲到數據庫成功---",result)
60     except Exception:
61         print("---存儲到數據庫失敗---",result)
62 
63 def main():
64     pages = get_pages()
65     print(pages)
66     for page in range(1,pages+1):
67         html = get_one_page(page)
68         parse_one_page(html)
69 
70 if __name__ == ‘__main__‘:
71     main()
72     time.sleep(1)

點擊查看

7.最終結果

技術分享圖片

總結

1. 在第三步中XPath使用註意事項

title = result.xpath("./div/h3/a/text()")
此處的點‘.‘不能忘記, 它表示當前節點, 如果不加‘.‘, ‘/‘就表示從根節點開始選取

2. 在第四步獲取多個頁面時出現索引超出範圍錯誤

nearby = result.xpath("./div/div/p[2]/span/text()")[0].strip()

IndexError: list index out of range

造成這種錯誤原因有兩種:

1) [index] index超出list範圍

2) [index] index索引內容為空

因為這裏的nearby的index是0, 排除第一種情況, 那麽這裏就是空行了, 加句if判斷就可以解決

nearby = result.xpath("./div/div/p[2]/span/text()")[0].strip()
#改寫以後:
nearby = result.xpath("./div/div/p[2]/span/text()")[0].strip() if len(result.xpath("./div/div/p[2]/span/text()"))>0 else ""

以上主要是對爬蟲過程學習的總結, 若有不對的地方, 還請指正, 謝謝!

因還在學習中, 價格部分會用到圖片識別, 有待完善.

Python爬蟲項目--爬取自如網房源信息

xml解析 quest chrom 當前 b2b cal 源代碼 headers 判斷本次爬取自如網房源信息所用到的知識點: 1. requests get請求 2. lxml解析html 3. Xpath 4. MongoDB存儲正文 1.分析目標站點 1. url:

Python爬蟲項目--爬取鏈家熱門城市新房

聲明 rules nal logging 命令行 -- new exec 狀態本次實戰是利用爬蟲爬取鏈家的新房(聲明: 內容僅用於學習交流, 請勿用作商業用途) 環境 win8, python 3.7, pycharm 正文 1. 目標網站分析通過分析, 找出相關url

Python爬蟲專案--爬取自如網房源資訊

本次爬取自如網房源資訊所用到的知識點: 1. requests get請求 2. lxml解析html 3. Xpath 4. MongoDB儲存正文 1.分析目標站點 1. url: http://hz.ziroom.com/z/nl/z3.html?p=2

Python爬蟲入門 | 4 爬取豆瓣TOP250圖書信息

Python 編程語言 Python爬蟲先來看看頁面長啥樣的:https://book.douban.com/top250 我們將要爬取哪些信息：書名、鏈接、評分、一句話評價……1. 爬取單個信息我們先來嘗試爬取書名，利用之前的套路，還是先復制書名的xpath：得到第一本書《追風箏的人》的書名xpath如下：

結對-爬取大麥網演唱會信息-設計文檔

.com ref lock beautiful 模塊有用 pytho spa pil 結對編程成員：閻大為，張躍馨搭建環境： ?1.安裝python2.7 ?2.安裝beautifulsoup4等相關模塊編寫程序階段： ?1.分析html代碼以及了解相

用crawl spider爬取起點網小說信息

models anti arc pub work 全部 see 效率 rand 起點作為主流的小說網站，在防止數據采集反面還是做了準備的，其對主要的數字采用了自定義的編碼映射取值，想直接通過頁面來實現數據的獲取，是無法實現的。單獨獲取數字還是可以實現的，通過reques

[Python爬蟲]爬蟲例項:線上爬取噹噹網暢銷書Top500的圖書資訊

本例項還有另外的離線爬蟲實現,有興趣可點選離線爬取噹噹網暢銷書Top500的圖書資訊爬蟲說明 1.使用requests和Lxml庫爬取,(用BS4也很簡單,這裡是為了練習Xpath的語法) 2.爬蟲分類為兩種,一種是離線爬蟲,即先將所爬取的網頁儲存到本地,再從本

[Python爬蟲]爬蟲例項:離線爬取噹噹網暢銷書Top500的圖書資訊

本例項還有另外的線上爬蟲實現,有興趣可點選線上爬取噹噹網暢銷書Top500的圖書資訊爬蟲說明 1.使用requests和Lxml庫爬取,(用BS4也很簡單,這裡是為了練習Xpath的語法) 2.爬蟲分類為兩種,一種是線上爬蟲,即在網站中一邊開啟網頁一邊進行爬取;第

一個簡單Python爬蟲例項（爬取的是前程無憂網的部分招聘資訊）

從今天開始學習爬蟲，展示我的第一個例項（用的是Python3寫的，Python2需要加個編碼方式吧，或許還有其他的不相容的地方吧，我就不知道了），把這分享給大家，希望對大家有一些幫助 import urllib,re import urllib.request import xlwt #開啟網頁

Python爬蟲例項：爬取“最好大學網”大學排名

例項2 爬取大學排名上海交通大學設計了一個“最好大學網”，上面列出了當前的大學排名。我們要設計爬蟲程式，爬取大學排名資訊。爬蟲功能要求：輸入：大學排名URL連結輸出：大學排名資訊的螢幕輸出（排名，大學名稱，總分）工具：python3、requests、beauti

python爬蟲——抓取自如網房源,匯出為csv

1.抓取自如網房源，其實為了後面一個小專案做資料採集工作 2.為什麼選擇自如，是因為我做租房的同學說，自如網的房源質量比較高 3.因為博主是暫居深圳，就先以深圳市的房源為示例 base_url = "http://sz.ziroom.com/z/nl/

Python爬蟲訓練：爬取酷燃網視訊資料

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理專案目標爬取酷燃網視訊資料 https://krcom.cn/ 環境 Python3.6 pycharm 爬蟲程式碼 import pprint

python 爬蟲實戰4 爬取淘寶MM照片

寫真換行符 rip 多行 get sts tool -o true 本篇目標抓取淘寶MM的姓名，頭像，年齡抓取每一個MM的資料簡介以及寫真圖片把每一個MM的寫真圖片按照文件夾保存到本地熟悉文件保存的過程 1.URL的格式在這裏我們用到的URL是 http:/

012 Python 爬蟲項目1

python 爬蟲 tor url post strong port pytho .com http # Python 爬蟲項目1 　　● Python 網頁請求　　　　requests 　　　　　　POST 　　　　　　GET 　　　　網頁狀態碼 1 # -

python爬蟲--打開爬取頁面

PE brush OS htm tab quest replace %s class def requests_view(response): import webbrowser requests_url = response.url base_u

Python爬蟲項目班（七月在線）

命令行布隆 apach .net 函數 href 登陸 tel bit 磨刀不誤砍柴工夯實基礎第1課環境準備與入門知識點1：環境準備，安裝Virtual Box與Ubuntu系統知識點2：Python以及PyEnv、PIP的安裝配置知識點3： MySQL安裝配置知識點

教你分分鐘學會用python爬蟲框架Scrapy爬取你想要的內容

python 爬蟲 Scrapy python爬蟲教你分分鐘學會用python爬蟲框架Scrapy爬取心目中的女神 python爬蟲學習課程，下載地址：https://pan.baidu.com/s/1v6ik6YKhmqrqTCICmuceug 課程代碼原件：課程視頻：教你分分鐘學會用py

python爬蟲項目（新手教程）之知乎（requests方式）

ror eas 點擊 elif 原因 ffffff 文章重點 F12 -前言之前一直用scrapy與urllib姿勢爬取數據，最近使用requests感覺還不錯，這次希望通過對知乎數據的爬取為各位爬蟲愛好者和初學者更好的了解爬蟲制作的準備過程以及requests請求方

python 爬蟲 requests+BeautifulSoup 爬取巨潮資訊公司概況代碼實例

pan 字符 selenium 5.0 target 自我 color list tails 第一次寫一個算是比較完整的爬蟲，自我感覺極差啊，代碼low，效率差，也沒有保存到本地文件或者數據庫，強行使用了一波多線程導致數據順序發生了變化。。。貼在這裏，引以為戒吧。 #

Python爬蟲入門 | 5 爬取小豬短租租房信息

圖片交流 ffffff 信息 jpg http 而已基本 mat 小豬短租是一個租房網站，上面有很多優質的民宿出租信息，下面我們以成都地區的租房信息為例，來嘗試爬取這些數據。小豬短租（成都）頁面：http://cd.xiaozhu.com/1.爬取租房標題按照慣例，

Python爬蟲項目--爬取自如網房源信息

正文

1.分析目標站點

2.獲取單頁源碼

3.解析單頁源碼

4.獲取多個頁面

5. 存儲到MongoDB中

6.完整代碼

7.最終結果

總結

相關推薦