python爬蟲——抓取自如網房源,匯出為csv

阿新 • • 發佈：2019-02-13

1.抓取自如網房源，其實為了後面一個小專案做資料採集工作
2.為什麼選擇自如，是因為我做租房的同學說，自如網的房源質量比較高
3.因為博主是暫居深圳，就先以深圳市的房源為示例

base_url = "http://sz.ziroom.com/z/nl/z3.html"

起始地址,全是get請求,就可以拿到資料,那麼,十分的簡單,

1.構造網址

base_url = "http://sz.ziroom.com/z/nl/z3.html"
class Get_one_page:
    def __init__(self,page):
        self.page = page
        self.parmas = {"p" 
: page}
        self.appartments = []

2.getpage頁面,拿出房源資訊

    def getpage(self):
        try:
            time.sleep(random.randint(1,2))
            response = requests.get(url=base_url,params=self.parmas,headers=my_headers)
        except Exception as e:
            print("get方法失敗"+self.page)
            print(e)
            return 

        if response.status_code == 200:
            soup = BeautifulSoup(response.text,"lxml")
            ul = soup.select("ul[id='houseList']")
            li_list = ul[0].select("li")
        else:
            print("狀態碼不為200------"+self.page)
            return
        for li in li_list:
            address = li.select("h3" 
)[0].text + "," + soup.select("h4")[0].text  # 獲取房源地址
            descripe = li.select(".detail")[0].text.replace(" " , "").replace("\n" , ",")[2:]  # 獲取房源描述資訊
            tags = li.select(".room_tags")[0].text.replace("\n" , ",")[1:]  # 獲取房源標籤
            more_href = "http:" + li.select('.more a')[0].attrs["href"]                 # 詳情連結
            img_src =  "http:" + li.select("img")[0].attrs["_src"]          # 圖片連結
            price = self.get_price(more_href)
            room = {"address": address,
                    "descripe": descripe,
                    "tags": tags,
                    "more": more_href,
                    "img_src": img_src,
                    "price": price}
            self.appartments.append(room)

這裡寫圖片描述
房源最重要的資訊-價格,在這個地址中是以圖片拼出來的,我們只有進入每個房源的詳情頁,才能以足夠簡單的方法獲取價格,所以再定義一個get_price方法,引數是房源詳情頁的地址

3.get_price獲取房源價格

    def get_price(self, href):
        """返回的是季付每月租金, 從更多頁面中獲取"""
         try:
            time.sleep(random.randint(1 , 2))
            response = requests.get(url=href, headers=my_headers)
        except Exception as e:
            print("get方法失敗" + href)
            print(e)
            price = "0"
        if response.status_code == 200:
            soup = BeautifulSoup(response.text , "lxml")
            try:
                price =soup.select("#room_price")[0].text
            except:
                print(href)
                price = "0"
        else:
            print("狀態碼不為200------" + href)
            price = "0"
        regex = "\d+"
        if price == None:
            print(href)
            price = "0"
        return re.findall(regex, price)[0]

這裡寫圖片描述

4.匯出為scv格式檔案

    def writedata(self):
        def write_csv_file(path , head , data):
            try:
                with open(path , 'w' , newline='' , encoding="utf-8") as csv_file:
                    writer = csv.writer(csv_file , dialect='excel')
                    if head is not None:
                        writer.writerow(head)
                    for row in data:
                        row_data = []
                        for k in head:
                            row_data.append(row[k])
                        row_data = tuple(row_data)
                        # print(row_data)
                        writer.writerow(row_data)

                    print("Write a CSV file to path %s Successful." % path)
            except Exception as e:
                print("Write an CSV file to path: %s, Case: %s" % (path , e))

        head = ("address" , "descripe" , "tags" , "more" , "img_src" , "price")
        write_csv_file(self.path , head , self.appartments)

5.迴圈抓取50頁房源並寫入本地

if __name__ == '__main__':
    for i in range(1,51):
        Get_one_page(i)

慢慢寫是為了方便哪頁出錯好排查,重爬資料代價小

6.合併50頁房源

這裡寫圖片描述

import pandas as pd

dfs = []
for i in range(1,51):
    path = "ziru/page_%d.csv"%i
    # 匯入資料
    df = pd.read_csv(path,encoding="utf-8")
    dfs.append(df)
# 合併資料
ziru = pd.concat(dfs,ignore_index=True)
# 匯出資料
ziru.to_csv("ziru.csv")

7.房源資訊展示

這裡寫圖片描述

python爬蟲——抓取自如網房源,匯出為csv

1.抓取自如網房源，其實為了後面一個小專案做資料採集工作 2.為什麼選擇自如，是因為我做租房的同學說，自如網的房源質量比較高 3.因為博主是暫居深圳，就先以深圳市的房源為示例 base_url = "http://sz.ziroom.com/z/nl/

python爬蟲抓取新華網新聞並自動生成word文件

認識一個在學校廣播電臺的學妹, 聽她說她們每天都要在網上找新聞, 國際, 國內, 和校內各五篇, 然後將其做成word文件列印, 個人感覺這種活非常浪費時間, 應該寫個程式幫我們自動完成. 後來沒事的時候就寫了這個python程式實現這個功能. 程式用pyth

Python爬蟲項目--爬取自如網房源信息

xml解析 quest chrom 當前 b2b cal 源代碼 headers 判斷本次爬取自如網房源信息所用到的知識點: 1. requests get請求 2. lxml解析html 3. Xpath 4. MongoDB存儲正文 1.分析目標站點 1. url:

Python爬蟲專案--爬取自如網房源資訊

本次爬取自如網房源資訊所用到的知識點: 1. requests get請求 2. lxml解析html 3. Xpath 4. MongoDB儲存正文 1.分析目標站點 1. url: http://hz.ziroom.com/z/nl/z3.html?p=2

Python爬蟲抓取東方財富網股票數據並實現MySQL數據庫存儲

alt 插入 pytho width 重新 tab 空值 utf word Python爬蟲可以說是好玩又好用了。現想利用Python爬取網頁股票數據保存到本地csv數據文件中，同時想把股票數據保存到MySQL數據庫中。需求有了，剩下的就是實現了。在開始之前，保證已經

Python爬蟲抓取攜程網機票資訊併發郵件通知

背景：由於要買機票，所以一直進行搜尋，爬蟲可以幫我解決這個問題；解釋的超級詳細。於是通過這一過程，基本瞭解了一些；查詢上海到西安 4.29～05.02的機票： #coding:utf-8 import urllib2 from

Python爬蟲抓取煎蛋(jandan.net)無聊圖

下載 logs start input req com read ref color 1 #!/usr/bin/python 2 #encoding:utf-8 3 ‘‘‘ 4 @python 3.6.1 5 @author: [email prote

python爬蟲抓取zabbix監控圖，並發郵件

python 抓取最近十九大非常煩，作為政府網站維護人員，簡直是夜不能寐。各種局子看著你，內保局，公安部，360，天融信，華勝天成，中央工委，政治委員會...360人員很傻X，作為安全公司，竟然不能抓到XX網站流量，在我們機房放的探針更是搞笑，讓我們手工上報流量數據。白天還行，晚上怎麽辦？給他寫個腳

Python爬蟲--抓取單一頁面上的圖片文件學習

python 爬蟲 #！/usr/bin/python import sys #正則表達式庫 import re import urllib def getHtml(url): page = urllib.urlopen(url) html = page.read() ret

Python爬蟲 —— 抓取美女圖片

In root lxml 取圖 ext time style main HR 代碼如下： 1 #coding:utf-8 2 # import datetime 3 import requests 4 import os 5 import sys

Python爬蟲 —— 抓取美女圖片（Scrapy篇）

parse color 爬蟲 select 尺度 dex -i www 模塊雜談：之前用requests模塊爬取了美女圖片，今天用scrapy框架實現了一遍。（圖片尺度確實大了點，但老衲早已無戀紅塵，權當觀賞哈哈哈） Item: # -*- codi

python爬蟲-- 抓取網頁、圖片、文章

零基礎入門Python，給自己找了一個任務，做網站文章的爬蟲小專案，因為實戰是學程式碼的最快方式。所以從今天起開始寫Python實戰入門系列教程，也建議大家學Python時一定要多寫多練。目標 1，學習Python爬蟲 2，爬取新聞網站新聞列表 3，爬取圖片 4，把爬取到的資料存在本地

Python爬蟲抓取純靜態網站及其資源

遇到的需求前段時間需要快速做個靜態展示頁面，要求是響應式和較美觀。由於時間較短，自己動手寫的話也有點麻煩，所以就打算上網找現成的。中途找到了幾個頁面發現不錯，然後就開始思考怎麼把頁面給下載下來。由於之前還沒有了解過爬蟲，自然也就沒有想到可以用爬蟲來抓取網頁內容。所以我採取的辦法

Python爬蟲-爬取開心網主頁(有登入介面-利用cookie)

爬取開心網主頁內容 ========================================== ======================================= =================================== 1 ''' 2 登入開

用python爬蟲抓取視訊網站所有電影

執行環境 IDE丨pycharm 版本丨Python3.6 系統丨Windows ·實現目的與思路· 目的：實現對騰訊視訊目標url的解析與下載，由於第三方vip解析，只提供線上觀看，隱藏想實現對目標視訊的下載思路：首先拿到想要看的騰訊電影url,通過第三方vip視訊解析網站進

Python爬蟲-抓取divnil動漫妹子圖

目標網站 https://divnil.com 首先看看這網站是怎樣載入資料的; 開啟網站後發現底部有下一頁的按鈕，ok，爬這個網站就很簡單了; 學習Python中有不明白推薦加入交流群

第一個Python爬蟲-抓取煎蛋網上圖片

背景作為一個計算機基礎薄弱的電氣工程師，廖大的教程看到常用的內建模組時，看的頭大，特別是看到HTMLParser時，已宛如天書了。這時作為一個初學者的劣勢就暴露出來了，我不知道哪部分知識是理解這些模組的前置條件，即使知道是哪部分知識，但不知道該理解到什麼程度才能解決當前的問題。個人建議

Python爬蟲抓取大資料崗位招聘資訊（51job為例）

簡單介紹一下爬蟲原理。並給出 51job網站完整的爬蟲方案。爬蟲基礎知識資料來源網路爬蟲的資料一般都來自伺服器的響應結果，通常有html和json資料等，這兩種資料也是網路爬蟲的主要資料來源。其中html資料是網頁的原始碼，通過瀏覽器-檢視原始碼可

使用python爬蟲抓取學術論文

介紹這是一個很小的爬蟲，可以用來爬取學術引擎的pdf論文，由於是網頁內容是js生成的，所以必須動態抓取。通過selenium和chromedriver實現。可以修改起始點的URL從穀粉搜搜改到谷歌學術引擎，如果你的電腦可以翻牆。可以修改關鍵字和搜尋頁數

Python爬蟲抓取動態資料

一個月前實習導師佈置任務說通過網路爬蟲獲取深圳市氣象局釋出的降雨資料，網頁如下：心想，爬蟲不太難的，當年跟zjb爬煎蛋網無（mei）聊（zi）圖的時候，多麼清高。由於接受任務後的一個月考試加作業一大堆，導師也不催，自己也不急。但是，導師等我一個月都得讓我來寫意味著這

python爬蟲——抓取自如網房源,匯出為csv

1.構造網址

2.getpage頁面,拿出房源資訊

3.get_price獲取房源價格

4.匯出為scv格式檔案

5.迴圈抓取50頁房源並寫入本地

6.合併50頁房源

7.房源資訊展示

相關推薦