python3爬取“小豬短租-北京”租房資訊

阿新 • • 發佈：2018-11-17

爬蟲思路分析：

1. 觀察小豬短租（北京）的網頁

首頁：http://www.xiaozhu.com/?utm_source=baidu&utm_medium=cpc&utm_term=PC%E6%A0%87%E9%A2%98&utm_content=pinzhuan&utm_campaign=BDPZ

選擇“北京”，然後點“搜尋小豬”，獲取北京市的首頁url：http://bj.xiaozhu.com/

觀察右側詳情，頁面最下面有分頁，點選第2、第3頁觀察url的變化

http://bj.xiaozhu.com/search-duanzufang-p2-0/

http://bj.xiaozhu.com/search-duanzufang-p3-0/

驗證首頁是否可以寫作：http://bj.xiaozhu.com/search-duanzufang-p0-0/（答案是ok的，大部分分頁行的網站首頁都是可以與其他分頁統一化的）

因此，分頁的URL可以這麼構造：http://bj.xiaozhu.com/search-duanzufang-p{}-0/.format(number)，其中number是幾就是第幾頁

2. 觀察右側的資訊，發現每個房源的資訊不全，需要手動點選進去才能看到詳情

因此需要獲取每個房源的詳情頁面的URL

3. 觀察某一房源的詳細資訊，這裡我們提取“標題、地址、價格、房東名字、性別”等

原始碼：

import requests
from bs4 import BeautifulSoup as bs
 4 
headers = {
    'User-Agent':'User-Agent:Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
}

"""獲取每一個房源的網址,引數是分頁url"""
def get_link(url):
    html_data = requests.get(url, headers = headers)
    soup = bs(html_data.text, 'lxml')#bs4推薦使用的的解析庫
    #print(soup.prettify())   #標準化輸出url中的原始碼（有可能跟網頁檢視中的不一致，網頁中有可能標籤書寫不規範）以此為基礎抓取，如果抓取失敗，用此命令檢視原始碼
    links = soup.select('#page_list > ul > li > a')#注意迴圈點！！！直接貼上過來的是“#page_list > ul > li:nth-child(1) > a > img”，需要去掉:nth-child(1)，注意每個標籤前後有空格
    #print(links)
    for link in links:
        link = link.get('href')
        #print(link)
        get_info(link)

"""

"""#獲取每一個房源的詳細資訊，引數url是每個房源的網址"""
def get_info(url):
    html_data = requests.get(url, headers = headers)
    soup = bs(html_data.text, 'lxml')#bs4推薦使用的的解析庫
    # print(soup.prettify())   #標準化輸出url中的原始碼（有可能跟網頁檢視中的不一致，網頁中有可能標籤書寫不規範）以此為基礎抓取，如果抓取失敗，用此命令檢視原始碼
    title = soup.select('div.wrap.clearfix.con_bg > div.con_l > div.pho_info > h4 > em')[0].string
    # 用網頁copy過來的全部是“body > div.wrap.clearfix.con_bg > div.con_l > div.pho_info > h4 > em”，但是使用這個爬不出來資料（我也不知道why），把body去掉或者用下面最簡短的方式（只使用最近的且唯一的div）
    # title = soup.select('div.pho_info > h4 > em ')
    # 查詢結果title格式是一維列表，需要繼續提取列表元素（一般就是[0])，列表元素是前後有標籤需要繼續提取標籤內容，使用get_text()或者string

    address = soup.select('div.wrap.clearfix.con_bg > div.con_l > div.pho_info > p > span')[0].string.strip()
    price = soup.select('#pricePart > div.day_l > span')[0].string.strip()  # div中的id=pricePart是唯一性的，因此不用寫前面的div
    name = soup.select('#floatRightBox > div.js_box.clearfix > div.w_240 > h6 > a')[0].string.strip()
    img = soup.select('#floatRightBox > div.js_box.clearfix > div.member_pic > a > img')[0].get('src').strip()  # 獲取標籤的屬性值
    sex = soup.select('#floatRightBox > div.js_box.clearfix > div.member_pic > div')[0].get('class')[0].strip()  # 獲取標籤的屬性值
    #將詳細資料整理成字典格式
    data = {
        '標題':title,
        '地址':address,
        '價格':price,
        '房東姓名':name,
        '房東性別':sex,
        '房東頭像':img
    }
    print(data)

"""


"""#程式主入口"""
if __name__=='__main__':
    for number in range(0,1):
        url = 'http://bj.xiaozhu.com/search-duanzufang-p{}-0/'.format(number)   #構造分頁url（不是房源詳情的url）
        get_link(url)

python3爬取“小豬短租-北京”租房資訊

爬蟲思路分析： 1. 觀察小豬短租（北京）的網頁首頁：http://www.xiaozhu.com/?utm_source=baidu&utm_medium=cpc&utm_term=PC%E6%A0%87%E9%A2%98&utm_content=pinzhuan

Python爬蟲入門 | 5 爬取小豬短租租房信息

圖片交流 ffffff 信息 jpg http 而已基本 mat 小豬短租是一個租房網站，上面有很多優質的民宿出租信息，下面我們以成都地區的租房信息為例，來嘗試爬取這些數據。小豬短租（成都）頁面：http://cd.xiaozhu.com/1.爬取租房標題按照慣例，

xpath,requests爬取小豬短租網

import requests from lxml import etree import time headers = { 'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) ' 'AppleWebKit/537.3

Python爬蟲入門 | 5 爬取小豬短租租房資訊

小豬短租是一個租房網站，上面有很多優質的民宿出租資訊，下面我們以成都地區的租房資訊為例，來嘗試爬取這些資料。 1.爬取租房標題按照慣例，先來爬下標題試試水，找到標題，複製xpath。多複製幾個房屋的標題 xpath 進行對比：

爬取小豬短租網信息

5.0 head test == lec 信息 names file float # -*- coding: utf-8 -*- import time import lxml import requests from bs4 import BeautifulSoup h

爬取網站小豬短租的少量資訊及詳細介紹--爬蟲案例篇

#!/usr/bin/env python # -*- coding:utf-8 -*- # @Time : 18-10-10 下午9:21 import requests #匯入requests包;發請求網頁 from bs4 import BeautifulSoup #匯入bs4包;

抓取小豬短租1000張列表頁內容

pre quest 個數 import rom lxml zip .text with 代碼如下 #!/usr/bin/env python# -*- coding:utf-8 -*-from bs4 import BeautifulSoupimport requestsd

抓取小豬短租列表內容並保存在mongodb裏

抓取 select requests orm com titles mongod lin ges import pymongoimport requestsfrom bs4 import BeautifulSoupclient = pymongo.MongoClient(‘

爬蟲寫法及狀態碼的認知,以小豬短租為例---爬蟲案例

寫一個最簡單的爬蟲先介紹,我的環境: Ubuntu:18.04(64位)

小豬短租網requests庫使用，爬蟲案例

請求庫官方文件指出：讓HTTP 。服務人類細心的讀者就會發現，請求庫的作用英文就是請求網站電子雜誌|網頁資料的從簡單的例項開始，講解。請求庫的使用方法。 import requests res = requests.get

Python爬蟲實戰--小豬短租爬蟲

前言：通過上次的TripAdvisor爬蟲實戰，我們學會了如何使用requests傳送一個網頁請求，並使用BeautifulSoup來解析頁面，從中提取出我們的目標內容，並將其存入文件中。同時我們也學會了如何分析頁面，並提取出關鍵資料。下面我們將進一步學習，並爬去小豬短租的詳情頁面，提取

爬取小豬網站住房資訊並把結果儲存到資料庫中

from bs4 import BeautifulSoup import requests, pymongo #啟用MongoDB client = pymongo.MongoClient('localhost', 27017) #給資料庫命名 xiaozhu = client['xiao

python爬蟲實踐——零基礎快速入門（四）爬取小豬租房資訊

接下來我們爬取小豬短租租房資訊。進入主頁後選擇深圳地區的位置。地址如下： http://sz.xiaozhu.com/ 一，標題爬取按照慣例，我們先複製標題的xpath資訊，多複製幾個進行對比： //*[@id="page_list"]/ul/li[1]/

【R語言爬蟲】用R爬蟲，爬取杭州安居客九堡租房資訊

在當今網際網路時代，資料要會挖，得先學會爬！爬的過程是痛苦的，因為在計算機程式開發領域，網路爬蟲的開發是一個很專業的方向，技術門檻比較高，它所要求的綜合知識很多，相信很多同學都望而卻步了。別急，說話說到

初識Scrapy框架+爬蟲實戰(7)-爬取鏈家網100頁租房資訊

Scrapy簡介 Scrapy，Python開發的一個快速、高層次的螢幕抓取和web抓取框架，用於抓取web站點並從頁面中提取結構化的資料。Scrapy用途廣泛，可以用於資料探勘、監測和自動化測試。Scrapy吸引人的地方在於它是一個框架，任何人都可以根

python3爬取天才小毒妃

from bs4 import BeautifulSoup import requests def get_url_list(url): headers = {"User-Agent":"Mozilla/5.0 (Windows; U; Windows NT 6.1

python3 爬取圖片

.com ret reg eve code Coding aid quest fin #coding=utf-8import urllib.requestimport redef getHtml(url): page = urllib.request.urlopen(

初學python3-爬取cnnvd漏洞信息

zip 技術 [0 string linux; sdc 開始時間還需要 2.x 　　因為工作需要cnnvd漏洞信息，以前用著集客搜、八爪魚之類的工具，但對其效果和速度都不滿意。最近開始接觸學習爬蟲，作為初學者，還需要慢慢完善。先記錄下第一個爬蟲。還想著在多進程和IP代理方

Python開發爬蟲之BeautifulSoup解析網頁篇：爬取安居客網站上北京二手房數據

澳洲 pytho 目標 www. 委托 user info .get web 目標：爬取安居客網站上前10頁北京二手房的數據，包括二手房源的名稱、價格、幾室幾廳、大小、建造年份、聯系人、地址、標簽等。網址為：https://beijing.anjuke.com/sale/

python3爬取女神圖片，破解盜鏈問題

什麽 agen lock 基本 avi rt thread agent 使用 icm title: python3爬取女神圖片，破解盜鏈問題 date: 2018-04-22 08:26:00 tags: [python3,美女,圖片抓取，爬蟲，盜鏈] comments

python3爬取“小豬短租-北京”租房資訊

相關推薦