python3 爬蟲爬取深圳公租房輪候庫（深圳房網）

阿新 • • 發佈：2019-01-28

深圳公租房輪候庫已經朝著幾十萬人的規模前進了，這是截至16年10月之前的資料了，貼上來大家體會下

所以17年已更新妥妥的10W+

今天就拿這個作為爬蟲的練手專案

1、環境準備：

作業系統：win10

python版本：python3.5.3

開發工具：sublime 3

python需要安裝的庫：

　　anaconda　　沒安裝的可以去https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/這裡下載，國內映象比較快；

　　Requests urllib的升級版本打包了全部功能並簡化了使用方法（點我檢視官方文件）

　　beautifulsoup 　　是一個可以從HTML或XML檔案中提取資料的Python庫.它能夠通過你喜歡的轉換器實現慣用的文件導航,查詢,修改文件的方式.（

點我檢視官方文件）

　　LXML 　　一個HTML解析包用於輔助beautifulsoup解析網頁

Requests ，beautifulsoup ，LXML 模組安裝方式：windows的命令提示符視窗輸入以下程式碼即可

pip install requests
pip install beautifulsoup4
pip install lxml

直接貼程式碼吧

import requests
from bs4 import BeautifulSoup
import os

class Gongzufang():
    #獲取頁面資料
    def all_url(self,url):
        html  
= self.request(url)
        all_a = BeautifulSoup(html.text, 'lxml').find('table', class_='sort-tab').find_all('tr')
        for a in all_a:
            title = a.get_text("|", strip=True)
            print(title)
            #self.save_data(url) 
    #獲取分頁面地址
    def html(self, url):
        html = self.request(url)
        max_span  
= BeautifulSoup(html.text, 'lxml').find('div', class_='fix pagebox').find_all('a')[-3].get_text()
        for page in range(1, int(max_span) + 1):
            page_url = url + '/' + '0-'+str(page)+'-0-0-1'
            
            self.all_url(page_url)

    def save_data(self,data_url):#下載資料
        pass
        #獲取網頁的response 然後返回
    def request(self, url): 
        headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.135 Safari/537.36 Edge/12.10240','Connection': 'Keep-Alive','Referer':'http://www.mzitu.com/tag/baoru/'}
        content = requests.get(url, headers=headers)
        return content
#例項化
Gongzufang = Gongzufang() 
#給函式all_url、html傳入引數  你可以當作啟動爬蟲（就是入口）
Gongzufang.html('http://anju.szhome.com/gzfpm')
Gongzufang.all_url('http://anju.szhome.com/gzfpm')

結果如下：

後續：

結果爬到6w+的時候出現了個偏僻字：。。

襯衫哥決定不填這個坑，反正只是想爬身份證的資訊。。

修改後的程式碼如下：

# -*- coding:utf-8 -*- 
import requests
from bs4 import BeautifulSoup
#import os
import re
#import sys
#import io

#sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030')

class Gongzufang():

    #獲取頁面資料
    def all_url(self,url):
        html = self.request(url)
        all_a = BeautifulSoup(html.text, 'lxml').find('table', class_='sort-tab').find_all('tr')
        #all_a = BeautifulSoup(html.text, 'lxml').find('table', class_='sort-tab').find_all('td')[0:9]
        
        for a in all_a:
            for find_td in a.find_all('td')[4:5]:
                text_td = find_td.get_text("\r", strip=True)
                print(text_td)
                with open('d:/test.txt', 'a') as f:
                    print(text_td,file=f)
            #print(title)
            
    #獲取分頁面地址
    
    def html(self, url):
        html = self.request(url)
        max_span = BeautifulSoup(html.text, 'lxml').find('div', class_='fix pagebox').find_all('a')[-3].get_text()
        for page in range(1, int(max_span) + 1):
            page_url = url + '/' + '0-'+str(page)+'-0-0-1'
            
            self.all_url(page_url)

    def save_data(self,data_url):#下載資料
        pass
        #獲取網頁的response 然後返回
    def request(self, url): 
        headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.135 Safari/537.36 Edge/12.10240','Connection': 'Keep-Alive','Referer':'http://www.mzitu.com/tag/baoru/'}
        content = requests.get(url, headers=headers)
        return content
#例項化
Gongzufang = Gongzufang() 
#給函式all_url、html傳入引數  你可以當作啟動爬蟲（就是入口）
Gongzufang.html('http://anju.szhome.com/gzfpm')
Gongzufang.all_url('http://anju.szhome.com/gzfpm')

　　現在又可以開始快樂的爬取資料了

python3 爬蟲爬取深圳公租房輪候庫（深圳房網）

深圳公租房輪候庫已經朝著幾十萬人的規模前進了，這是截至16年10月之前的資料了，貼上來大家體會下所以17年已更新妥妥的10W+ 今天就拿這個作為爬蟲的練手專案 1、環境準備：作業系統：win10 python版本：python3.5.3 開發工具：sublime 3 python需要安裝的庫：　

Python3爬蟲爬取淘寶商品數據

表格 name 錯誤處理 from [0 https iat turn 感覺這次的主要的目的是從淘寶的搜索頁面獲取商品的信息。其實分析頁面找到信息很容易，頁面信息的存放都是以靜態的方式直接嵌套的頁面上的，很容易找到。主要困難是將信息從HTML源碼中剝離出來，數據和網頁源碼

python3爬蟲爬取煎蛋網妹紙圖片

port 商業技術分享爬取其中 lar c函數 base 技術其實之前實現過這個功能，是使用selenium模擬瀏覽器頁面點擊來完成的，但是效率實際上相對來說較低。本次以解密參數來完成爬取的過程。首先打開煎蛋網http://jandan.net/ooxx，查看網頁

python3爬蟲 -----爬取鬥圖息-------www.doutula.com

run __init__ args gin uid == utf-8 date src 普通爬取： 1 # -*- coding:utf-8 -*- 2 # author:zxy 3 # Date:2018-10-21 4 import requests 5 f

python3爬蟲 -----爬取百思不得姐信息-------http://www.budejie.com/

chrom tree www cti mozilla from tar 2-0 sum 1 # -*- coding:utf-8 -*- 2 # author:zxy 3 # Date:2018-10-21 4 5 import request 6 from

python3爬蟲--爬取豆瓣Top250的圖書

from lxml import etree import requests import csv fp = open('doubanBook.csv', 'wt', newline='', encoding='utf-8') writer = csv.writer(fp) writer.

python3爬蟲爬取網頁圖片簡單示例

本人也是剛剛開始學習python的爬蟲技術，然後本來想在網上找點教程來看看，誰知道一搜索，大部分的都是用python2來寫的，新手嘛，一般都喜歡裝新版本。於是我也就寫一個python3簡單的爬蟲，爬蟲一下貼吧的圖片吧。話不多說，我們開始。首先簡單來說說一下知識。一

爬蟲基本介紹 && python3 爬蟲爬取網易新聞排行榜

爬蟲基本介紹 1. 什麼是爬蟲？爬蟲是請求⽹網站並提取資料的⾃自動化程式 2. 爬蟲的基本流程發起請求通過HTTP庫向目標站點發起請求，即傳送一個Request，請求可以包含額外的headers等資訊，等待伺服器器響應。解析內容

python3爬蟲 -----爬取大學資訊並通過matplotlib與numpy繪製結果-----from最好大學網

爬取大學資訊並通過matplotlib與numpy繪製多指標柱形圖就某一因素繪製餅圖並突出其中一個物件（本例中為江西理工大學） 1 # -*- coding:utf-8 -*- 2 # author:zxy 3 # date:2018-12-24 4 # upda

python3爬蟲爬取金庸小說所有角色

# -*- coding:utf-8 -*- import requests from bs4 import BeautifulSoup url = 'http://www.jinyongwang.c

python3 爬蟲—爬取天氣預報多個城市七天資訊（三）

一、內容：利用BeautifulSoup抓取中國天氣網各個城市7天的時間天氣狀態最高溫最低溫的相關資訊，並記錄儲存在本地csv表格檔案中。爬取的頁面截圖： html獲取資訊截圖：二、原理： 1.利用requests獲取請求

python3爬蟲爬取圖片，爬取新聞網站文章並儲存到資料庫

2017年9月16日零基礎入門Python，第二天就給自己找了一個任務，做網站文章的爬蟲小專案，因為實戰是學程式碼的最快方式。所以從今天起開始寫Python實戰入門系列教程，也建議大家學Python時一定要多寫多練。目標 1，學習Python爬蟲 2

python3爬蟲-爬取新浪新聞首頁所有新聞標題

準備工作：安裝requests和BeautifulSoup4。開啟cmd，輸入如下命令 pip install requests pip install BeautifulSoup4 按F12開啟開發人員工具，點選左上角的圖片，然後再頁面中點選你想檢

python3 爬蟲爬取智聯招聘崗位資訊

這套程式基於python3 ，使用requests和re正則表示式，只需要將程式儲存為.py檔案後，即可將抓取到的資料儲存到指定路徑的Excel檔案中。程式在終端中啟動，啟動命令： #python3 檔名.py 關鍵字城市 python3 zhilian.p

用Python爬蟲爬取廣州大學教務系統的成績（內網訪問）

enc 用途 css選擇器狀態 csv文件表格 area 加密重要用Python爬蟲爬取廣州大學教務系統的成績（內網訪問）在進行爬取前，首先要了解： 1、什麽是CSS選擇器？每一條css樣式定義由兩部分組成，形式如下： [code] 選擇器{樣式} [/code

Python爬蟲-爬取騰訊QQ招聘崗位資訊（Beautiful Soup）

爬取騰訊招聘資訊-Beautiful Soup --------------------------------------- ============================================ =================================

python爬蟲爬取全站url，完美小demo（可防止連結到外網等各種強大篩選）

上次完成的url爬取專案並不能滿足需求，在此完成了一個更為強大的爬取程式碼，有需要的可以直接執行，根據自己爬取的網站更改部分正則和形參即可。前排提示：執行需要耐心，因為幾千個url爬完的話，還是建議花生瓜子可樂電影準備好。話不多說，直接上程式碼，程式碼有註釋，很容易理解。

Python3 requests爬取代理IP並驗證可用性（附多執行緒模式）

簡要介紹：使用python3 環境，需要自己安裝的包有requests （網址請求，獲取頁面資訊）和 Lxml（頁面解析，資訊提取）。首先確定從何處獲取 “IP”，本人此次爬取的是西刺網的免費IP代理。大概流程：請求有免費IP的網址（本次使用“htt

Python爬取Json格式資料並讀寫（改中文編碼）

Python Json檔案讀寫經過測試發現，req.json()返回的型別是dict（字典型別）如果有興趣的話，可以再加一個正則表示式來篩選出url的關鍵名字，用關鍵名來做檔名。

利用scrapy爬取傳智播客教師資料（修改正確版）

目錄 6.結果：和視訊裡面的有些出入，因為我用他的沒執行出來，錯誤找了好久，終於找到了，請大家對應起來，此版本一定可以執行成功。 1.itcast.py # -*- coding: utf-8 -*- import scrapy from ITc

python3 爬蟲爬取深圳公租房輪候庫（深圳房網）

相關推薦