python爬取杭州市幼兒園資訊

阿新 • • 發佈：2018-12-11

一、爬取前準備

1、IDE使用pycharm

2、安裝相關的庫，requests，re，xlsxwritter，beautifulsoup

如圖看到，網頁由頂部的區域，中間的學校列表和底部的分頁等幾個重要的部分組成。檢視網頁原始碼，可以看到上述的三個部分都可以在頁面中找到，不需要填寫瀏覽器資訊和cookie驗證等.

二、爬取資訊

1、引入相關庫

import requests
import re
import xlsxwriter
from bs4 import BeautifulSoup

2、獲取請求

def get_soup(url, param):
    response = requests.get(url, params=param)
    soup = BeautifulSoup(response.text, 'html.parser')
    return soup

param為url後面的地址，在該網頁中，不同地區、不同學校的資訊都是通過引數的變化實現的，url的前面不變

3、獲取地區列表，儲存在陣列中

分析地區的結構可知，所有的地區都儲存在role屬性為presentation的<li> 的<a>中

傳入的引數S為包含網頁資訊的Beautisoup 物件，遍歷beautisoup查詢的結果集，除“全部”外都儲存在陣列res_areas中

def get_area(s):
    res_areas = []
    areas = s.find_all(name='li', attrs={"role": "presentation"})
    for area in areas:
        t = area.find('a').string
        if t != '全部':
            res_areas.append(t)
    return res_areas

4、獲取某地區學校的分頁總數

def get_page_num(s):
    r = s.find_all(name="div", attrs={"class": re.compile(r'page')})[0]
    if r.find("strong") is None:
        return 0
    else:
        n = r.find("strong").find_next_siblings()[0].get_text()
        return int(n)

分頁的子頁和總數用<strong>包括，被外層div包含，很容易找到。這裡做的判斷為了避免出現某地區沒有學校的現象，否則程式會報錯。

5、寫主函式main，匯出xlsx

三、總結

1、實現了快速提取所有杭州市幼兒園資訊，節省了人力物力

2、頁面結構簡單，提取相對容易

~~附上原始碼~~

import requests
import re
import xlsxwriter
from bs4 import BeautifulSoup


# 獲取請求
def get_soup(url, param):
    response = requests.get(url, params=param)
    soup = BeautifulSoup(response.text, 'html.parser')
    return soup


# 獲取某地區分頁數
def get_page_num(s):
    r = s.find_all(name="div", attrs={"class": re.compile(r'page')})[0]
    if r.find("strong") is None:
        return 0
    else:
        n = r.find("strong").find_next_siblings()[0].get_text()
        return int(n)


# 獲取url引數
def get_param(grade, area, page):
    para = {'grade_type': '1', 'area_type': area, "page": page}
    return para


# 獲取地區
def get_area(s):
    res_areas = []
    areas = s.find_all(name='li', attrs={"role": "presentation"})
    for area in areas:
        t = area.find('a').string
        if t != '全部':
            res_areas.append(t)
    return res_areas


def main():
    url = "http://hzjiaoyufb.hangzhou.com.cn/school_list.php"
    soup = get_soup(url, {'grade_type': '1'})
    # 初始化xlsx
    print('初始化xlsx...')
    workbook = xlsxwriter.Workbook('school.xlsx')
    worksheet = workbook.add_worksheet()
    bold = workbook.add_format({'bold': True})
    worksheet.write('A1', '學校名稱', bold)
    worksheet.write('B1', '學校地址', bold)
    worksheet.write('C1', '學校網址', bold)
    worksheet.write('D1', '學校電話', bold)
    worksheet.write('E1', '學校微信', bold)
    worksheet.write('F1', '學校微博', bold)
    worksheet.write('G1', '班級數目', bold)
    worksheet.write('H1', '學校型別', bold)
    worksheet.write('I1', '學校層次', bold)
    worksheet.write('J1', '地區', bold)
    # 根據地點和分頁的遍歷獲取所有的子葉超連結，儲存在arr中
    arr = []  # 儲存連結地址
    area = []  # 儲存地址資訊
    school_name = []
    school_location = []
    school_website = []
    school_tel = []
    school_wx = []
    school_nature = []
    school_class = []
    school_pic = []
    school_wb = []
    school_type = []
    school_level = []
    print('獲取所有區域...')
    for res_area in get_area(soup):
        soup = get_soup(url, get_param('1', res_area, '1'))
        for num in range(get_page_num(soup)):
            soup = get_soup(url, get_param('1', res_area, num - 1))
            schools = soup.find_all('div', class_="pInfo")
            for school in schools:
                arr.append('http://hzjiaoyufb.hangzhou.com.cn/' + school.find('a').attrs['href'])
                area.append(res_area)
    # 遍歷arr中url，獲取子葉資訊
    print('獲取所有學校資料...')
    for item in enumerate(arr):
        response = requests.get(item[1])
        soup = BeautifulSoup(response.text, 'html.parser')
        panel1 = soup.find('h2').text
        panel2 = soup.find_all(name='div', attrs='panel-body')
        school_name.append(panel1)
        array = []
        for panel in panel2:
            if panel.find('h6') is not None:
                array.append(panel.find('h6').text.strip())
        school_location.append(array[1])
        school_website.append(array[4])
        school_tel.append(array[5])
        school_wx.append(array[6])
        school_wb.append(array[7])
        school_nature.append(array[8])
        school_type.append(array[9])
        school_level.append(array[10])
        school_class.append(array[11])
    row = 1
    print('寫入elsx檔案...')
    for i in range(len(school_name)):
        worksheet.write(row, 0, school_name[i])
        worksheet.write(row, 1, school_location[i])
        worksheet.write(row, 2, school_website[i])
        worksheet.write(row, 3, school_tel[i])
        worksheet.write(row, 4, school_wx[i])
        worksheet.write(row, 5, school_wb[i])
        worksheet.write(row, 6, school_class[i])
        worksheet.write(row, 7, school_type[i])
        worksheet.write(row, 8, school_level[i])
        worksheet.write(row, 9, area[i])
        row += 1
    workbook.close()


if __name__ == '__main__':
    main()

python爬取杭州市幼兒園資訊

一、爬取前準備 1、IDE使用pycharm 2、安裝相關的庫，requests，re，xlsxwritter，beautifulsoup 如圖看到，網頁由頂部的區域，中間的學校列表和底部的分頁等幾個重要的部分組成。檢視網頁原始碼，可以看到上述的三個部分都

python爬取自如房間資訊(二)

主要是針對自如房價的爬取。以下程式碼對房價圖片進行處理，將裡面的數字提取出來，然後用knn最近鄰演算法去對圖片上的資料進行分類。 import sys import cv2 import numpy as np ####### training part ###########

python爬取自如房間資訊(一)

使用python和selenium+Chrome Headless爬取自如房間資訊，並將結果儲存在MongoDB中。其中最麻煩的應該是每間房的價格，因為自如是用一張圖片和offset來顯示價格，所以不能直接獲得。但我們可以通過將圖片轉為文字，再通過偏移量將數字組合為價格。在這裡我們使用的是Ch

一文搞懂如何用Python爬取上市公司資訊

1. 概念準備 Python基本概念 tb.to_csv(r'1.csv', mode='a', encoding='utf_8_sig', header=1, index=0) r意思是強制不轉義字串 TableTableTable型表格

使用Python爬取學校學生資訊！（簡單爬蟲）

很久木有來寫博文啦，發現學校的教務系統很多童鞋都木有修改初始密碼，於是博主就想寫試用python寫一個爬蟲小指令碼，將木有修改初始密碼的童鞋資料扒下來，然後嘿嘿嘿~~~通知他們修改！鑑於寫博文時未通知這些受害童鞋們，因此隱去關鍵資訊。首先為初始化方法__

python爬取花瓣妹子資訊

因為花瓣妹子資訊是動態載入的，所以如果用原始方法直接爬取網頁的方法是爬不到的，這裡我們用selenium來自動化處理。 import requests from bs4 import BeautifulSoup from selenium import w

Python爬取磁力鏈資訊

更新說明 2017.4.23 本程式使用MySQL資料庫儲存，使用本程式前請手動修改相關程式開頭處的資料庫連線語句。需要requests、bs4、pymysql庫支援。爬取和網站目錄結構有關，網

python爬取貓眼電影資訊

爬取TOP100所有電影的資訊,(電影名, 主演，上映時間) 爬取該電影的宣傳封面的圖片, 儲存到本地/mnt/img/目錄中; 將獲取的資訊, 儲存到mysql資料庫中(電影名, 主演，上映時間, 封面圖片的本地路徑) import re #<

python爬取豆瓣電影資訊

''' 用到的主要知識：(詳情見官方文件） 1. requests 2. BeautifulSoup 3. codecs 4. os ''' #-*-coding:utf-8 import requests from bs4 import Beautif

爬蟲：用Python爬取招聘職位資訊&職位需求分析

用Python爬取智聯招聘網站“資料分析”相關崗位資訊 # _*_ coding: utf-8 _*_ from bs4 import BeautifulSoup import requests import csv import json import pa

python 爬取豆瓣書籍資訊

繼爬取貓眼電影TOP100榜單之後，再來爬一下豆瓣的書籍資訊（主要是書的資訊，評分及佔比，評論並未爬取）。原創，轉載請聯絡我。需求：爬取豆瓣某型別標籤下的所有書籍的詳細資訊及評分語言：python 支援庫：正則、解析和搜尋：re、requests、bs4、lxml

python 爬蟲 requests+BeautifulSoup 爬取巨潮資訊公司概況代碼實例

pan 字符 selenium 5.0 target 自我 color list tails 第一次寫一個算是比較完整的爬蟲，自我感覺極差啊，代碼low，效率差，也沒有保存到本地文件或者數據庫，強行使用了一波多線程導致數據順序發生了變化。。。貼在這裏，引以為戒吧。 #

利用高德API + Python爬取鏈家網租房資訊 01

看了實驗樓的專案發現五八同城爬取還是有點難度所以轉戰鏈家實驗程式碼如下 from bs4 import BeautifulSoup from urllib.request import urlopen import csv url = 'https://gz.lia

★ Python爬蟲 - 爬取網頁文字資訊並儲存（美文的爬取與儲存）

本篇文章所包含的主要內容：使用requests模組實現對網頁以字串的形式儲存使用open()、write()、close()函式實現檔案的開啟與寫入使用if() 條件語句對所需要的文字資訊進行過濾以形成一個專用提取函式 &n

Python練習三:爬蟲練習,從一個提供免費代理的網站中爬取IP地址資訊

西刺代理,http://www.xicidaili.com/,提供免費代理的IP,是爬蟲程式的目標網站. 開始寫程式 import urllib.requestimport re def open_url(url): 　　req = urllib.request.Request(url) 　　req

Python爬蟲：爬取網站電影資訊

以爬取電影天堂喜劇片前5頁資訊為例，程式碼如下： 1 # coding:UTF-8 2 3 import requests 4 import re 5 6 def mov(): 7 headers={'User-Agent':'Mozilla/5.0 (Windo

用python爬取拉勾網招聘資訊並以CSV檔案儲存

爬取拉勾網招聘資訊 1、在網頁原始碼中搜索資訊，並沒有搜到，判斷網頁資訊使用Ajax來實現的 2、檢視網頁中所需的資料資訊，返回的是JSON資料； 3、條件為北京+資料分析師的公司一共40087家，而實際拉勾網展示的資料只有 15條/頁 * 30頁 = 450條，所以需要判斷

python實戰之網路爬蟲（爬取網頁新聞資訊列表）

關於大資料時代的資料探勘（1）為什麼要進行資料探勘：有價值的資料並不在本地儲存，而是分佈在廣大的網路世界，我們需要將網路世界中的有價值資料探勘出來供自己使用（2）非結構化資料：網路中的資料大多是非結構化資料，如網頁中的資料都沒有固定的格式（3）非結構化資料的挖掘--ETL：即三個步

Python爬取天氣資訊並定時傳送給微信好友(異地戀神器)！！

效果前言中國天氣網： http://www.weather.com.cn/ 點選右上角的具體的天氣資料想獲取哪個城市的天氣，就搜尋城市進行切換這裡以青島為例可以看到此時url為： http://www.weather.com.cn/weat

Python爬取安居客經紀人資訊

Python爬取安居客經紀人資訊 Python2.7.15 今天我們來爬取安居客經紀人的資訊。這次我們不再使用正則，我們使用beautifulsoup。不瞭解的可以先看一下這個文件，便於理解。https://beautifulsoup.readthedocs.io/zh_CN/v4.4.

python爬取杭州市幼兒園資訊

一、爬取前準備

二、爬取資訊

三、總結

相關推薦