python+selenium——爬取網站

阿新 • • 發佈：2018-12-27

#coding:utf-8
import re
import xlrd  
import xlwt  
import time
import pandas as pds
from selenium import webdriver
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.by import By
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

browser=webdriver.Chrome()  #驅動谷歌瀏覽器

#讀取excel
def excel(fname):
          data=pds.read_excel(fname)
          return data
        
#進入網站                
def go_url(url):
    wait=WebDriverWait(browser,3)
    try:
                browser.get(url)
                wait.until(
                      EC.presence_of_element_located((By.XPATH,'//div[@class="places-tab margin20"]//table')),
                  )
    except TimeoutException:
                print('Timeout')

#定位節點——點選
def click_locatin_element(element , text):
     try:
                button=browser.find_element_by_xpath(element)
                button.click()
     except:
                print(text+"不可點選")    
                
#根據文字——點選                
def click_according_text(text):
    try:
                button=browser.find_element_by_link_text(text)
                button.click()
    except:
                print(text+'不可點選')
                
#下拉+內容——點選
def pull_down_menu(down_element ,error_text1, text):
    click_locatin_element(down_element , error_text1)
    click_according_text(text)
        
#獲取url中的表並寫入檔案
def write_table_data(url):
    try:
        data =pds.read_html(url)[0]
        data.to_csv('C:/Users/Administrator/Desktop/一批文分數線.csv', sep=',', mode='a',index = False, )
    except:
        print('無資料')
                
#獲取當前網頁的url                
def get_current_url():
    url = browser.current_url
    print(url)
    return url
            
#獲取url中的表並寫入檔案
def write_school(i , school):
        writeschool=pds.DataFrame([[i,school]])
        writeschool.to_csv('C:/Users/Administrator/Desktop/一批文分數線.csv', sep=',', mode='a',index = False,header = False)

#計算執行時間的裝飾器
def my_time(func):
    def wrapper():
        s_time = time.time()  #程式初始時間
        func()
        e_time = time.time()#程式執行完的時間
        print('totally cost :{:.2f}'.format(e_time-s_time)+'秒')  #獲取總時間
    return wrapper        

@my_time   #裝飾器
def  total():
    data=excel("C:/Users/Administrator/Desktop/pandas.xls")  #讀資料
    nrow=data.shape[0]   #獲取資料的行數
    for i in range(0,nrow):
        url=data.values[i][1]
        school=data.values[i][0]
        print("正在爬取第"+str(i)+"個學校")
        write_school(i ,school)  #寫入學校
        go_url(url)  #進入初始網頁
        if (i ==0):         #第一次進入網頁要點選“湖北”
            click_locatin_element('//div[@class="citybox clearfix"]//div[@province_code="42"]' ,'湖北') #點選湖北
        pull_down_menu('//div[@class="li-selectDiv right"]//div[@id="schoolexamieetype"]' , '下拉框' , '文科') #點選文科所在的下拉框
        url=get_current_url() #獲取當前網頁的url
        write_table_data(url)  #獲取url中的表並寫入檔案
    browser.close()    #關閉瀏覽器

if __name__ == '__main__':    
    total()

爬取結果：
在這裡插入圖片描述

附：
在這裡插入圖片描述

在這裡插入圖片描述
當定位其中的“任務型別”的li 標籤時，這樣寫：.//li[text()=‘任務型別：’]

如果想使用contains（可以只指定部分包含的資訊）：.//li[contains(text(),‘任務類’)]

當定位其中的“任務型別”的li 標籤時，這樣寫：.//li[text()=‘任務型別：’]

如果想使用contains（可以只指定部分包含的資訊）：.//li[contains(text(),‘任務類’)]

這裡客串一下：.//li[starts-with(text(),‘任務類’)]、.//li[strats-with(.,‘任務類’)]

看起來很完美，就這麼簡單？並不是！，如下：
在這裡插入圖片描述

試試定位“單次預約任務§”的li 標籤，發現上面的方法失效了！

那改怎麼辦？不急，說他最好用，那就當然有辦法，look：.//li[contains(.,‘單次預約’)]

perfect！

python+selenium——爬取網站

#coding:utf-8 import re import xlrd import xlwt import time import pandas as pds from selenium import webdriver from selenium.common.exception

python selenium爬取QQ空間方法

class text 空間方法 ram () end cli bdr from selenium import webdriver import time # 打開瀏覽器 dr = webdriver.Chrome() # 打開某個網址 dr.get(‘https://

python+selenium爬取動漫圖片

#在風之動漫網上下載海賊王，輸入需要下載的章節，將漫畫下載的本地#實現思路：# 1 海賊王的漫畫目錄連結是：https://www.fzdm.com/manhua/02/# 2 第X話的漫畫。連線是https://www.fzdm.com/manhua/02/X/，例如，924話連結是https://www.

Python + selenium 爬取百度文庫Word文字

1 # -*- coding:utf-8 -*- 2 3 import time 4 from selenium import webdriver 5 from selenium.webdriver.chrome.options import Options 6 from seleniu

Python + selenium 爬取百度文庫Word文本

count btn nts odin ott webdriver pan from div 1 # -*- coding:utf-8 -*- 2 3 import time 4 from selenium import webdriver 5 from se

Python爬蟲——爬取網站的例項化原始碼

缺點：1爬了一個網站好幾次以後不能再進行爬取。沒有解決這個問題 2在寫入資料的時候還是存在很大問題。以後多加練習這個檔案的儲存的相關工作 import re import urllib.request def function(): """需求：1 https://re

Python—selenium爬取快代理

本篇使用 selenium技術爬取快代理上的代理IP，並判斷其是否可用。 #爬取代理IP from selenium import webdriver from selenium.webdriver.common.proxy import Proxy fro

使用python+selenium爬取同城旅遊網機票資訊

最近使用python+selenium爬取了同城旅遊網機票資訊相關主要程式碼如下，通過模擬人為操作，拿下了這個機票列表的html程式碼，然後就可以使用xpath或者re等方式從中提取需要的欄位資訊了。 from selenium import webdriver

Python + Selenium 爬取網易雲課堂課時標題及時長

Python + Selenium 爬取網易雲課堂課時標題及時長轉載請註明出處：https://blog.csdn.net/jpch89/article/details/84142555 文章目錄 Python + Selenium 爬取網易雲課堂課時標

Python爬蟲爬取網站上的圖片

使用selenium爬取網站動態資料

處理頁面動態載入的爬取 selenium selenium是python的一個第三方庫，可以實現讓瀏覽器完成自動化的操作，比如說點選按鈕拖動滾輪等環境搭建：安裝:pip install selenium 獲取瀏覽器的驅動程式：下載地址http://chromedrive

Python爬蟲爬取網站新聞

網站分析爬取過程獲取新聞連結地址使用requests包讀取新聞列表頁面，然後使用正則表示式提取出其中的新聞頁面連結，返回urls列表 def getList(url): li = requests.get(url) re

【爬蟲】python selenium 爬取資料

最近公司有一項爬取資料的工作，借鑑以往的程式碼將爬蟲重新更新並整理將現有爬蟲分成幾部分 0.檔案讀取器其實檔案讀取和4中的檔案儲存是在一個部分的這裡簡單介紹下xls的讀取def deal_xl

Python selenium 爬取天天基金網股票型基金

對於股票市場長期的判斷，普通上班族沒有多少時間和資料可以分析。那麼，就應該藉助基金機構選擇的股票來分析，藉助各基金經理管理的股票基金來統計，哪些股票是基金經理或團隊分析購買的。所以選擇的是股票型基金，最終將分析得出哪類股票是機構最多選擇的，那隻股票是機構購買最多的。利用基金

python +selenium 爬取淘寶網商品資訊

前幾天用python爬取豆瓣關於電影《長城》的影評，發現豆瓣的網頁是靜態的，心中一陣竊喜。以為對於動態網頁瞭解的不是太多。但是主要是用cookie加headers爬取的。效果還不錯，爬取了六七萬條網友的評價，後期主要打算研究一下，如何發現那些使用者是水軍。今天研

[python爬蟲] selenium爬取區域性動態重新整理網站（URL始終固定）

在爬取網站過程中，通常會遇到區域性動態重新整理情況，當你點選“下一頁”或某一頁時，它的資料就進行重新整理，但其頂部的URL始終不變。這種區域性動態重新整理的網站，怎麼爬取資料呢？某網站資料顯示如下圖所示，當點選“第五頁”之時，其URL始終不變，傳統的網站爬取方法是無法拼接這類

python爬蟲：爬取網站視頻

爬蟲 python python爬取百思不得姐網站視頻：http://www.budejie.com/video/新建一個py文件，代碼如下：#!/usr/bin/python # -*- coding: UTF-8 -*- import urllib,re,requests import sys

python 爬蟲爬取證券之星網站

爬蟲周末無聊，找點樂子。。。#coding:utf-8 import requests from bs4 import BeautifulSoup import random import time #抓取所需內容 user_agent = ["Mozilla/5.0 (Windows NT 10.0

scrapy結合selenium爬取淘寶等動態網站

ice 網站 -i war 原因 def exe imp span 1.首先創建爬蟲項目 2.進入爬蟲 class TaobaoSpider(scrapy.Spider): name = ‘taobao‘ allowed_domains = [‘taobao.c

python scrapy爬取皇冠體育源碼下載網站數據二（scrapy使用詳細介紹）

時間源碼保存文件 i+1 zh-cn china flat url def 1、scrapy工程創建皇冠體育源碼下載論壇：haozbbs.com Q1446595067 在命令行輸入如下命令，創建一個使用scrapy框架的工程 scrapy startproject s

python+selenium——爬取網站

相關推薦