python爬蟲+網頁點選事件+selenium模擬瀏覽器，爬取選股寶內容

阿新 • • 發佈：2018-12-18

（一）PYTHON的安裝（已安裝，可跳過此步驟）

1、PYTHON下載

PYTHON官網：https://www.python.org/

按照對應的系統下載，我這裡是window系統，點選windows,根據自己系統操作位數下載

新增環境變數：

如果沒有新增，可自行在計算機新增

（二）第三方庫的安裝

安裝selenium和pyquery，在cmd命令下輸入 pip install selenium（pyquery安裝類似）

如果報錯則進入python目錄下scripts目錄下，再輸入命令

在python的IDLE下如果沒有報錯則安裝成功

（三）瀏覽器及相應瀏覽器驅動的安裝

這裡主要使用chrome瀏覽器，自行去谷歌官網下載安裝，安裝後檢視谷歌版本，單擊關於google chrome

（一般在這裡都可以找到）

我的版本：67.0

下載對應的webdriver （這裡沒有可以自己推測每3個版本，對應一個v65-67---v2.38,即v68-70--v2.39）

下載地址：http://chromedriver.storage.googleapis.com/index.html

把下載好的chromedriver.exe，解壓後放到python36目錄下（或者python36目錄下的scripts）

在IDLE下執行如下程式碼，會自動開啟你谷歌瀏覽器（環境搭建完成）

（四）例項程式碼詳解

要求：爬取https://www.xuangubao.cn/股票網站的資訊（（“利好”或“利空”）和“相關股票”），實現點選載入更多

（1）開啟瀏覽器，獲取相關訊息：

（2）網頁分析（selenium有很多定位方法，這裡用到比較少）

在上面的程式碼中，data已經擁有了網頁當前頁的所有內容（可輸出觀察）；我們現在只要從中拿到我們想要的資料

在網頁中，右鍵，審查元素，（或者檢查）分析網頁：（由於得到的data可能與網頁的分析有所出入，建議最好輸出data，從data中分析得到正則表示式）

我們用正則表示式找到所有以1開頭，以2為結尾內容用findall函式

實現點選：（點選之後的”利好”和“相關股票”的正則會與首頁的不同（後面點選的與第一次點選後的一樣））

定位方法有：（這裡用的比較少不做詳細介紹，大家自行了解）：

find_element_by_id　當你知道一個元素的id屬性時使用它。使用此策略，將返回具有與該位置匹配的id屬性值的第一個元素。 find_element_by_name　當你知道一個元素的name屬性時使用它。使用此策略，將返回具有與該位置匹配的id屬性值的第一個元素。 find_element_by_xpath find_element_by_link_text find_element_by_partial_link_text find_element_by_tag_name find_element_by_class_name find_element_by_css_selector

原始碼附上：

#coding=utf-8
from selenium import webdriver
import time
import re
from pyquery import PyQuery as pq


def openurl(url,num):
        browser  = webdriver.Chrome()  #開啟瀏覽器
        browser.get(url)               #進入相關網站
        html=browser.page_source       #獲取網站原始碼
        data=str(pq(html))             #str() 函式將物件轉化為適於人閱讀的形式。
                                                                                                              
        dic={}                         
        re_rule=r'<div class="news-item-container">(.*?)<div data-v-00b2e9bc=""/>'       
        datalist=re.findall(re_rule,data,re.S)
        for i in range(0,len(datalist)):
                rule1=r'<img src="/img/icon-lihao.png" data-v-6c26747a=""/>(.*?)<!----></span>'
                bullish = re.findall(rule1,datalist[i],re.S)
                if len(bullish)==0:
                        rule1=r'<img src="/img/icon-likong.png" data-v-6c26747a=""/>(.*?)</span>'
                        bullish = re.findall(rule1,datalist[i],re.S)
                        
                rule2=r'<span class="stock-group-item-name" data-v-f97d9694="">(.*?)</span>'
                stock_name=re.findall(rule2,datalist[i], re.S)
                
                if len(stock_name) > 0 and len( bullish) > 0:
                        for c in range(0,len(stock_name)):
                                dic[stock_name[c]]= bullish[0]
                                print("正在爬取第",len(dic)+1,"個請稍等.....") 
              
        c=len(datalist)
        if len(dic) < num:
                while(1):
                        browser.find_element_by_class_name("home-news-footer").click()
                        time.sleep(1)
                        html=browser.page_source
                        data=str(pq(html))
                        datalist=re.findall(re_rule,data,re.S)
                        for i in range(c,len(datalist)):
                                rule3=r'<img data-v-6c26747a="" src="/img/icon-lihao.png"/>(.*?)<!----></span>'
                                bullish = re.findall(rule3,datalist[i],re.S)
                                if len(bullish)==0:
                                        rule5=r'<img data-v-6c26747a="" src="/img/icon-likong.png"/>(.*?)</span>'
                                        bullish = re.findall(rule5,datalist[i],re.S)
                                rule4=r'<span data-v-f97d9694="" class="stock-group-item-name">(.*?)</span>'
                                stock_name=re.findall(rule4,datalist[i], re.S)
                                                
                                if len(stock_name) > 0 and len( bullish) > 0:
                                        for c in range(0,len(stock_name)):
                                                dic[stock_name[c]]= bullish[0]
                                                
                            
                        c=len(datalist)
                        if len(dic) > num :
                                browser.quit()
                                print("爬取完畢！！")
                                break


                        print("正在爬取第",len(dic)+1,"個請稍等.....")   
        else:
                browser.quit()
                print("爬取完畢！！")
                
        return dic
                                                                         
url='https://www.xuangubao.cn/'
dict=openurl(url,3)
print(dict)
#f=open("F:\\text.txt","a")
#for key,values in  dict.items():
        #f.write((key+"\t"))
        #print(key,values)
#f.close()

--------------------- 原文：https://blog.csdn.net/weixin_42551465/article/details/80817552

python爬蟲+網頁點選事件+selenium模擬瀏覽器，爬取選股寶內容

（一）PYTHON的安裝（已安裝，可跳過此步驟） 1、PYTHON下載 PYTHON官網：https://www.python.org/ 按照對應的系統下載，

python爬蟲入門（五）Selenium模擬使用者操作

爬蟲(Spider)，反爬蟲(Anti-Spider)，反反爬蟲(Anti-Anti-Spider) 之間恢巨集壯闊的鬥爭... 小莫想要某站上所有的電影，寫了標準的爬蟲(基於HttpClient庫)，不斷地遍歷某站的電影列表頁面，根據 Html 分析電影名字存進自己的資料庫。這個站

[Python爬蟲] 之十九：Selenium +phantomjs 利用 pyquery抓取超級TV網數據

images 判斷 nco dex onf etc lac lin 利用　　一、介紹　　　　本例子用Selenium +phantomjs爬取超級TV（http://www.chaojitv.com/news/index.html）的資訊信息，輸入給定關鍵字抓取

python 爬蟲（二）使用代理模擬瀏覽器

import urllib.request import random url = "http://www.baidu.com" #建立一個代理列表，每次隨機使用一個，防止被封IP agnetsList = [ "Mozilla/5.0 (iPad; U; CPU O

python爬蟲實踐——零基礎快速入門（二）爬取豆瓣電影

爬蟲又稱為網頁蜘蛛，是一種程式或指令碼。但重點在於，它能夠按照一定的規則，自動獲取網頁資訊。爬蟲的基本原理——通用框架 1.挑選種子URL； 2.講這些URL放入帶抓取的URL列隊； 3.取出帶抓取的URL，下載並存儲進已下載網頁庫中。此外，講這些URL放入帶抓取UR

python:爬蟲之Post請求以及動態Ajax資料的爬取（3）

#爬蟲的post方式作用：對引數進行打包反饋給伺服器 import urllib.request import urllib.parse #對引數打包 url = "http://www.sunck.wang:8085/form" data = { "use

Python爬蟲入門教程 3-100 美空網資料爬取

簡介從今天開始，我們嘗試用2篇部落格的內容量，搞定一個網站叫做“美空網”網址為：http://www.moko.cc/，這個網站我分析了一下，我們要爬取的圖片在下面這個網址 http://www.moko.cc/post/1302075.html 然後在去分析一下，我需要找到一個圖片列表

Python爬蟲教程：圖蟲網多執行緒爬取

我們這次也玩點以前沒寫過的，使用python中的queue，也就是佇列下面是我從別人那順來的一些解釋，基本爬蟲初期也就用到這麼多 Python學習資料或者需要程式碼、視訊加Python學習群：960410445 1. 初始化： classQueue.Queue(maxsize)FIFO

selenium模擬 + 滑鼠滾動爬取魔方公寓租房評論資訊

因為魔方公寓的評論資訊是在一個單獨的div中, 需要模擬滑鼠滾動才能拿到評論資訊, 並且每次只能拿到在頁面顯示的內容, 頁面沒有顯示的取出來的是空. 因此只能在每次滾動後取值儲存. 程式碼: import time import win32api, win32con from win

python爬蟲遇到驗證碼的處理方法（以爬取中國執行資訊公開網為例）

朋友們大家好，python爬蟲是在學習python時比較容易上手的學習方式，爬蟲的思路簡要以下幾點： 1.獲取需要爬取頁面的網址，並且對網頁內容進行分析。（主要就原始碼討論，如果我們需要的內容沒有在原始碼出現，則需要進行抓包分析） 2.找到我們需要爬取的內容時我們

python爬蟲實踐——零基礎快速入門（四）爬取小豬租房資訊

接下來我們爬取小豬短租租房資訊。進入主頁後選擇深圳地區的位置。地址如下： http://sz.xiaozhu.com/ 一，標題爬取按照慣例，我們先複製標題的xpath資訊，多複製幾個進行對比： //*[@id="page_list"]/ul/li[1]/

Python爬蟲【實戰篇】百度貼吧爬取頁面存到本地

先上程式碼 import requests class TiebaSpider: def __init__(self, tieba_name): self.tieba_name = tieba_name self.url_temp = " htt

python爬蟲系列（一）百度首頁爬取

前言經受不住爬蟲技術的吸引，為此決定踏入”爬蟲”這條不歸路。爬蟲介紹其實在我眼裡，爬蟲無非所見即所得，也就是一切皆可爬。至於url技術和python環境在此就不重複。在此使用urllib庫進行初步學習。 python:2.7 初次嘗試

Python爬蟲周記之案例篇——基金凈值爬取（下）

ges 獲取字符串附加 json ram headers 列表現在在簡單完成了基金凈值爬取以後，我們對中間的過程可能產生了很多疑惑，即使完成了目標，也僅僅是知其然而不知其所以然，而為了以後爬蟲任務的順利進行，對爬蟲過程中所涉及的原理進行掌握是十分有必要的。本文將會

Python爬蟲實戰（1）——百度貼吧抓取帖子並儲存內容和圖片

最近在網上看了很多的爬蟲指令碼，寫的參差不齊，但是其中有很多寫的非常的優秀，程式碼質量很高，規範性也很好，很具有代表性，非常值得我們去學習！~ 寫好一個python爬蟲需要有以下幾個必備條件： 1、足夠好的程式碼規範(等號前後加空格、逗號後加空格等等)，結構性封裝性好，重

使用HTTPURLConnection模擬登陸，爬取網頁內容

如果你需要爬取某些網頁的內容，但這些網站需要登入，那就需要一些額外的步驟來由程式來完成這些登入並爬取我們需要的網頁內容了，任意登入頁面都是向伺服器傳送請求，如果我們能夠模擬向伺服器傳送請求，那麼自然登入也就不在話下，通過Fiddler抓取我們需要的一些資訊，很輕鬆的就能模擬

Python爬蟲學習6：scrapy入門（一）爬取汽車評論並儲存到csv檔案

一、scrapy 安裝：可直接使用Anaconda Navigator安裝，也可使用pip install scrapy安裝二、建立scrapy 爬蟲專案：語句格式為 scrapy startproject project_name生成的爬蟲專案目錄如下，其中spiders

Python爬蟲入門【8】：蜂鳥網圖片爬取之三

蜂鳥網圖片--囉嗦兩句前面的教程內容量都比較大，今天寫一個相對簡單的，爬取的還是蜂鳥，依舊採用aiohttp 希望你喜歡爬取頁

selenium+chrome瀏覽器驅動-爬取百度圖片

com max-age col presence and 下載其他 htm row 百度圖片網頁中中，當頁面滾動到底部，頁面會加載新的內容。我們通過selenium和谷歌瀏覽器驅動，執行js，是瀏覽器不斷加載頁面，通過抓取頁面的圖片路徑來下載圖片。 1 from s

Python selenium 模擬瀏覽器：輸入+點選

程式碼示例：模擬淘寶搜尋 from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui impor

python爬蟲+網頁點選事件+selenium模擬瀏覽器，爬取選股寶內容

相關推薦