webmagic是個神奇的爬蟲【三】—— 使用selenium模擬登陸

阿新 • • 發佈：2019-01-12

selenium本身是一種自動化測試工具，可以模擬瀏覽器進行頁面的載入，好處在於能通過程式，自動的完成例如頁面登入、AJAX內容獲取的的操作。

尤其是獲取AJAX生成的動態資訊方面，一般爬蟲只會獲取當前頁面的靜態資訊，不會載入動態生成的內容，但是selenium則完美的幫我們實現了這一功能。

但同樣他也有一些不好的地方，就是使用selenium功能的時候，需要事先載入selenium的驅動，在通過selenium本身加載出頁面動態生成的內容，以供之後爬取。

但是這節我們只講selenium的一個基本操作：頁面登入

後續我們還會講如何通過selenium進行動態頁面的爬取

================================================ 我是萌萌噠分割線 ======================================================

開始擼程式碼：

首先，我們先通過maven，配置好selenium的相關依賴

        <dependency>
            <groupId>org.seleniumhq.selenium</groupId>
            <artifactId>selenium-java</artifactId>
            <version>3.3.1</version>
        </dependency>

上面是selenium的相關配置，當然，webmagic本身也對selenium有所整合，相關配置如下：

 	<dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>webmagic-selenium</artifactId>
            <version>${webmagic.version}</version>
            <exclusions>
                <exclusion>
                    <groupId>org.slf4j</groupId>
                    <artifactId>slf4j-log4j12</artifactId>
                </exclusion>
            </exclusions>
        </dependency>

webmagic的這個配置對selenium有個一套簡單的封裝，具體使用哪種依賴各位看喜好就可以

使用selenium對頁面盡進行爬取時，首先需要下載相關的瀏覽器驅動，不同版本的瀏覽器對應的驅動也不一樣

我用的是chrome的驅動，所以也提供一下chromedriver的下載地址，其餘如火狐、ie的驅動百度一下都可以輕鬆找到

chromedriver相關資源

WebDriver driver = new ChromeDriver();
driver.get("http://www.meipai.com/");

爬取之前，需要以上兩句載入瀏覽器驅動和爬取的目標網址

以為我已經把驅動放在chrome路徑下的bin資料夾中，並且在環境變數path中也把chromedriver的地址加進去，所以我在new ChromeDriver的時候沒有帶引數

如果不想把驅動配到環境變數中也可以直接吧驅動的路徑寫成引數傳進去就可以（

例：

new ChromeDriver("D://chromedriver.exe")

）

public class MeipaiProccessor implements PageProcessor {
    private Site site = Site.me().setRetryTimes(3).setSleepTime(1000).setTimeOut(3000)
            .setUserAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36");

    @Override
    public void process(Page page) {
        WebDriver driver = new ChromeDriver();
        driver.get("http://www.meipai.com/");

	//防止頁面未能及時加載出來而設定一段時間延遲
        try {
            Thread.sleep(1000);
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
        //找到登入按鈕，點選
        driver.findElement(By.id("headerLogin")).click();
        try {
            Thread.sleep(1000);
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
        driver.findElement(By.id("dialogLWrap")).findElement(By.id("dialogLPlatform")).findElement(By.tagName("a")).click();
        driver.findElement(By.id("userId")).sendKeys("賬號");
        driver.findElement(By.id("passwd")).sendKeys("密碼");
        driver.findElement(By.xpath("//p[@class='oauth_formbtn']/a[@node-type='submit']")).click();
        try {
            Thread.sleep(1000);
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
        driver.findElement(By.xpath("//p[@class='oauth_formbtn']/a[@node-type='submit']")).click();

    }

    @Override
    public Site getSite() {
        return site;
    }

    public static void main(String[] args) {
        List<SpiderListener> spiderListeners = new ArrayList<>();
        SpiderListener spiderListener = new SpiderListener() {
            @Override
            public void onSuccess(Request request) {
                System.out.println("sucsess");
            }

            @Override
            public void onError(Request request) {

            }
        };
        spiderListeners.add(spiderListener);
        Spider.create(new MeipaiProccessor())
                .setSpiderListeners(spiderListeners)
                .addUrl("http://www.meipai.com/")
                .thread(5)
                .start();
    }

以上是對美拍進行模擬登陸的程式碼，之前配置過一些基礎的BasePageProcess類，把site和一些基礎的邏輯功能放在裡面，然後讓爬蟲程式只需要完成頁面解析的功能，但是當時忘記把BasePageProcess類的程式碼貼上去，到時有人反映程式跑不起來，所以這次一切從簡，實現webmagic最基本的PageProcessor介面，所有的邏輯都在以上程式中體現出來。

程式碼功能比較單一，主要就是通過findElement方法定位到賬號密碼的輸入框，把對應的賬號密碼輸入進去，最後點選登入完成整個模擬登陸的操作。

selenium本身沒有什麼難理解的東西，而且還能幫助我們更好的完善爬蟲的功能。用好它，爬蟲的水平必將更上層樓！

webmagic是個神奇的爬蟲【三】—— 使用selenium模擬登陸

selenium本身是一種自動化測試工具，可以模擬瀏覽器進行頁面的載入，好處在於能通過程式，自動的完成例如頁面登入、AJAX內容獲取的的操作。尤其是獲取AJAX生成的動態資訊方面，一般爬蟲只會獲取當前頁面的靜態資訊，不會載入動態生成的內容，但是selenium則完美的幫我們實現了這一功能。

【三】【selenium+python】賬號登入頁面並重新整理頁面

#!coding=utf-8from selenium import webdriverimport timedriver = webdriver.Chrome()#driver = webdriver.Firefox()driver.get("http://pc.s2bte

【Python】selenium調用IE11瀏覽器，報錯“找不到元素”NoSuchWindowException: Message：Unable to find element on closed window

conn ont csdn creates logs 註冊 target get 意思當編寫自動化腳本，定位瀏覽器元素時，報如下錯誤：代碼： >>> # coding=utf-8 >>> from selenium import w

【Python】Selenium元素定位錯誤之解決辦法

tor log -m alt src 多個 common nbu invalid 當使用class定位元素時發現報錯：錯誤信息：selenium.common.exceptions.InvalidSelectorException: Message: Compound

計算機網絡【三】：數據鏈路層【轉】

緩存 strong mac 幾分鐘 tcp協議 tran 可靠性如何 wid 轉自：http://blog.chinaunix.net/uid-26275986-id-4104189.html 按照TCP/IP協議由下往上的順序，今天我們來學習一下數據鏈

【三】剛學Python的幾道簡單練習題

-1 找到 ext split art style white 字符串索引是否 python交友娛樂會所：613176398 （一）name = "aleX leNb" 1) 移除 name 變量對應的值兩邊的空格,並輸出處理結果 name = "a

【三】MongoDB文檔的CURD操作

其中 iat options match imu 可選不能 dal 多個一、插入文檔使用insert方法插入文檔到一個集合中，如果集合不存在創建集合，有以下幾種方法： db.collection.insertOne({})：(v3.2 new) #插入一個文檔到集

【Python】【控制流程】【三】【協程】

trace 執行 this tool 引用給他異常 rmp 解釋 """# 16.2 用過協程的生成器的基本行為#例子16-1 可能是協程最簡單的使用演示def simple_coroutine(): print(‘-> coroiutine started

【Python】【元編程】【三】【元類】

無法使用 import iter 時也 food ini lin abc __init__ ‘‘‘# str、 type 和 LineItem 是object 的子類 str、 object 和 LineItem 是 type 的實例，因為它們都是類object 類和

【Linux】【三】linux 復制文件到指定目錄

color 指令 tro too pos -s .cn -cp com 將　　application/file/test/logs/　　下的文件 logs.log ， logs.tar 復制到　　application/file/test/tools/　　下，並新

009-elasticsearch【三】示例數據導入、URI查詢方式簡介、Query DSL簡介、查詢簡述【_source、match、must、should等】、過濾器、聚合

ase emp -h 集合 shard ken 結果 employ 5.1 一、簡單數據客戶銀行賬戶信息，json { "account_number": 0, "balance": 16623, "firstname": "Brad

【轉】Selenium - 封裝WebDrivers (C#)

from BE ive str 支持 asf res file pty 本文轉載自：http://www.cnblogs.com/qixue/p/3977135.html Web element仍然使用OpenQA.Selenium.IWebElement, 本類庫將Se

【轉】Selenium-xpath詳解

input end tab UC 子元素 dom 絕對路徑 sele .class 1、XPATH是什麽 XPATH是一門在XML文檔中查找信息的語言，XPATH可用來在XML文檔中對元素和屬性進行遍歷，主流的瀏覽器都支持XPATH，因為HTML頁面在DOM中表示為XHT

Docker學習筆記【三】安裝Redis

art port 再次 dock 使用 contain bash Go red 項目中使用到Redis，平常都是別人搭建的，今天試著在Google Cloud Platform 上搭建一個學習環境。 1.使用 docker pull redis 從docker hub中下載

【bugRecord3】selenium.common.exceptions.WebDriverException: Message: Unsupported Marionette protocol version 2, required 3

net div mage 技術最新圖片 pycha exc mario 環境信息：Windows7 64位 + python 3.6.5 + selenium 3.11.0 +pyCharm 1 #coding=utf-8 2 from selenium im

webmagic是個神奇的爬蟲【三】—— 使用selenium模擬登陸

webmagic是個神奇的爬蟲【三】—— 使用selenium模擬登陸

【三】【selenium+python】賬號登入頁面並重新整理頁面

【Python】selenium調用IE11瀏覽器，報錯“找不到元素”NoSuchWindowException: Message：Unable to find element on closed window

【Python】Selenium元素定位錯誤之解決辦法

計算機網絡【三】：數據鏈路層【轉】

【三】剛學Python的幾道簡單練習題

【三】MongoDB文檔的CURD操作

【Python】【控制流程】【三】【協程】

【Python】【元編程】【三】【元類】

【Linux】【三】linux 復制文件到指定目錄

009-elasticsearch【三】示例數據導入、URI查詢方式簡介、Query DSL簡介、查詢簡述【_source、match、must、should等】、過濾器、聚合

【轉】Selenium - 封裝WebDrivers (C#)

【轉】Selenium-xpath詳解

Docker學習筆記【三】安裝Redis

【bugRecord3】selenium.common.exceptions.WebDriverException: Message: Unsupported Marionette protocol version 2, required 3

【523】selenium多窗口處理

Python爬蟲【五】Scrapy分布式原理筆記

Mongodb知識樹整理【三】pymongo

【三】makefile中的變數

caffe 原始碼分析【三】：Euclidean loss layer

webmagic是個神奇的爬蟲【三】—— 使用selenium模擬登陸

相關推薦