Java網路爬蟲（七）--實現定時爬取與IP代理池

阿新 • • 發佈：2019-01-06

定點爬取

當我們需要對金融行業的股票資訊進行爬取的時候，由於股票的價格是一直在變化的，我們不可能手動的去每天定時定點的執行程式，這個時候我們就需要實現定點爬取了，我們引入第三方庫quartz的使用：

package timeutils;

import org.quartz.CronTrigger;
import org.quartz.JobDetail;
import org.quartz.Scheduler;
import org.quartz.SchedulerFactory;
import org.quartz.impl.StdSchedulerFactory;

import 
 java.text.SimpleDateFormat;
import java.util.Date;

import static org.quartz.CronScheduleBuilder.cronSchedule;
import static org.quartz.JobBuilder.newJob;
import static org.quartz.TriggerBuilder.newTrigger;

/**
 * Created by paranoid on 17-4-13.
 */

public class TimeUpdate {
    public void go() throws 
 Exception {
        // 首先，必需要取得一個Scheduler的引用(設定一個工廠)
        SchedulerFactory sf = new StdSchedulerFactory();

        //從工廠裡面拿到一個scheduler例項
        Scheduler sched = sf.getScheduler();

        //真正執行的任務並不是Job介面的例項，而是用反射的方式例項化的一個JobDetail例項
        JobDetail job = newJob(MyTimeJob.class).withIdentity("job1" 
, "group1").build();
        // 定義一個觸發器，job 1將每隔執行一次
        CronTrigger trigger = newTrigger().withIdentity("trigger1", "group1").
                withSchedule(cronSchedule("50 47 17 * * ?")).build();

        //執行任務和觸發器
        Date ft = sched.scheduleJob(job, trigger);

        //格式化日期顯示格式
        SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss SSS");
        System.out.println(job.getKey() + " 已被安排執行於: " + sdf.format(ft) + "，" +
                "並且以如下重複規則重複執行: " + trigger.getCronExpression());

        sched.start();
    }

    public static void main(String[] args) throws Exception {
        TimeUpdate test = new TimeUpdate();
        test.go();
    }
}

在上面的程式碼中，已經詳細的給出了實現定時爬取的基本程式碼：

JobDetail job = newJob(MyTimeJob.class).withIdentity("job1", "group1").build();

這句程式碼中的MyTimeJob.class就是我們要執行的任務程式碼，它是通過類的反射載入機制進行執行的，之後我們設定它為第一組的第一個任務。

要使用這個第三方庫我們需要了解一些cron表示式的概念，網上由於對它的說明很多，我就不再這裡進行說明，大家可以看到：

cronSchedule("50 47 17 * * ?")

我設定的是每天的17：47：50秒執行這個程式。

值得注意的是：我們所要執行的任務必須寫在execute方法之中，在下面的程式碼就是一個例項，也就是我們需要實現的IP代理池。

IP代理池

在網上搜索了很多關於反爬蟲的機制，實用的還是IP代理池，我依照網上的思想自己寫了一個，大致的思路是這樣的：

首先我使用本機IP在xici（西刺）代理網站上的高匿IP代理區抓取了第一頁的代理IP放入了一個數組之中;
然後我使用陣列中的IP對要訪問的頁面進行輪番呼叫，每訪問一個頁面就換一個IP;
我將得到的IP按連結速度的快慢進行排序，選需速度最快的前100個;
我對得到的IP進行測試，如果不能使用就在容器中刪除;
將最終的IP寫入資料庫中。

實現IP代理池的主要邏輯程式碼如下：

package timeutils;

import IPModel.DatabaseMessage;
import IPModel.IPMessage;
import database.DataBaseDemo;
import htmlparse.URLFecter;
import ipfilter.IPFilter;
import ipfilter.IPUtils;
import org.quartz.Job;
import org.quartz.JobExecutionContext;
import org.quartz.JobExecutionException;

import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

import static java.lang.System.out;

/**
 * Created by paranoid on 17-4-13.
 */

public class MyTimeJob implements Job {
    public void execute(JobExecutionContext argv) throws JobExecutionException {
        List<String> Urls = new ArrayList<>();
        List<DatabaseMessage> databaseMessages = new ArrayList<>();
        List<IPMessage> list = new ArrayList<>();
        List<IPMessage> ipMessages = new ArrayList<>();
        String url = "http://www.xicidaili.com/nn/1";
        String IPAddress;
        String IPPort;
        int k, j;

        //首先使用本機ip進行爬取
        try {
            list = URLFecter.urlParse(url, list);
        } catch (IOException e) {
            e.printStackTrace();
        } catch (ClassNotFoundException e) {
            e.printStackTrace();
        }

        //對得到的IP進行篩選，選取連結速度前100名的
        list = IPFilter.Filter(list);

        //構造種子Url
        for (int i = 1; i <= 5; i++) {
            Urls.add("http://www.xicidaili.com/nn/" + i);
        }

        //得到所需要的資料
        for (k = 0, j = 0; j < Urls.size(); k++) {
            url = Urls.get(j);

            IPAddress = list.get(k).getIPAddress();
            IPPort = list.get(k).getIPPort();
            //每次爬取前的大小
            int preIPMessSize = ipMessages.size();
            try {
                ipMessages = URLFecter.urlParse(url, IPAddress, IPPort, ipMessages);
                //每次爬取後的大小
                int lastIPMessSize = ipMessages.size();
                if(preIPMessSize != lastIPMessSize){
                    j++;
                }

                //對IP進行輪尋呼叫
                if (k >= list.size()) {
                    k = 0;
                }
            } catch (ClassNotFoundException e) {
                e.printStackTrace();
            } catch (IOException e) {
                e.printStackTrace();
            }
        }

        //對得到的IP進行篩選，選取連結速度前100名的
        ipMessages = IPFilter.Filter(ipMessages);

        //對ip進行測試，不可用的從陣列中刪除
        ipMessages = IPUtils.IPIsable(ipMessages);

        for(IPMessage ipMessage : ipMessages){
            out.println(ipMessage.getIPAddress());
            out.println(ipMessage.getIPPort());
            out.println(ipMessage.getServerAddress());
            out.println(ipMessage.getIPType());
            out.println(ipMessage.getIPSpeed());
        }

        //將得到的IP儲存在資料庫中(每次先清空資料庫)
        try {
            DataBaseDemo.delete();
            DataBaseDemo.add(ipMessages);
        } catch (ClassNotFoundException e) {
            e.printStackTrace();
        }

        //從資料庫中將IP取到
        try {
            databaseMessages = DataBaseDemo.query();
        } catch (ClassNotFoundException e) {
            e.printStackTrace();
        }

        for (DatabaseMessage databaseMessage: databaseMessages) {
            out.println(databaseMessage.getId());
            out.println(databaseMessage.getIPAddress());
            out.println(databaseMessage.getIPPort());
            out.println(databaseMessage.getServerAddress());
            out.println(databaseMessage.getIPType());
            out.println(databaseMessage.getIPSpeed());
        }
    }
}

整個IP代理池程式的實現架構如下：

這裡寫圖片描述

database包中包裝了資料庫的各種操作;
htmlparse包中主要實現了對得到的html頁面的解析工作;
httpbrowser包中主要實現了返回請求Url返回html頁面的工作;
ipfilter包中主要實現了IP的過濾（速度可好）和檢測（是否可用）;
ipmodel中主要封裝了抓取ip的維度和從資料庫中拿到的ip的維度;
timeutils主要實現了定點爬取和整體邏輯。

原始碼連結

有興趣的同學可以前往我的github上檢視整個專案的原始碼，程式碼量不多而且註釋也比較清晰，如果覺得不錯的話可以給個星哦～～

Java網路爬蟲（七）--實現定時爬取與IP代理池

定點爬取當我們需要對金融行業的股票資訊進行爬取的時候，由於股票的價格是一直在變化的，我們不可能手動的去每天定時定點的執行程式，這個時候我們就需要實現定點爬取了，我們引入第三方庫quartz的使用： package timeutils; imp

Java網路爬蟲（十）--使用多執行緒提升爬蟲效能的思路小結

在開始說正事之前我先給大家介紹一下這份程式碼的背景，以免大家有一種霧裡看花的感覺。在本系列的前幾篇部落格中有一篇是用多執行緒進行百度圖片的抓取，但是當時使用的多執行緒是非常粗略的，只是開了幾個執行緒讓抓取的速度提升了一些（其實提升了很多），初步的使用了一下執行緒

Java網路爬蟲（八）--使用多執行緒進行百度圖片的抓取

宣告：如需轉載本篇文章，請進行私聊並在文章首處註明出處，本程式碼未經授權不可用於獲取商業價值，否則後果將由自己承擔。這次的需求大概是從百度圖片裡面抓取任意的分類的圖片，考慮到有些圖片的資源不是很好，並且由於百度搜索越到後面相關度會越來越低，所以我將每個分類要

Java網路爬蟲（五）--使用Jsoup的select語法進行元素查詢

使用Jsoup進行元素的查詢有兩種方法。有使用DOM方法來遍歷一個文件，也有使用選擇器語法來查詢元素，而後者類似於CSS或jQuery的語法來查詢和操作元素。對於這兩個方法到底使用哪個感覺好上手我覺得因人而異，在我嘗試了兩種方法之後我還是選擇select，所以我

Java網路爬蟲（六）--JSON資料的解析

有時候，我們抓取下來一個html頁面，發現瀏覽器頁面可以顯示的東西在html原始碼中卻沒有，這時候我們就要考慮伺服器是以JSON格式將這部分資料傳送到客戶端的，對於這種情況的處理方式我們一般是在chrome的開發者工具中找到對應的JSON包，然後構建其URL，對

Python網路爬蟲（七）：解決ImportError:DLL load failed：作業系統無法執行問題

背景： Python版本：Anaconda3 問題描述：最近在執行scrapy專案時，本來安裝好好的scrapy框架突然報錯，猝不及防， ImportError:DLL load failed：作業系統無法執行%1 如圖：自己也是百思

JAVA網路爬蟲（三）：HttpClient獲取HTML

在本爬蟲專案中採用Httpclient來模擬客戶端瀏覽器，訪問並獲取網頁資源。 HttpClient簡介 Http協議是網際網路中最重要的協議之一。雖然JDK中的java.net包提供了一些http的基本方法，可以通過http協議來訪問網路資源，但

python 爬蟲（一） requests+BeautifulSoup 爬取簡單網頁代碼示例

utf-8 bs4 rom 文章都是 Coding man header 文本以前搞偷偷摸摸的事，不對，是搞爬蟲都是用urllib，不過真的是很麻煩，下面就使用requests + BeautifulSoup 爬爬簡單的網頁。詳細介紹都在代碼中註釋了，大家可以參閱。

python爬蟲（1）——簡單的爬取網頁的資訊

獲取網上真實的語料資料，本身對Py的掌握不是很好，記錄下自己學習的過程，希望對你有幫助。 #python3 獲得taoeba的語料（不知道從哪翻到的這個網站，有各國語言的句子，訪問速度較慢 # -

小白學 Python 爬蟲（31）：自己構建一個簡單的代理池

人生苦短，我用 Python 前文傳送門：小白學 Python 爬蟲（1）：開篇小白學 Python 爬蟲（2）：前置準備（一）基本類庫的安裝小白學 Python 爬蟲（3）：前置準備（二）Linux基礎入門小白學 Python 爬蟲（4）：前置準備（三）Docker基礎入門小白學 Pyth

JAVA基礎複習（七）多執行緒和網路

1、建立執行緒和任務，如： //任務類必須實現Runnable介面 public class TaskClass implements Runnable{ ... public TaskClass(...){ ... } //想要在該執行緒執行的

對抗神經網路學習（七）——SRGAN生成超解析度影像(tensorflow實現)

一、背景 SRGAN(Super-Resolution Generative Adversarial Network)即超解析度GAN，是Christian Ledig等人於16年9月提出的一種對抗神經網路。利用卷積神經網路實現單影像的超解析度，其瓶頸仍在於如何恢復影象的細微紋理資訊。對於GAN

【網路爬蟲】【java】微博爬蟲（二）：如何抓取HTML頁面及HttpClient使用

一、寫在前面上篇文章以網易微博爬蟲為例，給出了一個很簡單的微博爬蟲的爬取過程，大概說明了網路爬蟲其實也就這麼回事，或許初次看到這個例子覺得有些複雜，不過沒有關係，上篇文章給的例子只是讓大家對爬蟲過程有所瞭解。接下來的系列裡，將一步一步地剖析每個過程。現

MATLAB神經網路程式設計（七）——BP神經網路的實現

《MATLAB神經網路程式設計》化學工業出版社讀書筆記第四章前向型神經網路 4.3 BP傳播網路本文是《MATLAB神經網路程式設計》書籍的閱讀筆記，其中涉及的原始碼、公式、原理都來自此書，若有不理解之處請參閱原書本文講述BP網路常

用C#實現網路爬蟲（一）

1 private void ReceivedData(IAsyncResult ar) 2 { 3 RequestState rs = (RequestState)ar.AsyncState; //獲取引數 4 HttpWebRequest req = rs.Req; 5

python3實現網路爬蟲（3）--BeautifulSoup使用（2）

在這一次的內容中，我們繼續討論BeautifulSoup的一些操作，我們這次只討論幾個在實踐中用處特別大的幾個函式。這次我們將學習通過屬性查詢標籤的方法，標籤組的使用。我們一起回憶一下，基本上，我們見過的每個網站都會使用層疊樣式表（css，不懂的可以補一下網頁相關知識）

Java爬蟲（七）- httpClient進階: https 和證書認證（講故事篇）

一、前言本篇風格會偏向講故事，來記錄整個發現問題，解決問題的過程。具體的知識點總結放在後一篇。前段陣子被分配了一個工單，要求抓取另一個險企B的資料。想著應該不會比上一家A麻煩了，險企A抓取資料過程中有幾次請求是跨域的，很多資料都是由ajax動態請求到的，

tensorflow入門教程(十七)python3網路爬蟲（上）

1、概述在繼續學習tensorflow之前，我想先寫一下python爬蟲的內容，作為深度學習的一個技能補充。深度學習需要用到大量的訓練資料，沒有爬蟲靠人工下載，工作量不敢想象。學會爬蟲就可以去爬一些收集訓練資料需要（或喜歡）的網站了。如果想深入學習爬蟲，推薦這本書《精

python3實現網路爬蟲（2）--BeautifulSoup使用（1）

這一次我們來了解一下美味的湯--BeautifulSoup，這將是我們以後經常使用的一個庫，並且非常的好用。 BeautifuleSoup庫的名字取自劉易斯·卡羅爾在《愛麗絲夢遊仙境》裡的同名詩歌。在故事中，這首歌是素甲魚唱的。就像它在仙境中的說法一樣，BeautifulS

python3實現網路爬蟲（1）--urlopen抓取網頁的html

準備開始寫一些python3關於爬蟲相關的東西，主要是一些簡單的網頁爬取，給身邊的同學入門看。首先我們向網路伺服器傳送GET請求以獲取具體的網頁，再從網頁中讀取HTML內容。我們大家平時都使用網路瀏覽器，並且它已經成為我們上網不可或缺的軟體。它建立資訊的資

Java網路爬蟲（七）--實現定時爬取與IP代理池

定點爬取

IP代理池

原始碼連結

相關推薦