Crawler4j 快速入門

阿新 • • 發佈：2019-02-16

crawler4j是Java實現的開源網路爬蟲。提供了簡單易用的介面，可以在幾分鐘內建立一個多執行緒網路爬蟲

crawler4j中用了slf4j來記錄專案執行日誌資訊。我們使用slf4j具體實現類log4j

建立一個maven專案。在pom.xml貼上所需jar

    <dependency>
      <groupId>org.apache.logging.log4j</groupId>
      <artifactId>log4j-core</artifactId>
      <version>2.8.2</version>
    </dependency>
    <dependency>
      <groupId>org.slf4j</groupId>
      <artifactId>slf4j-log4j12</artifactId>
      <version>1.7.25</version>
      <scope>test</scope>
    </dependency>
    <dependency>
      <groupId>edu.uci.ics</groupId>
      <artifactId>crawler4j</artifactId>
      <version>4.2</version>
    </dependency>

在resources下貼上log4j.properties

log4j.rootLogger = debug,D,E
   
 
### debug ###
log4j.appender.D = org.apache.log4j.DailyRollingFileAppender
log4j.appender.D.File = c://logs/log.log
log4j.appender.D.Append = true
log4j.appender.D.Threshold = DEBUG 
log4j.appender.D.layout = org.apache.log4j.PatternLayout
log4j.appender.D.layout.ConversionPattern = %-d{yyyy-MM-dd HH:mm:ss}  [ %t:%r ] - [ %p ]  %m%n
 
### error ###
log4j.appender.E = org.apache.log4j.DailyRollingFileAppender
log4j.appender.E.File =c://logs/error.log 
log4j.appender.E.Append = true
log4j.appender.E.Threshold = ERROR 
log4j.appender.E.layout = org.apache.log4j.PatternLayout
log4j.appender.E.layout.ConversionPattern = %-d{yyyy-MM-dd HH:mm:ss}  [ %t:%r ] - [ %p ]

編寫爬蟲類

package com.gcx.crawler;

import edu.uci.ics.crawler4j.crawler.Page;
import edu.uci.ics.crawler4j.crawler.WebCrawler;
import edu.uci.ics.crawler4j.parser.HtmlParseData;
import edu.uci.ics.crawler4j.url.WebURL;

import java.util.Set;
import java.util.regex.Pattern;

/**
 * 自定義爬蟲類myCrawler需要繼承WebCrawler,決定哪些url被爬取以及處理爬的頁面資訊
 */
public class MyCrawler extends WebCrawler {

    /**
     * 正則匹配指定的字尾檔案
     */
    private final static Pattern FILTERS= Pattern.compile(".*(\\.(css|js|gif|jpg|png|mp3|zip|gz))$");


    /**
     *   根據url進行網頁的解析，對返回為TRUE的網頁進行抓取
     *   第一個引數referringPage封裝了當前爬取的頁面資訊
     *   第二個引數封裝了當前爬取頁面的url資訊
     */
    @Override
    public boolean shouldVisit(Page referringPage, WebURL url) {
        //小寫url
        String href=url.getURL().toLowerCase();
        //正則匹配，過濾掉我們不需要的字尾檔案
        return !FILTERS.matcher(href).matches()//匹配過濾掉不需要的字尾檔案
                && href.startsWith("http://www.bjsxt.com");//url必須是http://www.baidu.com開頭
    }

    /**
     * 解析網頁內容，page類包含了豐富的方法，可以利用這些方法得到網頁的內容和屬性
     * 當我們爬取到我們需要的頁面，這個方法會被呼叫，我們可以隨意處理頁面
     * page 封裝了所有頁面資訊
     *
     */
    @Override
    public void visit(Page page) {
        //獲取url
        String url=page.getWebURL().getURL();
        System.out.println("url:"+url);
        //判斷是否是html資料
        if(page.getParseData() instanceof HtmlParseData){
            //強制型別轉換，獲取html資料物件
            HtmlParseData htmlParseData= (HtmlParseData) page.getParseData();
            //獲得頁面純文字
            String text=htmlParseData.getText();
            //獲得頁面html
            String html=htmlParseData.getHtml();
            //獲取頁面輸出連結
            Set<WebURL> links=htmlParseData.getOutgoingUrls();

            System.out.println("純文字長度: " + text.length());
            System.out.println("html長度: " + html.length());
            System.out.println("輸出連結個數: " + links.size());
        }
    }
}

寫一個控制器呼叫，我們爬取一個www.bjsxt.com

package com.gcx.crawler;

import edu.uci.ics.crawler4j.crawler.CrawlConfig;
import edu.uci.ics.crawler4j.crawler.CrawlController;
import edu.uci.ics.crawler4j.fetcher.PageFetcher;
import edu.uci.ics.crawler4j.robotstxt.RobotstxtConfig;
import edu.uci.ics.crawler4j.robotstxt.RobotstxtServer;

/**
 * 爬蟲控制器
 */
public class Controller {
    public static void main(String[] args) throws Exception {
        //定義爬蟲儲存的位置
        String crawStorageFoler="d:/crawler";
        //定義爬蟲執行緒7個
        int numberOfCrawlers=1;
        //定義爬蟲配置
        CrawlConfig config=new CrawlConfig();
        //設定爬蟲檔案儲存位置
        config.setCrawlStorageFolder(crawStorageFoler);
        //例項化頁面獲取器
        PageFetcher pageFetcher=new PageFetcher(config);
        //例項化爬蟲機器人配置,比如可以設定user-agent
        RobotstxtConfig robotstxtconfig=new RobotstxtConfig();
        //例項化爬蟲機器人對目標伺服器的配置，每個網站都有一個robots.txt檔案
        //規定了該網站哪些頁面可以爬，哪些頁面禁止爬，該類是對robots.txt規範的實現
        RobotstxtServer robotstxtServer=new RobotstxtServer(robotstxtconfig,pageFetcher);
        //例項化爬蟲控制器
        CrawlController controller=new CrawlController(config,pageFetcher,robotstxtServer);
        //配置爬取種子頁面，就是規定從哪裡開始爬，可以配置多個種子頁面
        controller.addSeed("http://www.bjsxt.com");


        //啟動爬蟲，爬蟲從此刻開始執行爬蟲任務
        controller.start(MyCrawler.class,numberOfCrawlers);
    }
}

爬取如下：

簡單一個爬蟲例項搞定

當然還提供了基本的例項

package com.gcx.crawler;

import edu.uci.ics.crawler4j.crawler.Page;
import edu.uci.ics.crawler4j.crawler.WebCrawler;
import edu.uci.ics.crawler4j.parser.HtmlParseData;
import edu.uci.ics.crawler4j.url.WebURL;
import org.apache.http.Header;

import java.util.Set;
import java.util.regex.Pattern;

/**
 * 自定義爬蟲類myCrawler需要繼承WebCrawler,決定哪些url被爬取以及處理爬的頁面資訊
 */
public class MyCrawler extends WebCrawler {

    /**
     * 正則匹配指定的字尾檔案  指定圖片字尾
     */
    private static final Pattern IMAGE_EXTENSIONS = Pattern.compile(".*\\.(bmp|gif|jpg|png)$");

    /**
     * 這個方法主要是決定哪些url我們需要抓取，返回true表示是我們需要的，返回false表示不是我們需要的Url
     * 第一個引數referringPage封裝了當前爬取的頁面資訊
     * 第二個引數url封裝了當前爬取的頁面url資訊
     */
    @Override
    public boolean shouldVisit(Page referringPage, WebURL url) {
        String href = url.getURL().toLowerCase(); // 得到小寫的url
        // 過濾掉含有圖片字尾的url
        if (IMAGE_EXTENSIONS.matcher(href).matches()) {
            return false;
        }

        // 只接受www.bjsxt.com開頭的url
        return href.startsWith("http://www.bjsxt.com/");
    }

    /**
     * 當我們爬到我們需要的頁面，這個方法會被呼叫，我們可以盡情的處理這個頁面
     * page引數封裝了所有頁面資訊
     */
    @Override
    public void visit(Page page) {
        int docid = page.getWebURL().getDocid(); // 獲取docid url的唯一識別 類似主鍵
        String url = page.getWebURL().getURL();  // 獲取url
        String domain = page.getWebURL().getDomain(); // 獲取域名
        String path = page.getWebURL().getPath();  // 獲取路徑
        String subDomain = page.getWebURL().getSubDomain(); // 獲取子域名
        String parentUrl = page.getWebURL().getParentUrl(); // 獲取上級Url
        String anchor = page.getWebURL().getAnchor(); // 獲取錨點

        System.out.println("docid:" + docid);
        System.out.println("url:" + url);
        System.out.println("domain:" + domain);
        System.out.println("path:" + path);
        System.out.println("subDomain:" + subDomain);
        System.out.println("parentUrl:" + parentUrl);
        System.out.println("anchor:" + anchor);


        if (page.getParseData() instanceof HtmlParseData) { // 判斷是否是html資料
            HtmlParseData htmlParseData = (HtmlParseData) page.getParseData(); // 強制型別轉換，獲取html資料物件
            String text = htmlParseData.getText();  // 獲取頁面純文字（無html標籤）
            String html = htmlParseData.getHtml();  // 獲取頁面Html
            Set<WebURL> links = htmlParseData.getOutgoingUrls();  // 獲取頁面輸出連結

            System.out.println("純文字長度: " + text.length());
            System.out.println("html長度: " + html.length());
            System.out.println("輸出連結個數: " + links.size());
        }

        Header[] responseHeaders = page.getFetchResponseHeaders(); // 獲取響應頭訊息
        if (responseHeaders != null) {
            System.out.println("響應的頭訊息");
            for (Header header : responseHeaders) {
                System.out.println(header.getName() + "+" + header.getValue());
            }
        }

    }
}

package com.gcx.crawler;

import edu.uci.ics.crawler4j.crawler.CrawlConfig;
import edu.uci.ics.crawler4j.crawler.CrawlController;
import edu.uci.ics.crawler4j.fetcher.PageFetcher;
import edu.uci.ics.crawler4j.robotstxt.RobotstxtConfig;
import edu.uci.ics.crawler4j.robotstxt.RobotstxtServer;

/**
 * 爬蟲控制器
 */
public class Controller {
    public static void main(String[] args) throws Exception {
        String crawlStorageFolder = "d:/crawl"; // 定義爬蟲資料儲存位置
        int numberOfCrawlers = 7; // 定義7個爬蟲，也就是7個執行緒

        CrawlConfig config = new CrawlConfig();  // 例項化爬蟲配置檔案

        config.setCrawlStorageFolder(crawlStorageFolder); // 設定爬蟲檔案儲存位置

        /*
         * 設定請求的頻率
         * 每1000毫秒，也就是兩次請求的間隔至少是1秒
         */
        config.setPolitenessDelay(1000);

        /*
         * 設定請求的網頁的深度（後面專門會講）  設定2 為兩層
         * 預設值-1 無限深度
         */
        config.setMaxDepthOfCrawling(2);

        /*
         * 設定爬取的最大網頁數 這裡設定1000  最多爬取1000次
         * 預設值是-1，表示無限制
         */
        config.setMaxPagesToFetch(1000);

        /**
         * 是否爬取二進位制檔案，比如圖片，PDF文件，視訊之類的東西 這裡設定false 不爬取
         * 預設值true，爬取
         */
        config.setIncludeBinaryContentInCrawling(false);

        /*
         * 這裡可以設定代理
         * config.setProxyHost("proxyserver.example.com");  // 代理地址
         * config.setProxyPort(8080); // 代理埠
         *
         * 如果使用代理，也可以設定身份認證  使用者名稱和密碼
         * config.setProxyUsername(username); config.getProxyPassword(password);
         */

        /*
         * 這個配置假如設定成true，當一個爬蟲突然終止或者奔潰，我們可以恢復；
         * 預設配置是false；推薦用預設配置，假如設定成true，效能會大打折扣；
         */
        config.setResumableCrawling(false);

        /*
         * 例項化爬蟲控制器
         */
        PageFetcher pageFetcher = new PageFetcher(config); // 例項化頁面獲取器
        RobotstxtConfig robotstxtConfig = new RobotstxtConfig(); // 例項化爬蟲機器人配置 比如可以設定 user-agent

        // 例項化爬蟲機器人對目標伺服器的配置，每個網站都有一個robots.txt檔案 規定了該網站哪些頁面可以爬，哪些頁面禁止爬，該類是對robots.txt規範的實現
        RobotstxtServer robotstxtServer = new RobotstxtServer(robotstxtConfig, pageFetcher);

        // 例項化爬蟲控制器
        CrawlController controller = new CrawlController(config, pageFetcher, robotstxtServer);

        /*
         * 配置爬蟲種子頁面，就是規定的從哪裡開始爬，可以配置多個種子頁面
         */
        controller.addSeed("http://www.bjsxt.com/");

        /*
         * 啟動爬蟲，爬蟲從此刻開始執行爬蟲任務，根據以上配置
         */
        controller.start(MyCrawler.class, numberOfCrawlers);
    }
}

執行如下：

Crawler4j快速入門例項

crawler4j是Java實現的開源網路爬蟲。提供了簡單易用的介面，可以在幾分鐘內建立一個多執行緒網路爬蟲。 <dependency> <groupId>edu.uci.ics</groupId>

Crawler4j 快速入門

crawler4j是Java實現的開源網路爬蟲。提供了簡單易用的介面，可以在幾分鐘內建立一個多執行緒網路爬蟲 crawler4j中用了slf4j來記錄專案執行日誌資訊。我們使用slf4j具體實現類log4j 建立一個maven專案。在pom.xml貼上所需jar

day39-Spring 12-Spring的JDBC模板：快速入門

pri 哪些困難 ces 5.0 使用只需要 common commons Spring AOP的關鍵是它的底層的原理和思想,配置和使用並不是十分困難.AOP本身就是一個思想,是面向對象的延伸,不是用來替換面向對象的,而是用來解決面向對象中的一些問題的.在最初的時候提出

vuex2快速入門

for nbsp mar lin ext mac os cnblogs value san #建立store.jsimport Vue from ‘vue‘; import Vuex from ‘vuex‘; Vue.use(Vuex) export d

快速入門系列--WCF--07傳輸安全、授權與審核

最大的緩存 ims cut 常見曾經 strong 這一 set 這部分主要涉及企業級應用的安全問題，一般來說安全框架主要提供3個典型的安全行為：認證、授權和審核。除了典型的安全問題，對於一個以消息作為通信手段的分布式應用，還需要考慮消息保護(Message Prote

快速入門系列

body 現在安全 behavior 需求 discovery 中心驗證溝通最後一章將進行WCF擴展和新特性的學習，這部分內容有一定深度，有一個基本的了解即可，當需要自定義一個完整的SOA框架時，可以再進行細致的學習和實踐。服務端架構體系的構建主要包含接下來

快速入門系列--WCF--02消息、會話與服務寄宿

abc align bsp 不同的 cpu .org 程序伸縮網絡經過WCF基礎的ABC學習，已經可以構建簡單的WCF的服務，使用不同的服務地址和綁定類型，根據業務提供所需的服務契約。但不禁想問，服務所使用的消息報文是什麽樣的形式麽？蘊含什麽樣內容呢？WCF服務是否支

python 基本語法速覽，快速入門

我們 method adding ger monk use gre 數據類型 struct https://zhuanlan.zhihu.com/p/24536868 學習參考於這個博文。我做一個筆記。關於python一些常用的語法快速的預覽，適合已經掌握一門編程語

Django REST framework 的快速入門教程

ret turn ads 使用 blog 所有定義想去 cti CRM-API項目搭建序列器（Serializers）首先，我們來定義一些序列器。我們來創建一個新的模塊（module）叫做 crm/rest_searializer.py ，這是我們用來描述數據是如何

Celery 分布式任務隊列快速入門

ade sunday reat 失敗繼續 complete port 機器 single Celery介紹和基本使用在項目中如何使用celery 啟用多個workers Celery 定時任務與django結合通過django配置celery period

Unity快速入門

小冰教程應該 arp nbsp 2.3 入門模擬操作飛機 1.熟悉基本操作。最權威的應該是官方出品，158元的Unity官方教程，其他的基礎操作視頻 lynda 的5.0 ，5.4都可以 2.熟悉簡單例子，將API熟悉一下啊，這個過程中，背誦API是捷徑。 2

Vue.js——60分鐘快速入門

attribute 否則 style屬性快速基於 oid creat get rac Vue.js是當下很火的一個JavaScript MVVM庫，它是以數據驅動和組件化的思想構建的。相比於Angular.js，Vue.js提供了更加簡潔、更易於理解的API，使得我們能

Redis快速入門

pool har 語法 ansi 使用 https 測試的對象 sta Redis快速入門一、簡介 Redis是一個開源的使用ANSI C語言編寫、遵守BSD協議、支持網絡、可基於內存亦可持久化的日誌型、Key-Value數據庫，並提供多種語言的A

快速入門系列--WebAPI--03框架你值得擁有

let lan 最重要的 reason cnblogs err 註意解釋 max 接下來進入的是俺在ASP.NET學習中最重要的WebAPI部分，在現在流行的互聯網場景下，WebAPI可以和HTML5、單頁應用程序SPA等技術和理念很好的結合在一起。所謂ASP.N

快速入門系列--WebAPI--01基礎

簡單例子 codec 應該 sem ons 請求重定向選擇 char 阻止 ASP.NET MVC和WebAPI已經是.NET Web部分的主流，剛開始時兩個公用同一個管道，之後為了更加的輕量化(WebAPI是對WCF Restful的輕量化)，WebAPI使用了新的管道

快速入門系列--MVC--06視圖

出版 value 快速入門 stream 類型 path .cn esc eba 到了View的呈現板塊，感覺ASP.NET MVC的學習也進入了尾聲，還是比較開心的，畢竟也有了不小收獲。這部分內容相對比較簡單，因為之前還專門學習過如何結合HTML5與MVC框架。前

快速入門系列--CLR--03泛型集合

value mov nts readonly 只有一個並且 cer view 工作 .NET中的泛型集合在這裏主要介紹常見的泛型集合，很多時候其並發時的線程安全性常常令我們擔憂。因而簡述下.NET並發時線程安全特性，其詳情請見MSDN。普通集合都不支持多重並發寫操

MongoDb的基本操作快速入門

基本操作 mongodb mongodb增刪該查操作示例 mongodb快速入門 1.MongoDb簡介 mongodb是一個基於分布式存儲的開源數據庫系統又被稱為文檔數據庫，可以將數據存儲為一個文檔，數據結構有鍵值對（key=>value）對組成，存儲的文檔類似於JSON對象（BS

Vue.js——組件快速入門（上篇）

綁定 ram 字符串過濾技術 dem ava 對象 src get Vue.js——60分鐘組件快速入門（上篇）組件簡介組件系統是Vue.js其中一個重要的概念，它提供了一種抽象，讓我們可以使用獨立可復用的小組件來構建大型應用，任意類型的應用界面都可以抽象為一個組件

VIM常用命令——快速入門，行走江湖

其中 6.2 分別是改變它的字符狀態強制 vim常用命令 VIM詳細命令有很多，我們選用一些常用的入門命令，足以對付日常的代碼編輯工作了，如果日後有需要使用其他命令，再來查詢也不遲。 vim一般有3種編輯模式，分別是插入模式，正常模式(normal mode)，末

Crawler4j 快速入門

相關推薦