詳細教程：crawler4j 爬取京東商品資訊 Java爬蟲入門 crawler4j教程

阿新 • • 發佈：2019-01-22

現今比較流行的爬蟲語言，屬Java、paython和c語言，筆者學習的是Java語言，所以介紹下使用Java如何爬取網頁資訊。

我們先從一個最原始的Java爬蟲demo開始，再來看如何使用crawler4j這個框架進行爬蟲。

Demo

使用Java的Url物件，指向網址並建立連線，獲取輸入流，解析流中的資訊。該Demo只需一個jdk即可，不用引入其他jar包，下面請看原始碼。

public static void main(String[] args) throws IOException {

        //新建一個url物件 通過構造方法傳入url值
        URL url = new URL("https://www.jd.com/");
        //建立Java和url的一個連線，相當於我們訪問網址，不同的是Java返回的是connection 我們肉眼返回的是網頁內容
        HttpURLConnection connection = (HttpURLConnection) url.openConnection();
        //通過相應狀態碼判斷是否訪問成功
        int code = connection.getResponseCode();
        if (code != 200) {
            return;
        }
        //獲取connection對網頁訪問之後 的一個輸入流，該流中包含了網頁的資訊內容
        InputStream stream = connection.getInputStream();
        //通過BufferedReader 獲取流中的資訊
        BufferedReader reader = new BufferedReader(new InputStreamReader(stream, "utf-8"));
        //輸出資訊
        String r = null;
        while ((r = reader.readLine()) != null) {
            System.out.println(r);
        }
    }

這裡的url傳入時必須要帶http協議，不能只傳入jd.com，否則會報異常：

Exception in thread "main" java.net.MalformedURLException: no protocol: jd.com

我們看一下輸出內容(僅截取了一小部分內容)：

<!DOCTYPE HTML>
<html lang="zh-CN">
<head>
  <meta charset="UTF-8">
  <title>京東(JD.COM)-正品低價、品質保障、配送及時、輕鬆購物！</title>
  <meta name="description" content="京東JD.COM-專業的綜合網上購物商城,銷售家電、數碼通訊、電腦、家居百貨、服裝服飾、母嬰、圖書、食品等數萬個品牌優質商品.便捷、誠信的服務，為您提供愉悅的網上購物體驗!" />
  <meta name="Keywords" content="網上購物,網上商城,手機,筆記本,電腦,MP3,CD,VCD,DV,相機,數碼,配件,手錶,儲存卡,京東" />
  <script type="text/javascript">
    window.pageConfig = {
      compatible: true,
      preload: false,
      navId: "jdhome2016",
	  timestamp: 1521683291000, 
      isEnablePDBP: 0,，
		surveyTitle : "調查問卷",
		surveyLink : "//surveys.jd.com/index.php?r=survey/index/sid/889711/newtest/Y/lang/zh-Hans",
		leftCateABtestSwitch : 0,
		"" : ""
    };

至此，一個簡單的爬蟲就已經實現完成了。原理很簡單：使用Url物件，指向網址並建立連線，獲取輸入流，解析流中的資訊，根據獲取的資訊內容，篩選出自己的需求資訊即可。當然，這幾行程式碼可能遠遠不能滿足我們的需求，所以市場上有了很多開源的Java爬蟲框架，例如nutch、Heritrix、crawler4j等等，具體有何區別，請點選這裡。

下面我們進入正題，如何運用crawler4j進行快速爬蟲。github原始碼下載

根據github上的原始碼和readme.md文件，可以很快使用crawler4j進行爬蟲。有一定英語基礎可以看看readme.md文件。

crawler4j is an open source web crawler for Java which provides a simple interface for crawling the Web. Using it, you can setup a multi-threaded web crawler in few minutes.

上面介紹說，crawler4j是一個開源的爬蟲框架，可以快速建立一個多執行緒爬取網站的程式，而且幾分鐘之內就能完成編碼。

第一步：如果讀者使用過maven，可以很輕鬆的使用maven的pom引入即可。

    <repositories>
        <repository>
            <id>onebeartoe</id>
            <name>onebeartoe</name>
            <url>https://repository-onebeartoe.forge.cloudbees.com/snapshot/</url>
        </repository>
    </repositories>
    
    <dependencies>
        <dependency>
            <groupId>edu.uci.ics</groupId>
            <artifactId>crawler4j</artifactId>
            <version>4.4-SNAPSHOT</version>
        </dependency>
    </dependencies>

如果你沒有用過maven那麼，你需要把原始碼打成jar包，然後引入jar包，使用即可。

第二步：建立一個crawler類繼承WebCrawler ，並重寫兩個方法，如下：

public class MyCrawler2 extends WebCrawler {
    @Override
    public boolean shouldVisit(Page referringPage, WebURL url) {
        //這個方法的作用是過濾不想訪問的url 
        //return false時  url被過濾掉不會被爬取
        return super.shouldVisit(referringPage, url);
    }
    @Override
    public void visit(Page page) {
        //這個方法的作用是當shouldVisit方法返回true時，呼叫該方法，獲取網頁內容，已被封裝到Page物件中
        super.visit(page);
    }
}

第三步：建立一個controller類（實際任意類都行）,建立main方法，根據官方文件，只需修改執行緒數量和url就行了。該url可以被稱為種子，只要傳入一個url，crawler4j就會根據url中的內容獲取頁面中所有的url然後再次爬取，周而復始，但重複的網址不會重複爬取，不會出現死迴圈。

public class Controller {
    public static void main(String[] args) throws Exception {
        String crawlStorageFolder = "/data/crawl/root";//檔案儲存位置
        int numberOfCrawlers = 7;//執行緒數量

        CrawlConfig config = new CrawlConfig();
        config.setCrawlStorageFolder(crawlStorageFolder);//配置物件設定

        PageFetcher pageFetcher = new PageFetcher(config);
        RobotstxtConfig robotstxtConfig = new RobotstxtConfig();
        RobotstxtServer robotstxtServer = new RobotstxtServer(robotstxtConfig, pageFetcher);
        CrawlController controller = new CrawlController(config, pageFetcher, robotstxtServer);//建立

        controller.addSeed("http://www.ics.uci.edu/~lopes/");//傳入的url

        controller.start(MyCrawler.class, numberOfCrawlers);//開始執行爬蟲
    }
}

啟動main方法就可以完成網頁的爬取了。

使用maven方式僅僅引入以上的pom檔案，會有個問題，啟動的時候總是報錯，

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/http/ssl/TrustStrategy
	at com.chenyao.Controller.main(Controller.java:25)
Caused by: java.lang.ClassNotFoundException: org.apache.http.ssl.TrustStrategy

這個真是百思不得其解，後來網上搜了一下這個錯誤。匯入了兩個jar包就可以了，版本一定要高。

        <dependency>
            <groupId>org.apache.httpcomponents</groupId>
            <artifactId>httpcore</artifactId>
            <version>4.4</version>
        </dependency>
        <dependency>
            <groupId>org.apache.httpcomponents</groupId>
            <artifactId>httpclient</artifactId>
            <version>4.4.1</version>
        </dependency>

下面寫一個例項，爬取京東商品資訊

1.控制器

public class Controller {
    public static void main(String[] args) throws Exception {
        String crawlStorageFolder = "/data/crawl/root";//檔案儲存位置
        int numberOfCrawlers = 1;//執行緒數量

        CrawlConfig config = new CrawlConfig();
        config.setCrawlStorageFolder(crawlStorageFolder);//配置資訊設定

        PageFetcher pageFetcher = new PageFetcher(config);
        RobotstxtConfig robotstxtConfig = new RobotstxtConfig();
        RobotstxtServer robotstxtServer = new RobotstxtServer(robotstxtConfig, pageFetcher);
        CrawlController controller = new CrawlController(config, pageFetcher, robotstxtServer);//建立爬蟲執行器

        controller.addSeed("https://search.jd.com/Search?keyword=筆記本&enc=utf-8&wq=筆記本");//傳入種子 要爬取的網址

        controller.start(MyCrawler2.class, numberOfCrawlers);//開始執行爬蟲

2.爬蟲類，這裡的兩個實現方法尤為重要，控制器只是一個訪問的入口，具體訪問規則和訪問結果的獲取都是在這兩個方法中實現。

檢視京東關鍵詞搜尋之後的html規則，發現商品都在<li>標籤中

繼續展開<li>標籤，看到該商品的具體資訊，這裡筆者爬取圖片連線，其他資訊依然可以根據讀者需求自定義爬取

public class MyCrawler2 extends WebCrawler {
       //自定義過濾規則
     private final static Pattern FILTERS = Pattern.compile(".*(\\.(css|js|gif|jpg|png|mp3|mp4|zip|gz))$");
    @Override
    public boolean shouldVisit(Page referringPage, WebURL url) {
        String href = url.getURL().toLowerCase();//爬取的網址 轉小寫
        //這裡定義過濾的網址，我的需求是隻爬取京東搜尋出來的頁面中的商品，url需要以https://search.jd.com/search開頭
        boolean b =!FILTERS.matcher(href).matches()&&href.startsWith("https://search.jd.com/search");
        return b;
    }

    @Override
    public void visit(Page page) {
        String url = page.getWebURL().getURL();
        System.out.println(url);
        //判斷page是否為真正的網頁
        if (page.getParseData() instanceof HtmlParseData) {
            HtmlParseData htmlParseData = (HtmlParseData) page.getParseData();
            String html = htmlParseData.getHtml();//頁面html內容
            Document doc = Jsoup.parse(html);//採用jsoup解析html，這個大家不會可以簡單搜一下

            //使用選擇器的時候需要了解網頁中的html規則，自己去網頁中F12一下，
            Elements elements = doc.select(".gl-item");
            if(elements.size()==0){
                return;
            }
            for (Element element : elements) {
                Elements img = element.select(".err-product");
                if(img!=null){
                       //輸出圖片連結
                     System.out.println(img.attr("src"));
                    System.out.println(img.attr("data-lazy-img"));
                }
            }
        }
    }

}

看一下執行結果：

not-visiting就是被過濾的url

下面輸出的是圖片的連結

使用Crawler4j確實很方便。而且有點傻瓜式。讀者可以自己試一下爬取網頁給自己帶來的樂趣

詳細教程：crawler4j 爬取京東商品資訊 Java爬蟲入門 crawler4j教程

詳細教程：crawler4j 爬取京東商品資訊 Java爬蟲入門 crawler4j教程

爬取京東商品資訊

Scrapy框架基於crawl爬取京東商品資訊爬蟲

python語言用requests庫和BeautifulSoup庫爬取京東商品資訊

python 爬蟲實戰專案--爬取京東商品資訊（價格、優惠、排名、好評率等）

八個commit讓你學會爬取京東商品資訊

python制作爬蟲爬取京東商品評論教程

網路爬蟲：Python+requests+bs4+xlwt 爬取京東商品存入Excel表

Python爬蟲實戰（2）：爬取京東商品列表

Python爬取京東商品列表

Java爬蟲爬取京東商品信息

利用Python爬蟲爬取京東商品的簡要資訊

Python資料爬蟲學習筆記（21）爬取京東商品JSON資訊並解析

Python 爬蟲爬取京東商品評論資料，並存入CSV檔案

【Python】【爬蟲】爬取京東商品使用者評論（分析+視覺化）

Java爬蟲入門實戰：爬取京東圖書資訊

python 爬取京東商品評論

爬取京東評論資訊

Spring Boot + JSoup 抓取京東商品資訊

分布式爬蟲系統設計、實現與實戰：爬取京東、蘇寧易購全網手機商品數據+MySQL、HBase存儲

詳細教程 ：crawler4j 爬取京東商品資訊 Java爬蟲入門 crawler4j教程

相關推薦

詳細教程：crawler4j 爬取京東商品資訊 Java爬蟲入門 crawler4j教程