六、學習爬蟲框架WebMagic（二）---使用註解編寫爬蟲

阿新 • • 發佈：2018-12-31

（一）案例

package org.pc.webmagic;

import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.model.ConsolePageModelPipeline;
import us.codecraft.webmagic.model.OOSpider;
import us.codecraft.webmagic.model.annotation.ExtractBy;
import us.codecraft.webmagic.model.annotation.ExtractByUrl;
import 
 us.codecraft.webmagic.model.annotation.HelpUrl;
import us.codecraft.webmagic.model.annotation.TargetUrl;

/**
 * TargetUrl是我們最終要抓取的URL，最終想要的資料都來自這裡
 * HelpUrl則是為了發現這個最終URL，我們需要訪問的頁面
 * 例：對於部落格頁，HelpUrl是列表頁，TargetUrl是文章頁；
 *     對於電商網站，HelpUrl是分類列表，TargetUrl是商品詳情
 * TargetUrl中的自定義正則表示式：
 *     將URL中常用的字元.預設做了轉義，變成了\.
 *     將"*"替換成了".*"，直接使用可表示萬用字元。（例如：
 *     https://github.com/*在這裡是一個合法的表示式，它表示https://github.com/下的所有URL。）
 *     屬性 sourceRegion：這個引數是一個XPath表示式，指定了這個URL從哪裡得到——不在sourceRegion的URL不會被抽取
 * @author 鹹魚
 * @date 2018/12/30 9:42
 */ 

@TargetUrl("https://github.com/\\w+/\\w+")
@HelpUrl("https://github.com/\\w+")
public class GithubRepo {
    /**
     * 預設抽取規則是XPath，若需其他型別抽取規則，則可通過 Type 屬性指定
     */
    @ExtractBy(value = "//h1[@class='entry-title public']/strong/a/text()", notNull = true)
    private String name;
    /**
     * 註解@ExtractByUrl：從URL中抽取
     */ 

    @ExtractByUrl("https://github\\.com/(\\w+)/.*")
    private String author;

    @ExtractBy("//div[@id='readme']/tidyText()")
    private String readme;

    public static void main(String[] args) {
        /**
         * 註解模式的入口是OOSpider，它繼承了Spider類
         * public static OOSpider create(Site site, PageModelPipeline pageModelPipeline, Class... pageModels);
         * PageModelPipeline：註解模式下，處理結果的類叫做PageModelPipeline，通過實現它，你可以自定義自己的結果處理方式
         *                    PageModelPipeline與Model類是對應的，多個Model可以對應一個PageModelPipeline。除了建立時，
         *                    你還可以通過 public OOSpider addPageModel(PageModelPipeline pageModelPipeline, Class... pageModels)
         *                    方法，在新增一個PageModelPipeline的同時，可以新增多個pageModels。
         */
        OOSpider.create(Site.me().setSleepTime(1000),
                new ConsolePageModelPipeline(), GithubRepo.class)
                .addUrl("https://github.com/code4craft")
                .thread(5)
                .run();
    }
}

（二）知識要點

1、@TargetUrl：TargetUrl是我們最終要抓取的URL，最終想要的資料都來自這裡

（1）TargetUrl中的自定義正則表示式：

將URL中常用的字元.預設做了轉義，變成了\.，例：http://blog\\.sina\\.com\\.cn/s/blog_\\w+\\.html 來匹配 http://blog.sina.com.cn/s/articlelist_1487828712_0_1.html
將"*"替換成了".*"，直接使用可表示萬用字元，例：https://github.com/*在這裡是一個合法的表示式，它表示https://github.com/下的所有URL

（2）屬性 sourceRegion
這個引數是一個XPath表示式，指定了這個URL從哪裡得到——不在sourceRegion的URL不會被抽取。

2、@HelpUrl：HelpUrl則是為了發現這個最終URL，我們需要訪問的頁面

對於部落格頁，HelpUrl是列表頁，TargetUrl是文章頁；
對於電商網站，HelpUrl是分類列表，TargetUrl是商品詳情。

3、@ExtractBy：預設抽取規則是XPath，若需其他型別抽取規則，則可通過 Type 屬性指定

4、@ExtractByUrl：從URL中抽取目標元素

5、OOSpider：註解模式的入口是OOSpider，它繼承了Spider類

public static OOSpider create(Site site, PageModelPipeline pageModelPipeline, Class... pageModels);

引數PageModelPipeline：註解模式下，處理結果的類叫做PageModelPipeline，通過實現它，你可以自定義自己的結果處理方式。ageModelPipeline與Model類是對應的，多個Model可以對應一個PageModelPipeline。除了建立時，你還可以通過 public OOSpider addPageModel(PageModelPipeline pageModelPipeline, Class… pageModels)方法，在新增一個PageModelPipeline的同時，可以新增多個pageModels。

六、學習爬蟲框架WebMagic（二）---使用註解編寫爬蟲

（一）案例 package org.pc.webmagic; import us.codecraft.webmagic.Site; import us.codecraft.webmagic.model.ConsolePageModelPipeline; import us.codecr

開發一款開源爬蟲框架系列（二）：設計爬蟲架構

既然是構建分散式爬蟲架構，分散式說明爬蟲能在多臺機器同時執行，所以一定是多客戶端的，客戶端主要用於下載網頁，內容會放入佇列，多客戶端就有可能執行在不同的作業系統不同的語言環境，所以我們讓它暫時支援java和scala兩種依賴jvm的語言，不用區分平臺。提到客戶端也一定意味著有服務端的存在，服務端主要用於解

五、學習爬蟲框架WebMagic（一）---入門案例

一、WebMagic簡介參見網上其他介紹。二、新增依賴  <dependency> <groupId>us.codecraft</groupId> <artif

八、學習爬蟲框架WebMagic（四）---使用webmagic+Selenium爬取小說

一、案例說明本案例以爬取某小說網站某本小說為例（PS：避免商業問題，這裡不提小說網站名）二、先期準備關於 webmagic+Selenium 的相關依賴，參見七、學習爬蟲框架WebMagic（三）—webmagic+Selenium爬取動態頁面三、構建專案（一

九、學習爬蟲框架WebMagic（五）---為webmagic新增監控

（一）目的設定頁面下載成功、失敗的監聽器，方便失敗的時候做一些善後處理，比如把失敗的url再加入到爬取佇列裡面，這樣就不會遺漏一些頁面的爬取。通過設定Request.CYCLE_TRIED_TIMES設定失敗重試次數，可以強制把url加到待爬佇列裡面，避免去重機制把url看成已爬

系統學習機器學習之特徵工程（二）--離散型特徵編碼方式：LabelEncoder、one-hot與啞變數*

轉自：https://www.cnblogs.com/lianyingteng/p/7792693.html 在機器學習問題中，我們通過訓練資料集學習得到的其實就是一組模型的引數，然後通過學習得到的引數確定模型的表示，最後用這個模型再去進行我們後續的預測分類等工作。在模型訓練過程中，我們會對訓練

Swift教程_零基礎學習Swift完整例項（二）_swift基礎（簡單值、控制流、方法和閉包）

三、Swift基礎介紹本章將對Swift做一個簡單說明，內容取自《The Swift Programming Language》，並加之自己的理解。首先swift全域性作用域中的程式碼會被自動當做程

深度學習筆記——深度學習框架TensorFlow（二）

一. 學習網站：二. 教程：目錄： 1. 面向機器學習初學者的 MNIST 初級教程 2. 面向機器學習專家的 MNIST 高階教程 3. TensorFlow 使用指南（以MNIST為例） 4. 簡單的機器學習with tf.contr

機器學習的評價指標（二）-SSE、MSE、RMSE、MAE、R-Squared

迴歸評價指標SSE、MSE、RMSE、MAE、R-Squared 前言分類問題的評價指標上一篇文章已講述，那麼迴歸演算法的評價指標就是SSE、MSE，RMSE，MAE、R-Squared。下面一一介紹：一、SSE(和方差) 該統計引數計算的是擬合數據和原始資料對應

Java學習之路0715（二）（變數的使用、宣告，賦值，運算子，控制語句）

1、變數的使用 1、宣告變數，即根據資料型別在記憶體中申請儲存空間 2、賦值 2、變數命名規則要求簡潔，首字母以字母、下劃線_、美元符$，後面可以是字母、下劃線、美元符任意組合，變數名須是名詞，且第一個單詞首字母小寫，後續單詞首字母大寫

SODBASE CEP學習進階篇（二）續：日誌採集-Logstash、Kafka和CEP整合

相比Flume,筆者更推薦使用Logstash做日誌採集，見SODBASE CEP學習進階篇（二）續：日誌採集-Logstash、Kafka和CEP整合。如果之前專案中已經選型使用Flume，則本文供參考。 1. 啟動CEP模型啟動CEP Server ./catalina

Python爬蟲學習（二）---- 完整的爬蟲體系

完整的爬蟲體系上節已經對爬蟲有了簡單的瞭解和實踐，接下來我通過慕課網的途徑學習到了一個相對完整的框架。為了記錄，特將此經除錯體系置於此，互相學習。平臺 MacOS 10.13.3 PyCharm 2016 Python3.6 主函式 Pyt

python爬蟲——城市（北京市）公交路線、公交站點及座標（二）

# coding ='utf-8'import requests import json#loc_1和loc_2是城市行政區左下座標和右上座標loc_1 =[39.466285,115.22885]loc_2 = [41.156249,117.510115]#步長根據測試選擇相對合適的值step = 0.03

深入學習Spring框架（二）- 註解配置

1.為什麼要學習Spring的註解配置？　　　　基於註解配置的方式也已經逐漸代替xml。所以我們必須要掌握使用註解的方式配置Spring。　　關於實際的開發中到底使用xml還是註解，每家公司有著不同的使用習慣。所以這兩種配置方式都需要掌握。　　學習基於註解的IoC配置，首先得有一個認知，即註解配置和xml

六、regularized logisitic regssion練習（轉載）

method open lose hold on update import 等高線 algo 2個轉載鏈接：http://www.cnblogs.com/tornadomeet/archive/2013/03/17/2964858.html 在上一講Deep learn

深度學習數學基礎介紹（二）概率與數理統計

特征數字特征抽樣分布第5章最大中心 3.4 獨立知識第1章隨機事件與概率§1.1 隨機事件§1.2 隨機事件的概率§1.3 古典概型與幾何概型§1.4 條件概率§1.5 事件的獨立性第2章隨機變量的分布與數字特征§2.1 隨機變量及其分布§2.2 隨機變

Python爬蟲小白---（二）爬蟲基礎--Selenium PhantomJS

decode bject windows beautiful 結構由於 target header 速度一、前言　　前段時間嘗試爬取了網易雲音樂的歌曲，這次打算爬取QQ音樂的歌曲信息。網易雲音樂歌曲列表是通過iframe展示的，可以借助Selenium獲

Dubbo服務框架解析（二）

換行符 spi track .net int apt thread exce -i 本節介紹dubbo-common，dubbo-common是公共邏輯模塊，包含Util類、通用模型，是其他模塊的基礎。擴展機制 SPI SPI是擴展點的註解。

小白學習之Code First（二）

文件中 build 默認 dbm pcre student 技術分享使用類名 Code First約定：註：EDMX模板 (SSDL:存儲模型=>數據庫表 ,CSDL:概念模型=>實體,C-S模型=>存儲和概念模型之間的映射關系) System.Da

RPC框架研究（二）Hadoop源代碼-1

trac 挑戰 b2c ott 技術分享 style dsm mod spa 報名了阿裏中間件性能大賽，我來說是一個全新的挑戰。一切從空白學起，比賽的過程也是學習的過程是的。想讓自己學好。給自己報一個比賽吧~ 就像當初學圍棋，也是報了圍棋比賽，為

六、學習爬蟲框架WebMagic（二）---使用註解編寫爬蟲

相關推薦