JAVA使用Gecco爬蟲抓取網頁內容

阿新 • • 發佈：2017-08-06

log pro 指定 get www. error 一個 log4j java類

JAVA 爬蟲工具有挺多的，但是Gecco是一個挺輕量方便的工具。

先上項目結構圖。

技術分享

這是一個 JAVASE的 MAVEN 項目，要添加包依賴，其他就四個文件。log4j.properties 加上三個java類。

1、先配置log4j.properties

log4j.rootLogger = error,stdout,D,E

log4j.appender.stdout = org.apache.log4j.ConsoleAppender
log4j.appender.stdout.Target = System.out
log4j.appender.stdout.layout = org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern  
= [%-5p] %d{yyyy-MM-dd HH:mm:ss,SSS} method:%l%n%m%n

log4j.appender.D = org.apache.log4j.DailyRollingFileAppender
log4j.appender.D.File = vincent_player_debug.log
log4j.appender.D.Append = true
log4j.appender.D.Threshold = DEBUG 
log4j.appender.D.layout = org.apache.log4j.PatternLayout
log4j.appender.D.layout.ConversionPattern  
= %-d{yyyy-MM-dd HH:mm:ss}  [ %t:%r ] - [ %p ]  %m%n

log4j.appender.E = org.apache.log4j.DailyRollingFileAppender
log4j.appender.E.File = vincent_player_error.log
log4j.appender.E.Append = true
log4j.appender.E.Threshold = ERROR 
log4j.appender.E.layout = org.apache.log4j.PatternLayout
log4j.appender.E.layout.ConversionPattern  
= %-d{yyyy-MM-dd HH:mm:ss}  [ %t:%r ] - [ %p ]  %m%n

2、接下來著手寫Blog.java，裏面都有註釋不解釋

package com.cwj.gecco.pojo;

import com.geccocrawler.gecco.annotation.Gecco;
import com.geccocrawler.gecco.annotation.HtmlField;
import com.geccocrawler.gecco.annotation.Request;
import com.geccocrawler.gecco.request.HttpRequest;
import com.geccocrawler.gecco.spider.SpiderBean;

/**
 * @author cwj
 * 2017年8月6日
 * Blog實體類，運行主函數從這裏開始解析
 * matchUrl:要抓包的目標地址
 * pipelines:跳轉到下個pipelines
 */
@Gecco(matchUrl="http://www.cnblogs.com/boychen/p/7226831.html",pipelines="blogPipelines")
public class Blog implements SpiderBean{
    /**
     * 向指定URL發送GET方法的請求
     */    
    @Request
    private HttpRequest request;
    
    /**
     * 抓去這個路徑下所有的內容
     */
    @HtmlField(cssPath = "body div#cnblogs_post_body")
    private String content;

    public HttpRequest getRequest() {
        return request;
    }

    public void setRequest(HttpRequest request) {
        this.request = request;
    }

    public String getContent() {
        return content;
    }

    public void setContent(String content) {
        this.content = content;
    } 
    
    
}

3、BlogPipelines.java

package com.cwj.gecco.pipelines;

import com.cwj.gecco.pojo.Blog;
import com.geccocrawler.gecco.annotation.PipelineName;
import com.geccocrawler.gecco.pipeline.Pipeline;

/**
 * @author cwj
 * 2017年8月6日
 * 運行完Blog.java [email protected] 來這裏
 */
@PipelineName(value="blogPipelines")
public class BlogPipelines implements Pipeline<Blog>{

    /**
     * 將抓取到的內容進行處理  這裏是打印在控制臺
     */
    public void process(Blog blog) {
        System.out.println(blog.getContent());
    }

}

4、最後便是在main中調用

package com.cwj.gecco.main;

import com.geccocrawler.gecco.GeccoEngine;

public class Main {
    public static void main(String[] args) {
         GeccoEngine.create()
            //工程的包路徑
            .classpath("com.cwj.gecco")
            //開始抓取的頁面地址
            .start("http://www.cnblogs.com/boychen/p/7226831.html")
            //開啟幾個爬蟲線程
            .thread(10)
            //單個爬蟲每次抓取完一個請求後的間隔時間
            .interval(5)
            //使用pc端userAgent
            .mobile(false)
            //開始運行
            .run();
    }
}

5、抓取到內容，日誌文件被我刪除有警告

技術分享

附上源碼地址 https://github.com/BeautifulMeet/Gecco

JAVA使用Gecco爬蟲抓取網頁內容

log pro 指定 get www. error 一個 log4j java類 JAVA 爬蟲工具有挺多的，但是Gecco是一個挺輕量方便的工具。先上項目結構圖。這是一個 JAVASE的 MAVEN 項目，要添加包依賴，其他就四個文件。log4j.propertie

python 爬蟲如何用selenium抓取網頁內容

使用selenium爬取動態網頁資訊 Python selenium自動控制瀏覽器對網頁的資料進行抓取，其中包含按鈕點選、跳轉頁面、搜尋框的輸入、頁面的價值資料儲存、mongodb自動id標識等等等。首先介紹一下 Python selenium —自動化測試工

[Python]網路爬蟲（二）：利用urllib2通過指定的URL抓取網頁內容

版本號：Python2.7.5，Python3改動較大，各位另尋教程。所謂網頁抓取，就是把URL地址中指定的網路資源從網路流中讀取出來，儲存到本地。類似於使用程式模擬IE瀏覽器的功能，把URL作為HTTP請求的內容傳送到伺服器端，然後讀取伺服器端的響應資源。在

[Python]網路爬蟲（二）：利用urllib通過指定的URL抓取網頁內容

1.基本方法 urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=F

java爬蟲（使用jsoup設定代理，抓取網頁內容）

jsoup 簡介 jsoup 是一款Java 的HTML解析器，可直接解析某個URL地址、HTML文字內容。它提供了一套非常省力的API，可通過DOM，CSS以及類似於jQuery的操作方法來

curl抓取網頁內容php

dem windows grep 網頁資源網頁爬蟲 url 工具 () 動態獲取 1.cURL curl是客戶端向服務器請求資源的工具 2.cURL使用場景網頁資源：網頁爬蟲 webservice數據接口資源：動態獲取接口數據天氣號碼歸屬地 ftp資源：下載ftp

爬蟲抓取網頁來下載小說

程序 rip compile pla ons pos 獲取 except res 利用Python3 編寫爬蟲，從筆趣閣抓個小說下載。 import re import urllib.request import time import easygui as g # 輸

python爬蟲-- 抓取網頁、圖片、文章

零基礎入門Python，給自己找了一個任務，做網站文章的爬蟲小專案，因為實戰是學程式碼的最快方式。所以從今天起開始寫Python實戰入門系列教程，也建議大家學Python時一定要多寫多練。目標 1，學習Python爬蟲 2，爬取新聞網站新聞列表 3，爬取圖片 4，把爬取到的資料存在本地

php抓取網頁內容，獲取網頁資料

php通過simple_html_dom實現抓取網頁內容，獲取核心網頁資料，將網頁資料寫入本地 xxx.json 檔案其程式碼實現邏輯： 1. 引入simple_html_dom.php檔案 require_once 'simple_ht

java演算法-網路爬蟲抓取網頁並儲存

從一個URL中讀取網頁,如果是同一個網站的就儲存,URL裡面包含URL列表,繼續抓取,抓完全部使用多執行緒 A執行緒讀取URL內容 B執行緒存檔案 C執行緒解析URL 發現新URL從A執行緒讀取完的內容可以放到一個佇列裡面,B執行緒來讀取,C執行緒解析URL 問題,如果這個佇列

使用HttpComponents抓取網頁內容

匯入HttpComponents的包下載地址下載之後解壓，找到bin目錄，匯入這三個包就行或者是使用maven <dependency> <groupId

【PHP-網頁內容抓取】抓取網頁內容的兩種常用方法

說到網頁內容的抓取，最常用的兩種方式： 1.利用file_get_contents()函式，簡簡單單； 2.CURL抓取工具。CURL是一個非常強大的開源庫，支援很多協議，包括HTTP、FTP、TEL

python多執行緒抓取網頁內容並寫入MYSQL

自己的第一個多執行緒練習，中間踩了不少坑，程式寫的很渣，但是勉強能實現功能需求了，實際上抓取網頁是多執行緒在MYSQL寫入的時候是加了執行緒鎖的，實際上感覺就不是在多執行緒寫入了，不過作為第一個練習程式就這樣吧，後續部落格還會繼續更新優化版本。## htm

PHP抓取網頁內容獲得網頁原始碼

1、 file_get_contents獲取 <span style="white-space:pre"> </span>$url="http://www.baidu.com/"; <span style="white-space:pre"&g

php抓取網頁內容彙總

①、使用php獲取網頁內容 http://hi.baidu.com/quqiufeng/blog/item/7e86fb3f40b598c67d1e7150.html header("Content-type: text/html; charset=utf-8")

python爬蟲-->抓取動態內容

上幾篇博文講的都是關於抓取靜態網頁的相關內容，但是現在市面上絕大多數主流網站都在其重要功能中依賴JavaScript，使用JavaScript時，不再是載入後立即下載所有頁面內容，這樣就會造成許多網頁在瀏覽器中展示的內容不會出現在html原始碼中。這時候再用前幾

php抓取網頁內容

function curl_file_get_contents($durl){ $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $durl); curl_setopt($ch, CURLOPT_TIMEOUT,

使用HttpClient遠端抓取網頁內容

準備工作需要下載兩個jar包：commons-httpclient和commons-codes Demo: import java.io.FileOutputStream; import java.io.OutputStream; import java.io.PrintStream; i

node.js 小爬蟲抓取網頁資料（2）

node.js 小爬蟲抓取網頁資料在原來的基礎上，採用了promise的模組，使其可以一次性多頁面的爬取網頁資料。 var http = require('http') var Promise = require('promise') var cheerio = re

C#抓取網頁內容的函數的代碼

toarray get toa pri ring 過程 [] () url 將寫代碼過程比較好的代碼段備份一次，如下代碼是關於C#抓取網頁內容的函數的代碼，應該能對大夥有較大用途。 private byte[] GetURLContents(string url){

JAVA使用Gecco爬蟲 抓取網頁內容

相關推薦

JAVA使用Gecco爬蟲抓取網頁內容