1. 程式人生 > >Heritrix web介面功能介紹

Heritrix web介面功能介紹

一、安裝heritrix

我這裡採用Clone的方式,使用的IDE是IntelliJ IDEA
Clone heritrix from github
這裡寫圖片描述
匯入完成後的結果如下:
匯入完成截圖

二、啟動Heritrix

https://webarchive.jira.com/wiki/display/Heritrix/Running+Heritrix+3.0+and+3.1
嘗試啟動heritrix,heritrix核心使用jetty所以不需要依附tomcat或者其他web容器。
入口類是這個 org.archive.crawler.Heritrix,設定啟動引數,如下所示:
這裡寫圖片描述
右鍵 Run ‘Heritrix.main()’啟動程式:
這裡寫圖片描述
啟動成功:
這裡寫圖片描述

三、基於Web的使用者介面

開啟瀏覽器,訪問 https://localhost:8443/ ,輸入使用者名稱密碼,admin,admin。
這裡寫圖片描述
登入成功後的主控制檯頁如下所示:
這裡寫圖片描述

四、執行第一個爬蟲任務的快速指南

在主控制檯頁,新建一個名為’myJob’的Job,建立成功後的介面如下:
這裡寫圖片描述
點選新建立的’myJob’的名稱連結,進入到’myJob’管理介面,如下所示:
這裡寫圖片描述
單擊工具欄上的”Configuration”連結,進入配置檔案的展示/編輯頁面如下所示:
這裡寫圖片描述
需要進行一些簡單的配置,才能使得這個Job正常執行:
A. 將一個有效的值新增到 metadata.operatorContactUrl 屬性,如下所示:
這裡寫圖片描述


1)metadata.operatorContactUrl 你控制Heritrix的URL,一般是http://127.0.0.1
2)metadata.jobName 表示你的抓取名字,我們剛才建立的是myJob,那就修改為myJob
3)metadata.description 表示對這個抓取任務的簡單描述,我們這裡就描述為 test crawl job
B. 接下來,修改爬蟲的種子值 longerOverrides 的 元素, 這裡設定你想抓取的種子.
這裡寫圖片描述
C. 完善job資訊和本機資訊
這裡寫圖片描述
修改完成後,點選左下角的’save changes’按鈕,儲存配置。
儲存成功後,返回到’myJob’管理介面:

點選’build’按鈕,進行build,Job is Ready

點選’Launch’按鈕, Job is Active:PREPARING

點選’checkpoint’按鈕, Job is Active:PAUSED

點選’unpause’按鈕,執行Job,Job is Active:RUNNING

我們可以看到,爬取的資料在不斷的增加
這裡寫圖片描述

,資料預設儲存在這個目錄下:
/Users/k/git/heritrix/heritrix/jobs/myJob/20170227055800/warcs,。預設是看不見抓取的頁面的,

這裡寫圖片描述

這裡寫圖片描述
如果要看到每個抓取的頁面,可以將配置檔案的warcWriter這個bean的class改為:
org.archive.modules.writer.MirrorWriterProcessor,這樣就下載的網頁是以映象檔案的形式儲存在,一般存放在專案根目錄下的mirror目錄下

這裡寫圖片描述

這裡寫圖片描述