Heritrix1.14.4 Web後臺使用簡介
原文地址:https://yq.aliyun.com/articles/46827
啟動Heritrix後,訪問就可以開啟Heritrix的登入介面,登入後即進入了Heritrix
Web後臺的主頁:
console: Heritrix的控制檯,會顯示Heritrix的抓取任務和分配給Heritrix的Heap使用情況
Jobs:Heritrix的抓取任務介面,比如建立抓取任務,已掛起的任務,已完成的任務統計
Profiles:Heritrix抓取任務相關的配置
Logs:Heritrix的執行日誌
Reports:Heritrix的統計報表
Setup:Heritrix
Help:Heritrix的使用幫助文件
首先我們需要切到Jobs介面,建立一個Job,如圖:
根據一個已經存在的job建立抓取任務
2. 根據一個抓取任務備份來建立抓取任務
3. 根據配置建立抓取任務
4. 按照預設方式建立抓取任務
asd
一般我們選擇第3種建立方式:
關於Settings裡相關配置項的含義解釋說明請看下面這張圖:
修改好後提交建立job,然後就能切到Console介面點選Start來啟動抓取任務進行頁面抓取
抓取到的網頁預設儲存在heritrix_hone\jobs
雖然Heritrix的web後臺是全英文的,但我覺得沒什麼使用難度,你們多點點它的功能,從巨集觀上多感受下Heritrix的強大之處。最後是多閱讀下Help介面裡列出的一些幫助文件,這是你學習Heritrix最寶貴的資料:
啟動Heritrix後,訪問就可以開啟Heritrix的登入介面,登入後即進入了Heritrix
Web後臺的主頁:
console: Heritrix的控制檯,會顯示Heritrix的抓取任務和分配給Heritrix的Heap使用情況
Jobs
Profiles:Heritrix抓取任務相關的配置
Logs:Heritrix的執行日誌
Reports:Heritrix的統計報表
Setup:Heritrix例項管理介面以及Heritrix後臺登入帳號密碼修改
Help:Heritrix的使用幫助文件
首先我們需要切到Jobs介面,建立一個Job,如圖:
根據一個已經存在的job建立抓取任務
2. 根據一個抓取任務備份來建立抓取任務
3. 根據配置建立抓取任務
4. 按照預設方式建立抓取任務
asd
一般我們選擇第3種建立方式:
關於Settings裡相關配置項的含義解釋說明請看下面這張圖:
修改好後提交建立job,然後就能切到Console介面點選Start來啟動抓取任務進行頁面抓取
抓取到的網頁預設儲存在heritrix_hone\jobs目錄下,我們建立的每個job都會在jobs目錄下生成一個資料夾,命名方式為job名稱+當前時間戳的方式,如圖:
雖然Heritrix的web後臺是全英文的,但我覺得沒什麼使用難度,你們多點點它的功能,從巨集觀上多感受下Heritrix的強大之處。最後是多閱讀下Help介面裡列出的一些幫助文件,這是你學習Heritrix最寶貴的資料: