1. 程式人生 > >intellij 執行nutch 進行網路資源爬蟲

intellij 執行nutch 進行網路資源爬蟲

前置條件:

1、安裝ANT java編輯工具

將Apache-Nutch 編譯成idea可以開啟的檔案

安裝ANT安裝教程:https://mp.csdn.net/postedit/84541347

2、下載Nutch原始碼;https://download.csdn.net/download/qq_31854907/10807862

3、安裝好ANT後,將Nutch的原始碼進行編譯:

Nutch原始碼是用ant進行構建的,需要轉換成eclipse工程才可以匯入IDE正確使用,Intellij和Netbeans都可以支援ecilpse工程。

解壓下載的apache-nutch-1.9-src.zip,得到資料夾apache-nutch-1.9。
在執行轉換之前,我們先修改一下ivy中的一個源,將它改為開源中國的映象,否則轉換的過程會非常緩慢。(ant原始碼中並沒有附帶依賴jar包,ivy負責從網上自動下載jar包)。
修改apache-nutch-1.9資料夾中的ivy/ivysettings.xml:

 

 找到repo.maven.org,將
      value="http://repo1.maven.org/maven2/" 替換成http://maven.oschina.net/content/groups/public/

 windows系統在控制檯進入apache-nutch-1.9的根目錄,執行命令ant eclipse -verbose進行編碼等待從maven中下載jar

當下載結束後可使用intellij 開啟Nutch原始碼