1. 程式人生 > >Nutch安裝配置詳細指南(Windows環境)

Nutch安裝配置詳細指南(Windows環境)

一、搜尋引擎的原理簡介

1.一個抓網路頁面程式

把www中的各網站的內容抓到本地

2.一個檔案解析工具

把抓下來的html、doc等原始檔處理為更精確的格式文字

3.一個全文檢索、分詞、資料探勘,解析文字,把資料抓到結構化資料庫中

可以採取工具軟體,未必要自己寫。資料庫可以是檔案資料庫。

4.開發一個搜尋頁面,從資料庫裡查詢關鍵字

對查詢關鍵字,進行一些邏輯處理。然後返回名稱和url到頁面。

二、Lucene和Nutch簡介

而nutch是基於lucene的一個完整的搜尋引擎,包括了上述4個方面。即適合入門,也適合在這個上面做二次開發。http://lucene.apache.org/nutch/

三、下載

下載cygwin,一個在windows下模擬Linux的嵌入式系統,http://www.cygwin.com/

JDK,1.5.X以上

Tomcat

四、安裝

安裝完後需要設定一下幾個環境變數:

JAVA_HOME,設定成你安裝的Jdk的路徑,比如D:/soft/jdk6

NUTCH_JAVA_HOME,設定成和JAVA_HOME一樣

TOMCAT_HOME,設定Tomcat的安裝目錄,比如D:/Soft/Tomcat60

把這些新增到Path中,%JAVA_HOME%/bin;TOMCAT_HOME%/bin/

CLASSPATH,新增 .;%JAVA_HOME%/lib/dt.jar;%JAVA_HOME%/lib/tools.jar

參考Intranet Crawling部分。只是有幾個需要注意:

1.建立urls檔案

在nutch目錄下,建立urls目錄,在urls目錄下,建立nutch初始爬取檔案,格式為txt,檔名任意,裡面設定搜尋的站點起始位,如加入:

2.修改nutch下的conf/crawl-urlfilter.txt檔案,將# accept hosts in MY.DOMAIN.NAME這行下的

MY.DOMAIN.NAME修改成你想抓取的域名,比如修改成下面這樣的:

+^http://([a-z0-9]*/.)*apache.org/,表示要抓取apache的網頁

3.conf/nutch-site.xml檔案的http.agent.name,一定要定義值

<property>

<name>http.agent.name</name>

<value></value>///這裡一定要定義

</property >

如果報NullPointerException,nutch-default.xml裡面的http.agent.name也要定義。

nutch-site.xml裡,還要定義搜尋目錄,即抓下來的程式放置的地方。

<property>

<name>searcher.dir</name>

<value>D:/website</value>

</property>

4.執行命令

在cygwin裡執行,或者把cygwin/bin目錄加到path裡,直接在command視窗執行執行命令,要通過bash跑,比如tutorial8.html的命令是

bin/nutch crawl urls -dir crawl -depth 3 -topN 50

在windows下,要這麼跑

bash bin/nutch crawl urls -dir crawl -depth 3 -topN 50

5.配置Tomcat

把nutch-1.0.war複製到Tomcat下的webapps裡,啟動Tomcat,會自動deploy。

再關閉Tomcat,到webapps/nutch-1.0目錄下的WEB-INF/classes裡的nutch-site.xml裡,增加搜尋的目錄

<property>

<name>searcher.dir</name>

<value>D:/website</value>

</property>

為了支援中文,在tomcat/conf的server.xml裡的<Connector port="8080" protocol="HTTP/1.1" 裡面,增加URIEncoding="UTF-8" useBodyEncodingForURI="true"配置,

最後如:

<Connector port="8080" protocol="HTTP/1.1"

connectionTimeout="20000"

redirectPort="8443"

URIEncoding="UTF-8" useBodyEncodingForURI="true"/>

6. Luke

用JRE開啟lukeall-0.7.1.jar,選擇下載的目錄的index,如D:/website/index,開啟就可以圖形化檢視索引資料庫,如關鍵字,還可以查詢。

具體參考Luke的圖示

相關推薦

Nutch安裝配置詳細指南(Windows環境)

一、搜尋引擎的原理簡介 1.一個抓網路頁面程式 把www中的各網站的內容抓到本地 2.一個檔案解析工具 把抓下來的html、doc等原始檔處理為更精確的格式文字 3.一個全文檢索、分詞、資料探勘,解析文字,把資料抓到結構化資料庫中 可以採取工具軟體,未必要自己

安裝配置mysql(windows環境為例)

安裝配置mysql(windows環境為例) 1.安裝 從mysql官網下載,並按照說明進行安裝 2.安裝目錄 windows 下預設安裝目錄在 C:\Program Files\MySQL Notes:安裝完成後將C:\Program Files\My

Ant安裝以及環境配置以及使用[windows環境]

安裝 nvm ont xml文件 配置 ssp .org bin blank 一、安裝ant 官方主頁http://ant.apache.org下載新版的ant。 *下載對應的版本,解壓到我們的硬盤。 二、配置環境變量 Window中設置a

Windows安裝配置PHP+Apache+Mysql環境教程

Windows下安裝配置PHP+Apache+Mysql環境教程 在此詳細圖解在Windows 7下安裝配置PHP+Apache+Mysql環境的教程,希望對PHP初學者有所幫助。 本教程經過測試可以使用windows 2003/2008/xp/7等作業系統。   一、安裝

mac下安裝配置nginx,php環境

服務 端口 通過 etc 安裝 set cnblogs fast ocr 1、安裝nginx 在mac系統下我們使用brew來安裝nginx,使用brew來安裝,它會自動安裝相應的依賴庫。 brew install nginx 在安裝完畢後,終端會輸出配置信息: Doc

Sublime Text3 & MinGW & LLVM CLang 安裝配置C-C++編譯環境

his c/c++ 而已 rtl sha2 9.png 大寫 utf8 實的 Sublime Text是一款強大的跨平臺代碼編輯器,小巧而且豐富實用的功能是Visual Studio不能比擬的,但是編譯運行是一個軟肋,本文通過在sublime中配置g++編譯器實現程序的編譯

vsftpd 安裝配置詳細教程

ota 復制 名稱 客戶端連接 conf ice cal ftp服務器 cannot linux下ftp軟件不少,大致特點:<br /> wu-ftp:比較老牌,但針對它的攻擊比較多,設置比較麻煩,但功能比較強大。<br /> vsftpd:功能強大

配置ADB到Windows環境變量

item clear aid https 命令行 來講 卸載 圖片 選擇 adb 命令可以幫我們快速的管理連接的手機設備,例如執行一些安裝apk,卸載apk命令,對於熟悉linux系統的人,可以方便的管理手機目錄操作手機文件,還可以通過adb命令查看手機的系統日誌等操作。

DKhadoop安裝配置詳細教程與常見問題解決方法

DKhadoop安裝配置詳細教程與常見問題解決方法上週分別就DKHadoop的安裝準備工作以及伺服器作業系統配置寫了兩篇分享的文章,這是個人第一次嘗試寫一個系統性的分享文章,必然會有很多疏漏的地方,還望見諒吧。今天分享的是DKHadoop安裝以及常見問題的解決方案方法介紹。首先給大家分享一下DKHadoop安

mongodb 安裝配置(linux/windows

 windows上出現的錯誤:  D:\MongoDB\bin>mongo.exe --dbpath d:\data\db  Error parsing command line: unrecongised option '--dbpath' &nbs

Mac OS X下安裝配置Android原始碼開發環境

分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!        

OpenCV3.4.2+VS2015安裝配置詳細過程

環境配置 本文是OpenCV3.4.2 在VS2015下的配置過程,用的是WIN10系統 基於opencv的配置有兩種 一是靜態的配置   二是用CMake的動態連結庫配置   OpenCV3.4.2官方下載  8月29日已更新至3.4.2版

Android Studio安裝配置(詳細版)

Android studio安裝配置(相關介紹) 一. 前景介紹: 在開發Android程式之前,首先要在系統中搭建開發環境。Google公司已經發出聲明,到2015年年底不再對Ecplise提供支援服務,Android Studio將全面取代Ecplise。

git 和 tortoise git 安裝詳細教程(windows)

背景 git是一個版本控制工具. 主要解決三個問題: 程式碼被"喵星人"吃掉了. 產品經理反覆修改需求, 需要同時維護多個版本程式碼. 多人協同開發. 安裝git for windows: 這個是一個git的windows系統的命令列版本 下載網址:

Redis叢集主從複製(一主兩從)搭建配置教程【Windows環境

由於本地環境的使用,所以搭建一個本地的Redis叢集,本篇講解Redis主從複製叢集的搭建,使用的平臺是Windows,搭建的思路和Linux上基本一致! (精讀閱讀本篇可能花費您15分鐘,略讀需5分鐘左右) Redis主從複製簡單介紹 為了使得叢集在一部分節點下線或

【JMeter4.0】安裝及執行(windows環境

安裝 JDK安裝及配置 安裝對應版本的java環境,配置好環境變數。 版本對應關係參考下表: JMeter版本 JDK版本 4.0 1.8 or 1.9 3.2/3.3 1.8+ 3.0/3.1 1.7+ JDK環境變數配置: “我的

VMware虛擬機器中安裝 Androidx86 4 4 R5安裝配置詳細圖文教程

                Android的PC版有個官網:http://www.android-x86.org/首先進去挑一個版本,我挑選的是Android-x86 4.4-r5 (KitKat-x86) 2016/02/06先看下載連結。教程在後面。下載頁:https://sourceforge.ne

hadoop 三節點叢集安裝配置詳細例項

2012-05-23 作者:周海漢 網址:http://abloz.com 日期:2012.5.23 topo節點: 192.168.10.46 Hadoop46 192.168.10.47 Hadoop47 192.168.

Redis高可用叢集-哨兵模式(Redis-Sentinel)搭建配置教程【Windows環境

No cross,no crown . 不經歷風雨,怎麼見彩虹。 Redis哨兵模式,用現在流行的話可以說就是一個“哨兵機器人”,給“哨兵機器人”進行相應的配置之後,這個”機器人”可以7*24小時工作,它能能夠自動幫助你做一些事情,如監控,提醒,自動處

Android Studio安裝配置詳細步驟(圖文)

下載 到 https://developer.android.com/sdk/index.html (需翻牆)或者通過其他途徑下載安裝包。我下載的是android-studio-bundle-145.3537739-windows.exe 為完整安裝包,其中包