Nutch安裝配置詳細指南(Windows環境)
一、搜尋引擎的原理簡介
1.一個抓網路頁面程式
把www中的各網站的內容抓到本地
2.一個檔案解析工具
把抓下來的html、doc等原始檔處理為更精確的格式文字
3.一個全文檢索、分詞、資料探勘,解析文字,把資料抓到結構化資料庫中
可以採取工具軟體,未必要自己寫。資料庫可以是檔案資料庫。
4.開發一個搜尋頁面,從資料庫裡查詢關鍵字
對查詢關鍵字,進行一些邏輯處理。然後返回名稱和url到頁面。
二、Lucene和Nutch簡介
而nutch是基於lucene的一個完整的搜尋引擎,包括了上述4個方面。即適合入門,也適合在這個上面做二次開發。http://lucene.apache.org/nutch/
三、下載
下載cygwin,一個在windows下模擬Linux的嵌入式系統,http://www.cygwin.com/
JDK,1.5.X以上
Tomcat
四、安裝
安裝完後需要設定一下幾個環境變數:
JAVA_HOME,設定成你安裝的Jdk的路徑,比如D:/soft/jdk6
NUTCH_JAVA_HOME,設定成和JAVA_HOME一樣
TOMCAT_HOME,設定Tomcat的安裝目錄,比如D:/Soft/Tomcat60
把這些新增到Path中,%JAVA_HOME%/bin;TOMCAT_HOME%/bin/
CLASSPATH,新增 .;%JAVA_HOME%/lib/dt.jar;%JAVA_HOME%/lib/tools.jar
參考Intranet Crawling部分。只是有幾個需要注意:
1.建立urls檔案
在nutch目錄下,建立urls目錄,在urls目錄下,建立nutch初始爬取檔案,格式為txt,檔名任意,裡面設定搜尋的站點起始位,如加入:
2.修改nutch下的conf/crawl-urlfilter.txt檔案,將# accept hosts in MY.DOMAIN.NAME這行下的
MY.DOMAIN.NAME修改成你想抓取的域名,比如修改成下面這樣的:
+^http://([a-z0-9]*/.)*apache.org/,表示要抓取apache的網頁
3.conf/nutch-site.xml檔案的http.agent.name,一定要定義值
<property>
<name>http.agent.name</name>
<value></value>///這裡一定要定義
</property >
如果報NullPointerException,nutch-default.xml裡面的http.agent.name也要定義。
nutch-site.xml裡,還要定義搜尋目錄,即抓下來的程式放置的地方。
<property>
<name>searcher.dir</name>
<value>D:/website</value>
</property>
4.執行命令
在cygwin裡執行,或者把cygwin/bin目錄加到path裡,直接在command視窗執行執行命令,要通過bash跑,比如tutorial8.html的命令是
bin/nutch crawl urls -dir crawl -depth 3 -topN 50
在windows下,要這麼跑
bash bin/nutch crawl urls -dir crawl -depth 3 -topN 50
5.配置Tomcat
把nutch-1.0.war複製到Tomcat下的webapps裡,啟動Tomcat,會自動deploy。
再關閉Tomcat,到webapps/nutch-1.0目錄下的WEB-INF/classes裡的nutch-site.xml裡,增加搜尋的目錄
<property>
<name>searcher.dir</name>
<value>D:/website</value>
</property>
為了支援中文,在tomcat/conf的server.xml裡的<Connector port="8080" protocol="HTTP/1.1" 裡面,增加URIEncoding="UTF-8" useBodyEncodingForURI="true"配置,
最後如:
<Connector port="8080" protocol="HTTP/1.1"
connectionTimeout="20000"
redirectPort="8443"
URIEncoding="UTF-8" useBodyEncodingForURI="true"/>
6. Luke
用JRE開啟lukeall-0.7.1.jar,選擇下載的目錄的index,如D:/website/index,開啟就可以圖形化檢視索引資料庫,如關鍵字,還可以查詢。
具體參考Luke的圖示
相關推薦
Nutch安裝配置詳細指南(Windows環境)
一、搜尋引擎的原理簡介 1.一個抓網路頁面程式 把www中的各網站的內容抓到本地 2.一個檔案解析工具 把抓下來的html、doc等原始檔處理為更精確的格式文字 3.一個全文檢索、分詞、資料探勘,解析文字,把資料抓到結構化資料庫中 可以採取工具軟體,未必要自己
安裝配置mysql(windows環境為例)
安裝配置mysql(windows環境為例) 1.安裝 從mysql官網下載,並按照說明進行安裝 2.安裝目錄 windows 下預設安裝目錄在 C:\Program Files\MySQL Notes:安裝完成後將C:\Program Files\My
Ant安裝以及環境配置以及使用[windows環境]
安裝 nvm ont xml文件 配置 ssp .org bin blank 一、安裝ant 官方主頁http://ant.apache.org下載新版的ant。 *下載對應的版本,解壓到我們的硬盤。 二、配置環境變量 Window中設置a
Windows下安裝配置PHP+Apache+Mysql環境教程
Windows下安裝配置PHP+Apache+Mysql環境教程 在此詳細圖解在Windows 7下安裝配置PHP+Apache+Mysql環境的教程,希望對PHP初學者有所幫助。 本教程經過測試可以使用windows 2003/2008/xp/7等作業系統。 一、安裝
mac下安裝配置nginx,php環境
服務 端口 通過 etc 安裝 set cnblogs fast ocr 1、安裝nginx 在mac系統下我們使用brew來安裝nginx,使用brew來安裝,它會自動安裝相應的依賴庫。 brew install nginx 在安裝完畢後,終端會輸出配置信息: Doc
Sublime Text3 & MinGW & LLVM CLang 安裝配置C-C++編譯環境
his c/c++ 而已 rtl sha2 9.png 大寫 utf8 實的 Sublime Text是一款強大的跨平臺代碼編輯器,小巧而且豐富實用的功能是Visual Studio不能比擬的,但是編譯運行是一個軟肋,本文通過在sublime中配置g++編譯器實現程序的編譯
vsftpd 安裝配置詳細教程
ota 復制 名稱 客戶端連接 conf ice cal ftp服務器 cannot linux下ftp軟件不少,大致特點:<br /> wu-ftp:比較老牌,但針對它的攻擊比較多,設置比較麻煩,但功能比較強大。<br /> vsftpd:功能強大
配置ADB到Windows環境變量
item clear aid https 命令行 來講 卸載 圖片 選擇 adb 命令可以幫我們快速的管理連接的手機設備,例如執行一些安裝apk,卸載apk命令,對於熟悉linux系統的人,可以方便的管理手機目錄操作手機文件,還可以通過adb命令查看手機的系統日誌等操作。
DKhadoop安裝配置詳細教程與常見問題解決方法
DKhadoop安裝配置詳細教程與常見問題解決方法上週分別就DKHadoop的安裝準備工作以及伺服器作業系統配置寫了兩篇分享的文章,這是個人第一次嘗試寫一個系統性的分享文章,必然會有很多疏漏的地方,還望見諒吧。今天分享的是DKHadoop安裝以及常見問題的解決方案方法介紹。首先給大家分享一下DKHadoop安
mongodb 安裝配置(linux/windows)
windows上出現的錯誤: D:\MongoDB\bin>mongo.exe --dbpath d:\data\db Error parsing command line: unrecongised option '--dbpath' &nbs
Mac OS X下安裝配置Android原始碼開發環境
分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!  
OpenCV3.4.2+VS2015安裝配置詳細過程
環境配置 本文是OpenCV3.4.2 在VS2015下的配置過程,用的是WIN10系統 基於opencv的配置有兩種 一是靜態的配置 二是用CMake的動態連結庫配置 OpenCV3.4.2官方下載 8月29日已更新至3.4.2版
Android Studio安裝配置(詳細版)
Android studio安裝配置(相關介紹) 一. 前景介紹: 在開發Android程式之前,首先要在系統中搭建開發環境。Google公司已經發出聲明,到2015年年底不再對Ecplise提供支援服務,Android Studio將全面取代Ecplise。
git 和 tortoise git 安裝的詳細教程(windows)
背景 git是一個版本控制工具. 主要解決三個問題: 程式碼被"喵星人"吃掉了. 產品經理反覆修改需求, 需要同時維護多個版本程式碼. 多人協同開發. 安裝git for windows: 這個是一個git的windows系統的命令列版本 下載網址:
Redis叢集主從複製(一主兩從)搭建配置教程【Windows環境】
由於本地環境的使用,所以搭建一個本地的Redis叢集,本篇講解Redis主從複製叢集的搭建,使用的平臺是Windows,搭建的思路和Linux上基本一致! (精讀閱讀本篇可能花費您15分鐘,略讀需5分鐘左右) Redis主從複製簡單介紹 為了使得叢集在一部分節點下線或
【JMeter4.0】安裝及執行(windows環境)
安裝 JDK安裝及配置 安裝對應版本的java環境,配置好環境變數。 版本對應關係參考下表: JMeter版本 JDK版本 4.0 1.8 or 1.9 3.2/3.3 1.8+ 3.0/3.1 1.7+ JDK環境變數配置: “我的
VMware虛擬機器中安裝 Androidx86 4 4 R5安裝配置詳細圖文教程
Android的PC版有個官網:http://www.android-x86.org/首先進去挑一個版本,我挑選的是Android-x86 4.4-r5 (KitKat-x86) 2016/02/06先看下載連結。教程在後面。下載頁:https://sourceforge.ne
hadoop 三節點叢集安裝配置詳細例項
2012-05-23 作者:周海漢 網址:http://abloz.com 日期:2012.5.23 topo節點: 192.168.10.46 Hadoop46 192.168.10.47 Hadoop47 192.168.
Redis高可用叢集-哨兵模式(Redis-Sentinel)搭建配置教程【Windows環境】
No cross,no crown . 不經歷風雨,怎麼見彩虹。 Redis哨兵模式,用現在流行的話可以說就是一個“哨兵機器人”,給“哨兵機器人”進行相應的配置之後,這個”機器人”可以7*24小時工作,它能能夠自動幫助你做一些事情,如監控,提醒,自動處
Android Studio安裝配置詳細步驟(圖文)
下載 到 https://developer.android.com/sdk/index.html (需翻牆)或者通過其他途徑下載安裝包。我下載的是android-studio-bundle-145.3537739-windows.exe 為完整安裝包,其中包