1. 程式人生 > >使用solr搭建你的全文檢索

使用solr搭建你的全文檢索

Solr 是一個可供企業使用的、基於 Lucene 的開箱即用的搜尋伺服器。對Lucene不熟?那麼建議先看看下面兩篇文件:

一、 solr介紹

solr是基於Lucene Java搜尋庫的企業級全文搜尋引擎,目前是apache的一個專案。它的官方網址在http://lucene.apache.org/solr/ 。solr需要執行在一個servlet 容器裡,例如tomcat5.5solrlucene的上層提供了一個基於HTTP/XMLWeb Services,我們的應用需要通過這個服務與solr進行互動。

二、 solr安裝和配置

關於solr的安裝和配置,這裡也有兩篇非常好的文件,作者同時也

 Lucene Java 專案的提交人和發言人:

下面主要說說需要注意的地方。

Solr的安裝非常簡單,下載solrzip包後解壓縮將dist目錄下的war檔案改名為solr.war直接複製到tomcat5.5webapps目錄即可。注意一定要設定solr的主位置。有三種方法。我採用的是在tomcat裡配置java:comp/env/solr/home的一個JNDI指向solr的主目錄(example目錄下),建立/tomcat55/conf/Catalina/localhost/solr.xml檔案。


<Context docBase="D:/solr.war" debug="0" crossContext
="true"><Environment name="solr/home" type="java.lang.String" value="D:/solr/solr" override="true"/></Context>

觀察這個指定的solr主位置,裡面存在兩個資料夾:conf和data。其中conf裡存放了對solr而言最為重要的兩個配置檔案schema.xml和solrconfig.xml。data則用於存放索引檔案。

     schema.xml主要包括typesfields和其他的一些預設設定。

solrconfig.xml用來配置Solr的一些系統屬性,例如與索引和查詢處理有關的一些常見的配置選項,以及快取、擴充套件等等。

上面的文件對這兩個檔案有比較詳細的說明,非常容易上手。注意到schema.xml裡有一個

<uniqueKey>url</uniqueKey>

的配置,這裡將url欄位作為索引文件的唯一識別符號,非常重要。