1. 程式人生 > >java平臺名人錄之lucene

java平臺名人錄之lucene

      Lucene的原作者是Doug Cutting,他是一位資深全文索引/檢索專家,曾經是V-Twin搜尋引擎[6]的主要開發者,後在Excite[7]擔任高階系統架構設計師,目前從事於一些Internet底層架構的研究。早先發布在作者自己的,後來釋出在[8]2001年年底成為apache軟體基金會jakarta的一個子專案:

      Lucene是目前最為流行的開放原始碼全文搜尋引擎工具包,隸屬於Apache基金會,由資深全文索引/檢索專 家Doug Cutting所發起,並以其妻子的中間名作為專案的名稱。Lucene不是一個具有完整特徵的搜尋應用程式,而是一個專注於文字索引和搜尋的工具包,能 夠為應用程式新增索引與搜尋能力。基於Lucene在索引及搜尋方面的優秀表現,雖然由Java編寫的Lucene具有天生的跨平臺性,但仍被改編為許多 其他語言的版本:Perl、Python、C++、.Net等。

       同其他開源專案一樣,Lucene具有非常好 的架構,能夠方便地在其基礎上進行研究與開發,新增新功能或者開發 新系統。Lucene本身只支援文字檔案及少量語種的索引,並且不具備爬蟲功能,而這正是Lucene的魅力所在,通過Lucene提供的豐富介面,我們 可以根據自身的需要在其上新增具體語言的分詞器,針對具體文件的文字解析器等,而這些具體的功能實現都可以藉助於一些已有的相關開源軟體專案、甚至是商業 軟體來完成,這也保證了Lucene在索引及搜尋方面的專注性。目前,通過在Lucene的基礎上加入爬行器、文字解析器等也形成了一些新的開源專案,如 LIUS、Nutch等。並且Lucene的索引資料結構已經成了一種事實上的標準,為許多搜尋引擎所採用。

相關推薦

java平臺名人lucene

      Lucene的原作者是Doug Cutting,他是一位資深全文索引/檢索專家,曾經是V-Twin搜尋引擎[6]的主要開發者,後在Excite[7]擔任高階系統架構設計師,目前從事於一些Internet底層架構的研究。早先發布在作者自己的,後來釋出在[8],200

java平臺名人nutch

        Nutch為我們提供了這樣一個不同的選擇. 相對於那些商用的搜尋引擎, Nutch作為開放原始碼搜尋引擎將會更加透明, 從而更值得大家信賴. 現在所有主要的搜尋引擎都採用私有的排序演算法, 而不會解釋為什麼一個網頁會排在一個特定的位置.        Nutch 是一個基於Lucene開發的誕

nopCommerce 3.9 大波浪系列 微信公眾平臺插件

authent verify rip state link value eat round 掃描 一.簡介 nop支持第三方登錄授權擴展,本篇通過編寫微信公眾平臺登錄插件進一步了解nop授權登錄的開發過程。 微信公眾平臺、微信開放平臺使用場景不一樣,

java中的引用OA現金盤平臺維護

ear 四種 管理 cep jar null test 垃圾收集 lang 從Java SE2開始,Java提供了強引用、軟引用、弱引用和虛引用四種引用類型。其目的有:1)便於垃圾收集器回收;2)方便程序 員通過代碼的方式管理對象的生命周期。 使用示例 1.強引用:OA現金

Java介面自動化測試「Mock介面平臺」,讓你的自動化更提前

前言:目前Mock技術已經比較成熟,在日常的工作中Mock也可以給我們帶來很大的遍歷,本篇文章將會使用Moco框架,一步一步搭建一套Mock Server,使得介面的自動化測試更加的提前,也能夠使得前後端分離。 共識與痛點 目前,在軟體行業內,大家已經達成的共識就是,測試

Java B2B2C多用戶商城 springcloud架構-SSO單點登OAuth2.0登流程

pass post 方式 b2b sha body 當前 客戶端 water 上一篇是站在巨人的肩膀上去研究OAuth2.0,也是為了快速幫助大家認識OAuth2.0,閑話少說,我根據框架中OAuth2.0的使用總結,畫了一個簡單的流程圖(根據用戶名+密碼實現OAuth2.

(十二)Java B2B2C多用戶商城 springboot架構-SSO單點登OAuth2.0

fff 用戶 red auth src ror 單點登錄 更多 watermark 上一篇我根據框架中OAuth2.0的使用總結,畫了一個根據用戶名+密碼實現OAuth2.0的登錄認證的流程圖,今天我們看一下logout的流程: /** * 用戶註銷

(十一)Java B2B2C o2o多用戶商城-SSO單點登OAuth2.0登流程(2)

-- 設計思想 組件 expire image term 總結 pass 一起 上一篇是站在巨人的肩膀上去研究OAuth2.0,也是為了快速幫助大家認識OAuth2.0,閑話少說,我根據框架中OAuth2.0的使用總結,畫了一個簡單的流程圖(根據用戶名+密碼實現OAuth2

Java讀取登檔總結讀取的簡單方法

============================================================= 【注】 登錄檔非常非常重要,如果操作不當,極有可能使系統崩潰。所以在操作之前,請備份完整的登錄檔資料。以備不時之需。   備份方法 ======

Java讀取登檔總結com.ice.jni.registry

com.ice.jni.registry包是Windows登錄檔API的Java本機介面。這使得Java程式可以非常方便的訪問,修改Windows的登錄檔資源。 下面重點演示如何讀取Windows的登錄檔。以Windows 7 x86為例。演示所用到的jar包和dll檔案請

Java名人

最近看關於TSSS2005的文章,上面一大堆人名看得頭暈腦脹的。開個檔案把張三李四按姓氏筆畫記下來方便查詢,也方便日後的八卦。 不斷錯漏,不斷更新中.... 人名上的連結是xiecc寫的諸人八卦,很有狗仔隊翻人中學畢業紀念冊的風範。Adrian ColyerAspectJ leade

Java與算法(9) - 直接插入排序

set reat 正是 stat copy boa 派生 creat 人的 直接插入排序是最簡單的排序算法,也比較符合人的思維習慣。想像一下玩撲克牌抓牌的過程。第一張抓到5,放在手裏;第二張抓到3,習慣性的會把它放在5的前面;第三張抓到7,放在5的後面;第四張抓到4,那麽我

Java與算法(8) - 堆排序

循環 public tar 最大 swap https rgs tool 技術分享 堆是一種特殊的完全二叉樹,其特點是所有父節點都比子節點要小,或者所有父節點都比字節點要大。前一種稱為最小堆,後一種稱為最大堆。 比如下面這兩個: 那麽這個特性有什麽作用?既然題目是堆排序,

Java與算法(5) - 老鼠走迷宮(深度優先算法)

tail 數字化 boa pop ase lis ext oar tar 小老鼠走進了格子迷宮,如何能繞過貓並以最短的路線吃到奶酪呢? 註意只能上下左右移動,不能斜著移動。 在解決迷宮問題上,深度優先算法的思路是沿著一條路一直走,遇到障礙或走出邊界再返回嘗試別的路徑。 首

Java與算法(7) - 完全二叉樹

itl 輸出 void 結構 ray 線性 net pop pbo 樹 下圖是一“棵”樹的樣子。樹這個名稱起的很形象,整個數據結構由根、枝、葉組成,其中1為根節點,2、3是1的子節點,4、5、6、8、9、10這幾個沒有子節點的節點稱為葉節點。 節點的度:一個節點的

Java與算法(6) - 八皇後問題

tools trac ava height com 技術分享 false fis light 在8×8格的國際象棋上擺放八個皇後,使其不能互相攻擊,即任意兩個皇後都不能處於同一行、同一列或同一斜線上,問有多少種擺法。 (文字和圖片來自百度百科) 如果動手來擺放皇後,可以

Java接口測試使用有道翻譯API

== continue 接口測試 its turn 進行 each exce tostring 寫接口測試框架,找了有道翻譯API來當測試數據 package com.httpGetTest; import java.beans.Encoder; import

JAVA模擬登實例

exceptio sig fire client 請求 其它 log new mono 近期在做公司一個web項目。要求在我們的系統上,可以顯示其它站點上的數據。 剛開始接到這個任務時,還在想。簡單的非常。直接用UrlConection直接進入該網頁,然後獲取該網

Java進擊C#——語法多線程

明顯 源碼 max 更多 sta 關於 如何使用 關系 中文 本章簡言 上一章中筆者對C#一些獨有的語法點進行講解,相信也可以看C#的一些神奇之處。那麽本章主要是放在多線程這方面的知識。不管是C#還是JAVA在開發過程或多或少都會用到關於多線程的編程。當然筆者不

Java進擊C#——語法ADO.NET

parameter stmt 深入 真的 讀者 方式 對他 新建 文本 本章簡言 上一章講到關於C#語法的基礎部分。了解相關的基礎部分之後我們就要去了解一下C#是什麽樣子訪問數庫的。C#把訪問數據庫這一部分的知識點叫作ADO.NET。即是JAVA常常講到的JDB