[ lucene擴充套件 ] spellChecker原理分析

spellChecker是用來對使用者輸入的“檢索內容”進行校正，例如百度上搜索“麻辣將”，他的提示如下圖所示：

我們首先借用lucene簡單實現該功能。

本文內容如下（簡單實現、原理簡介、現有問題）

lucene中spellchecker簡述

lucene 的擴充套件包中包含了spellchecker，利用它我們可以方便的實現拼寫檢查的功能，但是檢查的效果（推薦的準確程度）需要開發者進行調整、優化。

lucene實現“拼寫檢查”的步驟

步驟1：建立spellchecker所需的索引檔案

spellchecker也需要藉助lucene的索引實現的，只不過其採用了特殊的分詞方式和相關度計算方式。

建立spellchecker所需的索引檔案可以用文字檔案提供內容，一行一個片語，類似於字典結構。

例如（dic.txt）：

麻辣燙 中文測試 麻辣醬 麻辣火鍋 中國人 中華人民共和國

建立spellchecker索引的關鍵程式碼如下：

/**

*
 根據字典檔案建立spellchecker所使用的索引。

*
 @param spellIndexPath

*           
 spellchecker索引檔案路徑

*
 @param idcFilePath

*           
 原始字典檔案路徑

*
 @throws IOException

*/ public void

createSpellIndex(String
 spellIndexPath, String idcFilePath)

throws

IOException
 {

Directory
 spellIndexDir = FSDirectory.open(

new File(spellIndexPath));

SpellChecker
 spellChecker =

new

SpellChecker(spellIndexDir);

IndexWriterConfig
 config =

new IndexWriterConfig(Version.LUCENE_35, null); spellChecker.indexDictionary(new PlainTextDictionary(new File(

idcFilePath)),
 config,

false);

//
 close

spellIndexDir.close(); spellChecker.close(); }

這裡使用了PlainTextDictionary物件，他實現了Dictionary介面，類結構如下圖所示：

除了PlainTextDictionary（1 word per line），我們還可以使用：

FileDictionary（1 string per line, optionally with a tab-separated integer value | 片語之間用tab分隔）
LuceneDictionary（Lucene Dictionary: terms taken from the given field of a Lucene index | 用現有的index的term建立索引）
HighFrequencyDictionary（HighFrequencyDictionary: terms taken from the given field of a Lucene index, which appear in a number of documents above a given threshold. | 在LuceneDictionary的基礎上加入了一定的限定，term只有出現在各document中的次數滿足一定數量時才被spellchecker採用）

例如我們採用luceneDictionary，主要程式碼如下：

/**

*
 根據指定索引中的字典建立spellchecker所使用的索引。

*
 @param oriIndexPath

*           
 指定原始索引

*
 @param fieldName

*           
 索引欄位（某個欄位的字典）

*
 @param spellIndexPath

*           
 原始字典檔案路徑

*
 @throws IOException

*/ public void

createSpellIndex(String
 oriIndexPath, String fieldName,

[ lucene擴充套件 ] spellChecker原理分析

spellChecker是用來對使用者輸入的“檢索內容”進行校正，例如百度上搜索“麻辣將”，他的提示如下圖所示：我們首先借用lucene簡單實現該功能。本文內容如下（簡單實現、原理簡介、現有問題） lucene中spellc

基於Lucene查詢原理分析Elasticsearch的效能

摘要：前言 Elasticsearch是一個很火的分散式搜尋系統，提供了非常強大而且易用的查詢和分析能力，包括全文索引、模糊查詢、多條件組合查詢、地理位置查詢等等，而且具有一定的分析聚合能力。因為其查詢場景非常豐富，所以如果泛泛的分析其查詢效能是一個非常複雜的事情，而且除了

Lucene 4.0 原理與程式碼分析

　　搜尋演算法的核心實際是對搜尋項之間相似度的打分策略，一個好的打分策略應該能夠綜合各種與搜尋項內容相關並對搜尋目的有幫助的所有因素，一般將這種策略叫做建模（modeling），由量化後的相關因素即特徵（feature）構成檢索（評分）模型，最後通過模型得到搜尋項之間的相似

linux kernel的cmdline參數解析原理分析

include 不知道方便個數 ram har mission handle leading 利用工作之便，今天研究了kernel下cmdline參數解析過程。記錄在此。與大家共享。轉載請註明出處。謝謝。Kernel 版本：3.4.55Kernel啟動時會解析cmdl

ConcurrentHashMap原理分析

技術HashTable是一個線程安全的類，它使用synchronized來鎖住整張Hash表來實現線程安全，即每次鎖住整張表讓線程獨占。ConcurrentHashMap允許多個修改操作並發進行，其關鍵在於使用了鎖分離技術。它使用了多個鎖來控制對hash表的不同部分進行的修改。ConcurrentHashMa

JS對象創建常用方式及原理分析

原型模式這樣的前言 values 一句話開始 creat 動態原型 1-1 ====此文章是稍早前寫的，[email protected]/* */==== 前言俗話說“在js語言中，一切都對象”，而且創建對象的方式也有很多種，所以今天我們做一下梳理最

Android 65K問題之Multidex原理分析及NoClassDefFoundError的解決方法

bottom mini ati ... types auto weight right for Android 65K問題相信困惑了不少人，盡管AS的出來能夠通過分dex高速解決65K問題，可是同一時候也easy由於某些代碼沒有打包到MainDex裏

XSS的原理分析與解剖：第三章（技巧篇）未看***

第二章 != chrom 插入是把調用 bject innerhtml ats ??0×01 前言: 關於前兩節url：第一章：http://www.freebuf.com/articles/web/40520.html 第二章：http://www.free

Spring Boot實戰與原理分析視頻課程

spring boot 視頻課程實戰與原理分析 1、Spring Boot概述與課程概要介紹2、Spring4 快速入門3、Spring4 擴展分析（一）4、Spring4 擴展分析（二）5、Spring Boot 快速入門6、Spring Boot 配置分析（一）7、Spring Boot 配

Java遠程通訊技術及原理分析

ibm pre 要求推薦讀取被調用也有模式 contex 在分布式服務框架中，一個最基礎的問題就是遠程服務是怎麽通訊的，在Java領域中有很多可實現遠程通訊的技術，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，這些名詞之

HSF的原理分析

二進制反序列化心跳檢測線路 text rac handle sdn 初始化 http://blog.csdn.net/qq_16681169/article/details/72512819 一．HSF的基本概念 HSF全稱為High-Speed Service Fr

Semaphore實現原理分析

業務需求 err java並發裏的 eas static 默認 rem lac synchronized的語義是互斥鎖，就是在同一時刻，只有一個線程能獲得執行代碼的鎖。但是現實生活中，有好多的場景，鎖不止一把。比如說，又到了十一假期，買票是重點，必須圈起來。在購票大廳裏

Java開發Redis的事務與Watch原理分析

緬甸鉆石國際開戶13378837779Redis中的業務(transaction)是一組指令的調集。業務同指令一樣都是Redis最小的履行單位，一個業務中的指令要麽都履行，要麽都不履行。Redis業務的完結需求用到 MULTI 和 EXEC兩個指令，業務開端的時分先向Redis服務器發送 MULTI 指

Apriori 關聯分析算法原理分析與代碼實現

muc items blog 具體實現 itblog run 任務 name subset 轉自穆晨閱讀目錄前言關聯分析領域的一些概念 Apriori算法基本原理頻繁項集檢索實現思路與實現代碼關聯規則學習實現思路與實現代碼小結回到頂部前言

K-Means 聚類算法原理分析與代碼實現

oat 得到 ssi targe fan readline txt __name__ 輸出轉自穆晨閱讀目錄前言現實中的聚類分析問題 - 總統大選 K-Means 聚類算法 K-Means性能優化二分K-Means算法小結回到頂部前言在

Hadoop（十四）MapReduce原理分析

資源並行處理 ons 描述並發數 span col 數據分析 sub 前言　　上一篇我們分析了一個MapReduce在執行中的一些細節問題，這一篇分享的是MapReduce並行處理的基本過程和原理。　　Mapreduce是一個分布式運算程序的編程框架，是用戶開發

SPRINGMVC原理分析

ppi servle 根據 cti 模型應用 nbsp str 查找 1，用戶發送REQUEST請求至前端控制器DISPATCHERSERVLET（相當於STRUTS2中的核心過濾器FILTER）。 2，DISPATCHERSERVLET收到請求調用HANDLERMAPP

android黑科技系列——修改鎖屏密碼和惡意鎖機樣本原理分析

無需功能 log 輔助數據庫文件手勢密碼安全網樣式進制一、Android中加密算法上一篇文章已經介紹了Android中系統鎖屏密碼算法原理，這裏在來總結說一下：第一種：輸入密碼算法將輸入的明文密碼+設備的salt值，然後操作MD5和SHA1之後在轉

非對稱加密技術- RSA算法數學原理分析

這樣的另一個 href 使用兩個對稱基礎大於深入淺出非對稱加密技術，在現在網絡中，有非常廣泛應用。加密技術更是數字貨幣的基礎。所謂非對稱，就是指該算法需要一對密鑰，使用其中一個（公鑰）加密，則需要用另一個（私鑰）才能解密。但是對於其原理大部分同學應該都是一

支付寶app支付java後臺流程及原理分析

system 分析 req eterm 格式 prop 通過 false 由於 java版支付寶app支付流程及原理分析　　本實例是基於springmvc框架編寫一、流程步驟 1.執行流程當手機端app(就是你公司開發的a

[ lucene擴充套件 ] spellChecker原理分析

相關推薦