lucene索引庫的CRUD操作與維護

阿新 • • 發佈：2018-12-17

Field域的屬性：

是否分析：是否對域的內容進行分詞處理。前提是我們要對域的內容進行查詢。

是否索引：將Field分析後的詞或整個Field值進行索引，只有索引方可搜尋到。

比如：商品名稱、商品簡介分析後進行索引，訂單號、身份證號不用分析但也要索引，這些將來都要作為查詢條件。

是否儲存：將Field值儲存在文件中，儲存在文件中的Field才可以從Document中獲取

比如：商品名稱、訂單號，凡是將來要從Document中獲取的Field都要儲存。是否儲存的標準：是否要將內容展示給使用者

Field類	資料型別	Analyzed 是否分析	Indexed 是否索引	Stored 是否儲存	說明
StringField(FieldName, FieldValue,Store.YES))	字串	N	Y	Y或N	這個Field用來構建一個字串Field，但是不會進行分析，會將整個串儲存在索引中，比如(訂單號,姓名等) 是否儲存在文件中用Store.YES或Store.NO決定
LongPoint (String name, long... point)	Long型	Y	Y	N	可以使用LongPoint、IntPoint等型別儲存數值型別的資料。讓數值型別可以進行索引。但是不能儲存資料，如果想儲存資料還需要使用StoredField。
StoredField(FieldName, FieldValue)	過載方法，支援多種型別	N	N	Y	這個Field用來構建不同型別Field 不分析，不索引，但要Field儲存在文件中
TextField(FieldName, FieldValue, Store.NO) 或 TextField(FieldName, reader)	字串或流	Y	Y	Y或N	如果是一個Reader, lucene猜測內容比較多,會採用Unstored的策略.

新增文件：

//新增索引
@Test
public void addDocument() throws Exception {
    //索引庫存放路徑
    Directory directory = FSDirectory.open(new File("D:\\temp\\index").toPath());
    IndexWriterConfig config = new IndexWriterConfig(new IKAnalyzer());
    //建立一個indexwriter物件
    IndexWriter indexWriter = new IndexWriter(directory, config);
    //建立一個Document物件
    Document document = new Document();
    //向document物件中新增域。
    //不同的document可以有不同的域，同一個document可以有相同的域。
    document.add(new TextField("filename", "新新增的文件", Field.Store.YES));
    document.add(new TextField("content", "新新增的文件的內容", Field.Store.NO));
    //LongPoint建立索引
    document.add(new LongPoint("size", 1000l));
    //StoreField儲存資料
    document.add(new StoredField("size", 1000l));
    //不需要建立索引的就使用StoreField儲存
    document.add(new StoredField("path", "d:/temp/1.txt"));
    //新增文件到索引庫
    indexWriter.addDocument(document);
    //關閉indexwriter
    indexWriter.close();

}

刪除文件：

//刪除全部索引
	@Test
	public void deleteAllIndex() throws Exception {
		IndexWriter indexWriter = getIndexWriter();
		//刪除全部索引
		indexWriter.deleteAll();
		//關閉indexwriter
		indexWriter.close();
	}

說明：將索引目錄的索引資訊全部刪除，直接徹底刪除，無法恢復。

此方法慎用！！

指定條件刪除：

7.2.2指定查詢條件刪除
//根據查詢條件刪除索引
	@Test
	public void deleteIndexByQuery() throws Exception {
		IndexWriter indexWriter = getIndexWriter();
		//建立一個查詢條件
		Query query = new TermQuery(new Term("filename", "apache"));
		//根據查詢條件刪除
		indexWriter.deleteDocuments(query);
		//關閉indexwriter
		indexWriter.close();
	}

索引庫的修改：

@Test
public void updateIndex() throws Exception {
    IndexWriter indexWriter = getIndexWriter();
    //建立一個Document物件
    Document document = new Document();
    //向document物件中新增域。
    //不同的document可以有不同的域，同一個document可以有相同的域。
    document.add(new TextField("filename", "要更新的文件", Field.Store.YES));
    document.add(new TextField("content", " Lucene 簡介 Lucene 是一個基於 Java 的全文資訊檢索工具包," +
                                                       "它不是一個完整的搜尋應用程式,而是為你的應用程式提供索引和搜尋功能。",
                Field.Store.YES));
    indexWriter.updateDocument(new Term("content", "java"), document);
    //關閉indexWriter
    indexWriter.close();
}

索引庫查詢：

TermQuery

TermQuery，通過項查詢，TermQuery不使用分析器所以建議匹配不分詞的Field域查詢，比如訂單號、分類ID號等。

//使用Termquery查詢
@Test
public void testTermQuery() throws Exception {
    Directory directory = FSDirectory.open(new File("D:\\temp\\index").toPath());
    IndexReader indexReader = DirectoryReader.open(directory);
    IndexSearcher indexSearcher = new IndexSearcher(indexReader);
    
    //建立查詢物件
    Query query = new TermQuery(new Term("content", "lucene"));
    //執行查詢
    TopDocs topDocs = indexSearcher.search(query, 10);
    //共查詢到的document個數
    System.out.println("查詢結果總數量：" + topDocs.totalHits);
    //遍歷查詢結果
    for (ScoreDoc scoreDoc : topDocs.scoreDocs) {
        Document document = indexSearcher.doc(scoreDoc.doc);
        System.out.println(document.get("filename"));
        //System.out.println(document.get("content"));
        System.out.println(document.get("path"));
        System.out.println(document.get("size"));
    }
    //關閉indexreader
    indexSearcher.getIndexReader().close();
}

數值範圍查詢：

@Test
public void testRangeQuery() throws Exception {
    IndexSearcher indexSearcher = getIndexSearcher();
    Query query = LongPoint.newRangeQuery("size", 0l, 10000l);
    printResult(query, indexSearcher);
}

queryparser查詢：

通過QueryParser也可以建立Query，QueryParser提供一個Parse方法，此方法可以直接根據查詢語法來查詢。Query物件執行的查詢語法可通過System.out.println(query);查詢。

需要使用到分析器。建議建立索引時使用的分析器和查詢索引時使用的分析器要一致。

需要加入queryParser依賴的jar包。：lucene-queryparser-7.4.0.jar

@Test
public void testQueryParser() throws Exception {
    IndexSearcher indexSearcher = getIndexSearcher();
    //建立queryparser物件
    //第一個引數預設搜尋的域
    //第二個引數就是分析器物件
    QueryParser queryParser = new QueryParser("content", new IKAnalyzer());
    Query query = queryParser.parse("Lucene是java開發的");
    //執行查詢
    printResult(query, indexSearcher);
}

private void printResult(Query query, IndexSearcher indexSearcher) throws Exception {
    //執行查詢
    TopDocs topDocs = indexSearcher.search(query, 10);
    //共查詢到的document個數
    System.out.println("查詢結果總數量：" + topDocs.totalHits);
    //遍歷查詢結果
    for (ScoreDoc scoreDoc : topDocs.scoreDocs) {
        Document document = indexSearcher.doc(scoreDoc.doc);
        System.out.println(document.get("filename"));
        //System.out.println(document.get("content"));
        System.out.println(document.get("path"));
        System.out.println(document.get("size"));
    }
    //關閉indexreader
    indexSearcher.getIndexReader().close();
}

lucene索引庫的CRUD操作與維護

Field域的屬性：是否分析：是否對域的內容進行分詞處理。前提是我們要對域的內容進行查詢。是否索引：將Field分析後的詞或整個Field值進行索引，只有索引方可搜尋到。比如：商品名稱、商品簡介分析後進行索引，訂單號、身份證號不用分析但也要索引，這些將來都要作為查

lucene索引庫的增刪改查操作

elasticsearch文檔、索引的CRUD操作

get IT 服務 source rep sea div 解決問題 text elasticsearch概念 1. 集群：一個或者多個節點組織在一起 2. 節點：一個節點是集群中的一個服務器，有一個名字來標識，默認是一個隨機的漫威角色的名字 3. 分片：將索引劃分為多份的能

（3.8）存儲引擎--索引的遍歷與維護

數據影響類型值範圍數據量 src 分享圖片重建回滾一、遍歷索引樹的每個節點都是一個頁面。索引樹有三種類型的節點：根節點、中間節點、葉子節點。 (1) 根節點與中間節點一樣，只包含下一層節點的入口值與入口指針，它們稱為索引節點； (2) 葉子節點包含要遍歷的

pymysql模塊對數據庫的操作與備份

pri exe 分享方法 %s htm delete 分享圖片 www. 今天呢主要對pymysql模塊進行使用講解一下：https://www.cnblogs.com/lilidun/p/6041198.htmlLinux系統上安裝pip3通過這個文檔查看查詢操作：

數據庫的操作與踩過的坑

fan host table mysq sele class ria cpu ges p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 12.0px "Helvetica Neue"; color: #454545 } p.p2 {

數據庫CRUD操作以及MyBatisd的配置使用

file 操作 name creat 抽象 order by pad wait depend • 業務字段設計 • 數據庫創建 • CRUD操作 • MyBatis集成 • 註解和XML定義 &bull

小白學ES 08 - 對Elasticsearch的索引進行CRUD操作

文章目錄 1 建立索引 2 檢視索引 3 修改索引 4 刪除索引 5 開啟/關閉索引版權宣告 1 建立索引建立語法: PUT index { "settings": { ... any setti

Elasticsearch索引的CRUD操作

目錄 1 建立索引 2 檢視索引 3 修改索引 4 刪除索引 1 建立索引建立語法: PUT index { "settings": { ... any settings ... }, "mappings": { "type1": { ... any mappings

對Elasticsearch的索引進行CRUD操作

操作示例: POST address/_close POST address/_open // 可以使用_all開啟或關閉全部索引, 也可使用萬用字元(*)配合操作注意事項: 修改已經關閉了的索引, 將丟擲如下錯誤: { "error": { "root_cause": [

淘淘商城22_全文檢索_通過solrj對solr索引庫進行操作

百度網盤：jar包solrj 連結：https://pan.baidu.com/s/1HJ5M4YGyXj4AA3Enf6sDsA 提取碼：rqy9 步驟：第一步：建立一個java工程第二步：匯入jar包。包括solrJ的jar包第三步

elasticsearch基本索引和CRUD操作、bulk批量操作

ELK包括ElasticSearch（資料儲存、快速查詢）、logstash（日誌蒐集）、kibana（展示ElasticSearch資料的圖形介面）。 4種常用的HTTP請求方法： POST /uri 建立 DELETE /uri/xxx 刪除 P

Elasticsearch中的document資料格式，簡單的叢集管理，商品的索引的CRUD操作（學習資料記錄）

1、Document資料格式面向文件的搜尋分析引擎（1）應用系統的資料結構都是面向物件的，複雜的。（2）物件資料儲存到資料庫中，只能拆解開來，變為扁平的多張表，每次查詢的時候還得還原回物件格式，相當麻煩。 **（3）**ES是面向文件的，文件中儲存

JAVAWEB開發之Lucene詳解——Lucene入門及使用場景、全文檢索、索引CRUD、優化索引庫、分詞器、高亮、相關度排序、各種查詢

Lucene入門應用場景 windows系統中的有搜尋功能：開啟“我的電腦”，按“F3”就可以使用查詢的功能，查詢指定的檔案或資料夾。搜尋的範圍是整個電腦中的檔案資源。 Eclipse中的幫助子系統：點選Help->Help Contents，可以查找出相關的幫助資

python2.7.13標準庫文件目錄操作與文件操作

mov abs 庫文件 shell htm .com 及其 rec lose 標準庫的中文參考文檔： http://python.usyiyi.cn/translate/python_278/library/index.html 官方標準庫文檔：https://docs.p

java操作數據庫定時備份與還原

名稱數據 rri att trac catch form number ride mysql每天23:00自動備份 public class DatabaseBackup { /** * * @param dbdir mysql數據

SQL SERVER 2008數據庫管理與維護總結

sql server1、事物日誌分為小的虛擬日誌VLF，它有編號叫LSN2、檢查點默認每隔1分鐘將內存數據存盤，故障點發生後日誌重做，事物根據提交與否前滾或回滾。3、在數據庫整體主菜單欄選擇屬性可設置數據文件和日誌文件的存放地點，設置完後需要重啟服務，可主菜單右鍵重啟服務或通過windows系統服務重啟。4

solrj操作solr索引庫(流程)

utf-8 except exception chcon tca hit lis gmv 添加聲明：博主自己記錄以免忘記，所以無邏輯無參考價值。小女子就是醬紫任性 ---------首先dao層訪問索引庫的類。定義一些通用的數據訪問方法。業務邏輯就是查詢索引庫。參數

Oracle數據庫冷備份與熱備份操作梳理

冷備 sql strong 10.2.0.1 redo 相關 16px acl member Oracle數據庫的備份方式有冷備份和熱備份兩種，針對這兩種備份的實施過程記錄如下：一、Oracle冷備份概念數據庫在關閉狀態下完成所有物理系統文件拷貝的過程，也稱脫機備份適

【網絡爬蟲入門05】分布式文件存儲數據庫MongoDB的基本操作與爬蟲應用

數據庫的操作理解 src web 文件存儲學習 json格式關系型 log 【網絡爬蟲入門05】分布式文件存儲數據庫MongoDB的基本操作與爬蟲應用廣東職業技術學院歐浩源 1、引言網絡爬蟲往往需要將大量的數據存儲到數據庫中，常用的有MySQL、Mon

lucene索引庫的CRUD操作與維護

Field域的屬性：

相關推薦