Lucene筆記33-Lucene的擴充套件-使用Tika建立索引並進行搜尋

阿新 • • 發佈：2018-11-29

一、使用Tika建立索引

之前建立索引的文件都是txt檔案，現在有了Tika，我們就可以將pdf，word，html等檔案，通過Tika提取出文字，之後建立索引，建立索引的寫法和之前大致相似。只需要將content域對應的值做一下處理，之前是FileReader來讀取，現在是使用Tika.parse()來獲取。

public void index(boolean update) {
    IndexWriter indexWriter = null;
    try {
        Directory directory = FSDirectory.open(new File("E:\\Lucene\\IndexLibrary"));
        indexWriter = new IndexWriter(directory, new IndexWriterConfig(Version.LUCENE_35, new IKAnalyzer()));
        if (update) {
            indexWriter.deleteAll();
        }
        File[] files = new File("E:\\Lucene\\SearchSource\\TikaSource").listFiles();
        for (File file : files) {
            // 通過Tika來儲存資料
            Document document = new Document();
            // 如果需要，可以放入Metadata資料
            Metadata metadata = new Metadata();
            document.add(new Field("content", new Tika().parse(file, metadata)));
            document.add(new Field("fileName", file.getName(), Field.Store.YES, Field.Index.NOT_ANALYZED));
            document.add(new Field("path", file.getAbsolutePath(), Field.Store.YES, Field.Index.NOT_ANALYZED));
            document.add(new NumericField("date", Field.Store.YES, true).setLongValue(file.lastModified()));
            document.add(new NumericField("size", Field.Store.YES, true).setIntValue((int) (file.length() / 1024)));
            indexWriter.addDocument(document);
        }
    } catch (IOException e) {
        e.printStackTrace();
    } finally {
        if (indexWriter != null) {
            try {
                indexWriter.close();
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
    }
}

二、使用Tika進行搜尋

索引檔案都創建出來了，搜尋自然就很簡單了，和之前一樣，重心應該放在建立索引上，直接上程式碼吧。

public void search() {
    try {
        Directory directory = FSDirectory.open(new File("E:\\Lucene\\IndexLibrary"));
        IndexSearcher indexSearcher = new IndexSearcher(IndexReader.open(directory));
        TermQuery termQuery = new TermQuery(new Term("content", "必須"));
        TopDocs topDocs = indexSearcher.search(termQuery, 20);
        for (ScoreDoc scoreDoc : topDocs.scoreDocs) {
            Document document = indexSearcher.doc(scoreDoc.doc);
            System.out.println(document.get("fileName"));
        }
    } catch (IOException e) {
        e.printStackTrace();
    }
}

Lucene筆記33-Lucene的擴充套件-使用Tika建立索引並進行搜尋

一、使用Tika建立索引之前建立索引的文件都是txt檔案，現在有了Tika，我們就可以將pdf，word，html等檔案，通過Tika提取出文字，之後建立索引，建立索引的寫法和之前大致相似。只需要將content域對應的值做一下處理，之前是FileReader來讀取，現在是使用Tika.p

Lucene筆記35-Lucene的擴充套件-高亮索引檔案

一、對索引檔案新增高亮現在我們有一些索引檔案，怎麼對這些索引檔案新增高亮呢？首先需要根據搜尋域和值找到這篇文件，然後通過文件獲取域值，再將域值交給highlighter進行加工並返回，這個時候，返回的值就是新增過高亮的了。二、程式碼展示 package com.wsy; imp

Lucene筆記32-Lucene的擴充套件-Tika的第二種使用方式

一、Tika的第二種使用方式第二種使用方式更加的簡單，官方文件說，相比於第一種，效率會有降低，下面來看程式碼。 // 文件上說效率沒有前一種方式高 public String fileToTextEasy(File file) { Tika tika = new Tika();

Lucene筆記31-Lucene的擴充套件-Tika介紹

一、Tika介紹 Tika是2008年由Apache組織開發的專案，主要用於開啟不同的文件。Tika的下載請點選這裡。在處理文件索引的時候，有時候會碰到pdf，html，word這種非純文字的內容，這些內容怎麼來建立索引呢，這就要用到Tika了，Tika像一個橋樑一樣，連通了IndexWri

Lucene筆記23-Lucene的使用-簡單複習索引、檢索和分詞

一、索引索引過程中的核心類：IndexWriter、Directory、Analyzer、Document、Field。 IndexWriter用來寫索引。 Directory用來定義索引的目標位置是硬碟上還是記憶體中。 Analyzer用來分詞，常用的分詞器有：SimpleA

Lucene筆記34-Lucene的擴充套件-高亮基礎

一、高亮顯示用到的類 Fragmenter：拿到一個字串之後，對字串進行分段 QueryScorer：查詢評分，將評分最高的展示給使用者 Encoder：顯示出來的文字有兩種，一種是SimpleEncode（忽略掉HTML標籤），一種是DefaultEncode（展示HTM

Lucene筆記30-Lucene的擴充套件-Luke介紹

一、Luke介紹 Luke是一個查詢索引的工具，Luke的下載點選這裡看第二部分，這裡就不多講了，需要注意的是Lucene和Luke要版本匹配，否則Luke是打不開Lucene索引的。首先開啟Luke，選擇索引的目錄，就可以開啟索引，就可以看到介面了，右上角有個Re-open表示重新載入索引

2 Lucene筆記（二）：建立LuceneUtils工具

publicclass LuceneUtils { public LuceneUtils() {} private static Directory directory; private static Version versio

Lucene 6.2.1入門教程（一）建立索引和基本搜尋索引

簡單說兩句，Lucene現在高版本的教程很少，網上基本是4.0以下的，目前最新版是6.2.1，所以我試著來寫寫這個版本的教程。至於那些概念什麼的，我就不多說了，大家可以參考以前的舊教程來了解Lucene的體系結構和基本原理。大致說一下Lucene就是通過建立索引這

Lucene筆記26-Lucene的使用-自定義QueryParser解決部分查詢的效能問題

一、使用自定義QueryParser的原因對於某些QueryParser（FuzzyQuery、WildcardQuery）在查詢時會使得效能降低，所以考慮將這些查詢取消。在具體的查詢時候，很可能有這樣一種需求：獲取的是一個數字查詢範圍，所以必須要擴充套件原有的QueryPa

Lucene筆記25-Lucene的使用-根據域進行評分設定

一、需求根據檔名來設定評分規則，或者根據文件的修改時間，將最近一年的評分加倍，一年以外的評分降低，等等。二、具體實現這裡根據檔名來修改評分規則，檔名中包含“JRE”和“SYSTEM”的評分加倍，其餘減倍。重點就是怎麼獲取到檔名，在customScore()方法中，有一個doc變

Lucene筆記24-Lucene的使用-自定義評分簡介

一、自定義評分流程有時候，Lucene提供的計算評分規則可能不符合業務需求，所以我們需要自定義評分規則，來實現自定義評分。自定義評分的流程：建立一個類繼承CustomScoreQuery、重寫getCustomScoreProvider()方法、建立CustomScoreProvider類

Lucene筆記22-Lucene的使用-Filter

一、Filter應用場景假如有人搜尋了一個關鍵詞，通過Lucene查出來了所有的文件，讀者比較關心最新的一些內容，因此需要將某些內容過濾掉。只顯示使用者敏感的文件資料即可。這就要用到過濾器。二、程式碼演示 public void filter(String queryString

Lucene筆記21-Lucene的自定義排序

一、排序介紹 Lucene對文件搜尋完成後，顯示的結果是有一個順序的，如果沒有設定排序規則，那麼這個順序就是按照文件的評分降序排列，至於評分的計算，是一個比較複雜的公式，這裡不先研究了。可是有時候，我們需要根據需求，改變預設的排序規則，這時候就要用到自定義排序啦，下面來看一下自定義排序是怎麼

Lucene筆記20-Lucene的分詞-實現自定義同義詞分詞器-實現分詞器（良好設計方案）

一、目前存在的問題在getSameWords()方法中，我們使用map臨時存放了兩個鍵值對用來測試，實際開發中，往往需要很多的這種鍵值對來處理，比如從某個同義詞詞典裡面獲取值之類的，所以說，我們需要一個類，根據key提供近義詞。為了能更好的適應應用場景，我們先定義一個介面，其中定義一

Lucene筆記19-Lucene的分詞-實現自定義同義詞分詞器-實現分詞器

一、同義詞分詞器的程式碼實現 package com.wsy; import com.chenlb.mmseg4j.Dictionary; import com.chenlb.mmseg4j.MaxWordSeg; import com.chenlb.mmseg4j.analysis.MM

Lucene筆記18-Lucene的分詞-實現自定義同義詞分詞器-思路分析

一、實現自定義同義詞分詞器思路分析前面文章我們提到同義詞分詞器，這裡我們先來分析下同義詞分詞器的設計思路。首先我們有一個需要分詞的字串string，通過new StringReader(string)拿到Reader。使用analyzer.tokenStream("co

Lucene筆記17-Lucene的分詞-中文分詞介紹

一、分詞器的作用分詞器的作用就是得到一個TokenStream流，這個流中儲存了分詞相關的一些資訊，可以通過屬性獲取到分詞的詳細資訊。二、自定義Stop分詞器 package com.wsy; import org.apache.lucene.analysis.*; impor

Lucene筆記16-Lucene的分詞-通過TokenStream顯示分詞的詳細資訊

一、通過TokenStream檢視分詞的詳細資訊 package com.wsy; import org.apache.lucene.analysis.*; import org.apache.lucene.analysis.standard.StandardAnalyzer; impor

Lucene筆記15-Lucene的分詞-通過TokenStream顯示分詞

一、展示分詞內容 package com.wsy; import org.apache.lucene.analysis.*; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.luc

Lucene筆記33-Lucene的擴充套件-使用Tika建立索引並進行搜尋

一、使用Tika建立索引

二、使用Tika進行搜尋

相關推薦