Lucene對pdf、word、html等檔案的處理

阿新 • • 發佈：2019-01-05

Lucene在建立索引的過程中，原生只支援純文字格式（但是你掃描的過程中，如果你不設定檔案格式，會發現不管啥檔案，他都會去啃兩口）

=====PDF

用到的庫：PDFBox / XPdf

PDFBox是一個在java環境中對pdf檔案進行解析處理的開源軟體，同時它也提供了一個豐富的類庫支援對pdf檔案的操作。PDFBox為使用Lucene的開發者專門提供了LucenePDFDocument類，它的static方法getDocument（ps:該方法被過載三次）能夠直接返回一個Lucene的Document型別結果。所以在為一個pdf檔案（例子中為File型別例項pdfFile）建立索引時只要寫下如下語句就可以了：

Document document = LucenePDFDocument.getDocument(file);

該方法傳入引數file是一個pdf檔案，返回一個lucene的document物件。

PDFBox 提供的下載包是0.7.3版本，這個版本里面有上面那個函式的所在的jar。最新的pdfbox在apache的官網下載，裡面已經沒有上面所要用到的jar包。

=====WORD

主要用到了WordExtractor類的成員方法extractor，該方法用來抽取word檔案的內容，並返回。

需要自己構建getDocument函式，來構建lucene的document物件。

參考如下程式碼：

public   class  LuceneDOCDocument  { 
 
      public   static  Document getDocument(File doc) {
         String docPath  =  doc.getAbsolutePath();
         String title  =  doc.getName();
         InputStream inputStream  =   null ;
         Reader contents  =   null ;
         Document document  =   new  Document();
          try 
          {
             inputStream  =   new  FileInputStream(doc);
         } 
          catch  (FileNotFoundException e)
          {
             e.printStackTrace();
         } 
         WordExtractor extractor  =   new  WordExtractor();
          try {
             contents  =   new  StringReader(extractor.extractText(inputStream));
         } 
          catch (Exception e) {
             e.printStackTrace();
         } 
     
         document.add( new  Field( " title " , title, Field.Store.YES, Field.Index.TOKENIZED));
         document.add( new  Field( " contents " , contents));
         document.add( new  Field( " path " , docPath, Field.Store.YES, Field.Index.NO));
          return  document;
     } 
 
 }

=====HMTL/XML等檔案

HTML，XML等檔案雖然是純文字形式存在，但是由於其內部是有一些標籤的，而lucene在讀取這些檔案的時候，會將標籤也當做內容讀取，所以在處理這些檔案的時候需要對其進行一個去標籤操作。

用到的庫：htmlparser

參考如下程式碼：

public   class  LuceneHTMLDocument {
 
      public   static  Document getDocument(File html) {
         String htmlPath  =  html.getAbsolutePath();
         String text  =   "" ;
         Parser parser  =   null ;
          try {
             parser  =   new  Parser(htmlPath);
         } 
          catch (ParserException e) {
             e.printStackTrace();
         } 
          try {
             parser.setEncoding( " UTF-8 " );
         } 
          catch (ParserException e) {
             e.printStackTrace();
         } 
         HtmlPage visitor  =   new  HtmlPage(parser);
          try {
             parser.visitAllNodesWith(visitor);
         } 
          catch (ParserException e) {
             e.printStackTrace();
         } 
         NodeList nodes  =  visitor.getBody();
          int  size  =  nodes.size();
          for ( int  i = 0 ;i < size;i ++ ) {
             Node node  =  nodes.elementAt(i);
             text  +=  node.toPlainTextString();
         } 
         String title  =  visitor.getTitle();
         Reader contents  =   new  StringReader (text);
         Document document  =   new  Document();
         document.add( new  Field( " title " , title, Field.Store.YES, Field.Index.TOKENIZED));
         document.add( new  Field( " contents " , contents));
         document.add( new  Field( " path " , htmlPath, Field.Store.YES, Field.Index.NO));
          return  document;
     } 
 
 }

小工具：索引檔案檢視器Luke。

Lucene對pdf、word、html等檔案的處理

Lucene在建立索引的過程中，原生只支援純文字格式（但是你掃描的過程中，如果你不設定檔案格式，會發現不管啥檔案，他都會去啃兩口） =====PDF 用到的庫：PDFBox / XPdf PDFBox

Java PDF轉HTML、Word、圖片、SVG、XPS、 PDF/A等格式檔案

這篇文章介紹如何在Java應用程式中將PDF轉換為HTML、Word、圖片、SVG、XPS、PDF/A等格式。本文所使用的PDF元件： Free Spire.PDF for Java Free Spire.PDF for Java是一個免費Java PDF元件，支援建立PDF文件、

【微信小程式】下載並預覽文件——pdf、word、excel等多種型別

簡要：wx.downloadFile(OBJECT)下載檔案資源到本地，客戶端直接發起一個 HTTP GET 請求，返回檔案的本地臨時路徑。wx.openDocument(OBJECT)新開頁面開啟文件，支援格式：doc, xls, ppt, pdf, docx, xlsx, pptx。呼

js點選按鈕下載圖片、word、pdf、excel等

html： <button class="download" onclick=" download('url')"> <i class="layui-icon layui-icon-download-circle"><

前端實現線上預覽pdf、word、xls、ppt等檔案

1、前端實現pdf檔案線上預覽功能方式一: 通過a標籤href屬性實現 pdf檔案理論上可以在瀏覽器直接開啟預覽但是需要開啟新頁面。在僅僅是預覽pdf檔案且UI要求不高的情況下可以直接通過a標籤href屬性實現預覽 <a href="文件地址"></

jsp實現線上預覽pdf、word、xls、ppt等檔案

最近在做一個共享數字化平臺，一些所涉功能知識記錄一下。、其他教程寫得太老了，可能到如今已經不再適用。 1、jsp實現pdf檔案線上預覽功能方式一、pdf檔案理論上可以在瀏覽器直接開啟預覽但是需要開啟新頁面。在僅僅是預覽pdf檔案且UI要求不高的情況下可以直

Velocity模板引擎實戰：動態生成HTML、Word、Excel等報表

先來一個工具類 package utils; import java.io.File; import java.io.IOException; import java.io.PrintWriter; import java.net

C# 將PDF轉為Word、Html、XPS、SVG、PCL、PS——基於Spire.Cloud.PDF

Spire.Cloud.PDF提供了介面PdfConvertApi可用於將PDF文件轉換為其他格式文件，如Word（docx/doc）、Html、XPS、SVG、PCL、PS、Png以及XPS轉成PDF。本文將選取其中幾種格式為例，介紹具體轉換方法。必要步驟：步驟一：dll檔案獲取及匯入。

PDF、WORD、EXCEL、PPT預覽

** PDF、WORD、EXCEL、PPT預覽 ** 前臺頁面獲取fileType（檔案型別）、key（檔案id）、title（檔案標題）、url（檔案路徑）、documentType（不同的檔案格式對應的值不同，後臺程式碼中會有，傳到前臺即可）5個值到頁面即

Python3+PyInstall+Sciter的坎坷除錯路（報錯缺少dll、html等檔案）

1 除錯過程用Python3.6+Sciter+PyCharm寫了一個py測試指令碼helloworld.py，該指令碼中只含有一條語句“import sciter”。在PyCharm中執行之，未報錯。 #helloworld.py import sciter 然後

將Excel生成的圖片貼上到Word，同時替換頁首作者姓名，最終生成Excel、Word、PDF目標檔案

直接執行此程式可以將Excel中指定的圖片貼上到Word檔案，同時替換word檔案頁首作者姓名，最終生成Excel、Word、PDF目標檔案相關程式碼下載地址：https://download.csdn.net/download/luzaofa/10722499

java線上預覽txt、word、ppt、execel，pdf程式碼

word： BufferedInputStream bis = null; URL url = null; HttpURLConnection httpUrl = null; // 建立連結 url = new URL(urlReal); httpUrl = (HttpURLConnecti

ASP.NET MVC線上預覽Excel、Word、TXT、PDF檔案

話不多說直接上程式碼： using System; using System.Collections.Generic; using System.Linq; using System.Web; using System.Web.Mvc; using Microsoft

apache poi操作office文件----java線上預覽txt、word、ppt、execel，pdf程式碼

在頁面上顯示各種文件中的內容。在servlet中的邏輯 word： BufferedInputStream bis = null; URL url = null; HttpURLConnection httpUrl = null; // 建立連結 u

PDF轉Word、Word轉PDF技巧

ext 簡單手機格式 word文檔 51cto text 流行技術分享隨著PDF文件的流行，與之相關的PDF轉Word、Word轉PDF的操作在日常辦公中也是比較常見了，PDF轉Word的方法也比較多，今天就給大家分享一種簡單的轉換文檔格式的方法。 1、先打開手機，

辦公格式轉換太難看這裏，PDF、WORD、EXcel、TXT教你玩轉

word 文件格式轉換按鈕 src href 遇到之間使用 cad 文件格式轉換，哪些格式轉換你很頭疼？文件格式轉換，最讓你覺得頭疼的文件格式是哪些？文件格式轉換，你最想學習轉換格式有哪些？職場小白：Word，PDF，EXCel，PPT，CAJ，JPG統統都想學

學霸必備！自學網站推薦給你們，內含CAD、PS、Word、Excel技巧！

學習是一個永無止境的事情，更何況如今網際網路的時代！要想在這個時代裡脫穎而出，不學點東西怎麼行！今天小編為大家準備了款自學網站，希望你們能夠掌握到更多的知識！ 1.我要自學網http://www.51zxw.net/ 課程挺多的，關鍵裡面很多課程是免費的，老師講解的也詳細。適合大學生或者已經上班自學的

Markdown編輯器: 語法、Atom、Word、PPT

markdown 與Atom: https://blog.csdn.net/u011583927/article/details/78858368 markdown 語法： https://blog.csdn.net/witnessai1/article/details/5255

C++中BYTE、WORD、DWORD的作用以及區別

在VC++6.0中，BYTE、WORD、DWORD實際上是一種無符號整形，在WINDEF.h中被定義 typedef unsigned char BYTE; typedef unsigned short WORD; typedef unsigned long DWORD; 也就是說B

百度雲虛擬主機中的網站不能載入靜態js、css和images等檔案的解決方案

百度雲虛擬主機下配置個人網站不能載入靜態js、css和images等檔案時，需要在webroot（網站根目錄）下建立bcloud_nginx_user.conf，在這個檔案裡面設定載入靜態檔案資源。為什麼要配置這個檔案呢？因為虛擬主機預設採用了動態配置資源的方式，如果要載

Lucene對pdf、word、html等檔案的處理

相關推薦