1. 程式人生 > >Java 讀取PDF文字內容

Java 讀取PDF文字內容

本文將介紹如何在Java應用程式中讀取PDF檔案的文字內容。

在Java應用程式中讀取PDF,我們可以藉助第三方PDF控制元件,本文所使用的控制元件是免費Java PDF元件Free Spire.PDF for JAVA

在使用以下程式碼前,你需要下載Free Spire.PDF for JAVA包並解壓縮,然後從lib資料夾下,匯入Spire.Pdf.jar包和Spire.Common.jar包到你的Java應用程式中:

Extract_Text.Java

import com.spire.pdf.PdfDocument;
import com.spire.pdf.PdfPageBase;
import java.io.*;

public class Extract_Text {

       public static void main(String[] args) {
             
           //建立PdfDocument例項
           PdfDocument doc= new PdfDocument();

           //載入PDF檔案
           doc.loadFromFile("test.pdf");       

           StringBuilder sb= new StringBuilder();       

           PdfPageBase page;
       
           //遍歷PDF頁面,獲取文字
           for(int i=0;i<doc.getPages().getCount();i++){
               page=doc.getPages().get(i);
               sb.append(page.extractText(true));
           }

           FileWriter writer;

           try {
               //將文字寫入文字檔案
               writer = new FileWriter("ExtractText.txt"); 
               writer.write(sb.toString());
               writer.flush();
           } catch (IOException e) {
              e.printStackTrace();
           }

           doc.close();       
       }

PDF檔案:

輸出文字檔案: