Apache PDFbox開發指南之PDF文件讀取

阿新 • • 發佈：2019-01-09

相關文章：

1、介紹

Apache PDFbox是一個開源的、基於Java的、支援PDF文件生成的工具庫，它可以用於建立新的PDF文件，修改現有的PDF文件，還可以從PDF文件中提取所需的內容。Apache PDFBox還包含了數個命令列工具。
Apache PDFbox於2016年4月26日釋出了最新的2.0.1版。

備註：本文程式碼均是基於2.0及以上版本編寫。

2、特徵

Apache PDFBox主要有以下特徵：
PDF讀取、建立、列印、轉換、驗證、合併分割等特徵。

3、開發實戰

3.1、場景說明

1、讀取PDF文字內容，樣例中為讀取體檢報告文字內容。
2、提取PDF文件中的圖片。這裡僅僅實現將PDF中的圖片另存為一個單獨的PDF，至於需要直接輸出圖片檔案（暫時沒有實現），大家可以參考我的程式碼加以拓展，主要就是處理PDImageXObject物件。

3.2、所需jar包

pdfbox-2.0.1.jar下載地址

fontbox-2.0.1.jar下載地址

將上述兩jar包新增到工程庫中，如下：
這裡寫圖片描述

3.3、文字內容提取

3.3.1、文字內容提取

建立PdfReader類，編寫下述功能函式。

package com.loongshaw;

import java.io.File;
import java.io.FileInputStream;
import 
 java.io.InputStream;

import org.apache.pdfbox.io.RandomAccessBuffer;
import org.apache.pdfbox.pdfparser.PDFParser;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

public class PdfReader {

    public static void main(String[] args){

        File pdfFile = new 
 File("/Users/dddd/Downloads/0571888890423433356rrrr_182-93201510313223336-2.pdf");
        PDDocument document = null;
        try
        {
            // 方式一：
            /**
            InputStream input = null;
            input = new FileInputStream( pdfFile );
            //載入 pdf 文件
            PDFParser parser = new PDFParser(new RandomAccessBuffer(input));
            parser.parse();
            document = parser.getPDDocument();
            **/

            // 方式二：
            document=PDDocument.load(pdfFile);

            // 獲取頁碼
            int pages = document.getNumberOfPages();

            // 讀文字內容
            PDFTextStripper stripper=new PDFTextStripper();
            // 設定按順序輸出
            stripper.setSortByPosition(true);
            stripper.setStartPage(1);
            stripper.setEndPage(pages);
            String content = stripper.getText(document);
            System.out.println(content);     
        }
        catch(Exception e)
        {
            System.out.println(e);
        }

    }

}

3.3.2、過程說明

PDF檔案載入有兩種方式，無明顯差異，方式二程式碼較簡潔：

// 方式一：         
        InputStream input = null;
        input = new FileInputStream( pdfFile );
        //載入 pdf 文件
        PDFParser parser = new PDFParser(new RandomAccessBuffer(input));
        parser.parse();
        document = parser.getPDDocument();
 // 方式二：
        document=PDDocument.load(pdfFile);

3.3.3、執行結果

這裡寫圖片描述

3.4、圖片提取（2016-12-02新增）

3.3.1、圖片提取

public static void readImage(){

        // 待解析PDF
        File pdfFile = new File("/Users/xiaolong/Downloads/test.pdf");      
        // 空白PDF
        File pdfFile_out = new File("/Users/xiaolong/Downloads/testout.pdf");

        PDDocument document = null;  
        PDDocument document_out = null;  
        try {  
            document = PDDocument.load(pdfFile);  
            document_out = PDDocument.load(pdfFile_out);  
        } catch (IOException e) {  
            e.printStackTrace();
        }  

        int pages_size = document.getNumberOfPages();

        System.out.println("getAllPages==============="+pages_size);  
        int j=0;

        for(int i=0;i<pages_size;i++) {  
            PDPage page = document.getPage(i);
            PDPage page1 = document_out.getPage(0);
            PDResources resources = page.getResources();  
            Iterable xobjects = resources.getXObjectNames();

            if (xobjects != null) {  
                Iterator imageIter = xobjects.iterator();  
                while (imageIter.hasNext()) {  
                    COSName key = (COSName) imageIter.next();  
                    if(resources.isImageXObject(key)){              
                        try {
                            PDImageXObject image = (PDImageXObject) resources.getXObject(key);

                            // 方式一：將PDF文件中的圖片 分別存到一個空白PDF中。
                            PDPageContentStream contentStream = new PDPageContentStream(document_out,page1,AppendMode.APPEND,true);

                            float scale = 1f;
                            contentStream.drawImage(image, 20,20,image.getWidth()*scale,image.getHeight()*scale);
                            contentStream.close();
                            document_out.save("/Users/xiaolong/Downloads/123"+j+".pdf");

                            System.out.println(image.getSuffix() + ","+image.getHeight() +"," + image.getWidth());

                            /**
                            // 方式二：將PDF文件中的圖片 分別另存為圖片。
                            File file = new File("/Users/xiaolong/Downloads/123"+j+".png");
                            FileOutputStream out = new FileOutputStream(file);

                            InputStream input = image.createInputStream();                   

                            int byteCount = 0;
                            byte[] bytes = new byte[1024];

                            while ((byteCount = input.read(bytes)) > 0)
                            {                       
                                out.write(bytes,0,byteCount);       
                            }

                            out.close();
                            input.close();
                            **/

                        } catch (IOException e) {
                            // TODO Auto-generated catch block
                            e.printStackTrace();
                        } 
                        //image count
                        j++;  
                    }                 
                }  
            } 
        } 

        System.out.println(j);
    }

3.4.2、過程說明

此方法可以取出源PDF中圖片物件PDImageXObject，然後可以對該物件進行相關處理，本程式碼實現了將提取出來的每一個圖片物件，插入到一個空白的PDF文件中。

有一點需要說明，以上程式碼註釋部分本意是想直接生成圖片檔案，但嘗試後發現檔案異常。因此大家在這個程式碼基礎上有新的想法可以繼續嘗試。

3.4.3、執行結果

這裡寫圖片描述
源PDF檔案中包含19張圖片

這裡寫圖片描述
分別生成19個僅包含單獨圖片的PDF

4、小結

本文僅介紹了利用Apache PDFbox相關開發包讀取PDF文字，其他複雜功能暫未涉及，需要大家自己線下探索、嘗試。

Apache PDFbox開發指南之PDF文件讀取

相關文章： 1、介紹 Apache PDFbox是一個開源的、基於Java的、支援PDF文件生成的工具庫，它可以用於建立新的PDF文件，修改現有的PDF文件，還可以從PDF文件中提取所需的內容。Apache PDFBox還包含了數個命令列工具。

iOS 開發之 pdf 文件的載入與瀏覽的 4 種方式

前言在我們的開發中，有些像電子書型別的app的開發會涉及到pdf文件的載入與展示。由於筆者專案中正好涉及到這塊，於是將pdf常用的幾種載入方式做個總結。以供後面可能用到的同學做個參考。正文通常我們用到的pdf文件的載入方式有4種： UIWebView載入本地或者

angular2之pdf文件操作大全

ams 代碼如果 angular result buffer one key logs 最近的項目中需要顯示pdf內容、下載pdf、甚至是前端生成pdf 適用於angular2、4或者更高版本情景1.需要將頁面的某個部分轉成pdf文件並下載（即將頁面的部分ht

hadoop mapreduce開發實踐之HDFS文件分發by streaming

submit ast nap direct 如同 lis slots cal ado 1、分發HDFS文件（-cacheFile）需求：wordcount（只統計指定的單詞），但是該文件非常大,可以先將該文件上傳到hdfs，通過-cacheFile的方式進行分發； -ca

《Apache RocketMQ使用者指南》官方文件

本章節主要詳細介紹如何在本地計算機上設定RocketMQ訊息系統以傳送和接收訊息. 前置條件假定安裝了以下軟體: 推薦64bit OS, Linux/Unix/Mac系統; 64bit JDK 1.8+; Maven 3.2.x Git 從釋出版下載並構建點選這裡下載4.2.0發行版原始碼. 你

《Apache Velocity使用者指南》官方文件

原文連結譯文連線譯者：小村長校對：方騰飛 Quick Start 本專案是 Apache Velocity官方文件的中文翻譯版，Velocity類似與JSP，是一種基於Java的模板引擎。它可以在web頁面中引用Java程式碼中定義的資料和物件，而Velocity的作用就是把Web

微信小程式開發指南，介面文件，工具下載使用

相信前天，從事網際網路行業人的朋友圈給刷爆了，前微信公眾平臺開始陸續對外發送小程式內測邀請，而小程式即被外界廣為關注的微信“應用號”。小程式的推出也並非一蹴而就，早在2016年1月的微信公開課上，微信之父張小龍就透露微信即將推出應用號。根據張小龍的描述，應用號的形態大致為

jplogicv1.0開發開發案例之知識庫文件資訊索引檢索（類仿百度搜索、類google搜尋）

基於很多專案中都都可能會使用到針對海量文件資訊進行實時檢索的需要！對於使用者而言比較習慣於百度搜索的使用！本文針對海量文件檢索的需求進行描述！針對海量的文件資料我們需要做到最起碼兩點：1、高效索引 2、高效搜尋。當然做到這兩點我們需要在我們的專案中完成多道工序，根據索引框

Java面試高頻題精選300道，一份通往阿里的必備指南（pdf文件）

就目前大環境來看，跳槽成功的難度比往年高很多。一個明顯的感受：今年的面試，無論一面還是二面，都很考驗Java程式設計師的技術功

Apache PdfBox 2.0.X 版本解析PDF文件（文字和圖片）

最近專案開發過程涉及到了pdf檔案的內容的解析和和內容的提取入庫操作，其中pdf的解析採用了開源的apache pdfbox 外掛，版本選用的是最新版本的2.0.8版本，現將簡單的讀取解析的步驟記錄如下： Apache下載連結如下：

用apache做為代理下載本地pdf文件

自動生成 .cn 指定 listen err 文件的 ide 技術 ror 有一些公司會用apache做為代理，下載服務器上的pdf文件。以下是apache做為代理的配置一. 環境 centos6.5 192.168.69.3 二. yum安裝apache

【Unity遊戲開發】tolua之wrap文件的原理與使用

nop 微信 attr hiera n) 接下來 system 作者 prim 　　本文內容轉載自：https://www.cnblogs.com/blueberryzzz/p/9672342.html 。非常感謝原作者慷慨地授權轉載，比心！@blueberryzzz

【itext學習之路】-------（第三篇）對pdf文件進行加密和許可權設定

上篇文章，我們學習了pdf的屬性設定，但是我們知道，在實際開發中，如果pdf文件被黑客盜取的話，那麼pdf中的資訊就會被洩露，因此本篇文章將會介紹pdf的加密設定，並且設定許可權。首先我們要說明的是，itext中對pdf文件的加密包括兩部分，第一部分是使用者密

【itext學習之路】-------（第一篇）建立一個簡單的pdf文件

iText是著名的開放原始碼的站點sourceforge一個專案，是用於生成PDF文件的一個java類庫。通過iText不僅可以生成PDF或rtf的文件，而且可以將XML、Html檔案轉化為PDF檔案本教程中，首先要說明的是，itext技術在網上很少能有一個相對全面文

使用fileinput+pdfbox獲取pdf文件指定區域的內容

本功能實現的思路如下： 1. 通過bootstrap-fileinput外掛實現上傳pdf文件 2. 通過pdfbox將pdf文件轉換成圖片格式，並儲存在專案的根目錄上。 3.訪問根目錄上的由pdf文件轉成的圖片，使用jquery-ui選取指定區域。 4.將指定區域的座標

利用pdfbox將pdf文件轉換為圖片

如果需要在網頁上預覽pdf文件的話，可以將pdf轉換為flash，同時也可將pdf轉換為圖片檔案。以下為使用 pdfbox 對pdf進行轉換的例項。需要用到的jar包：pdfbox-1.8.2.jar、fontbox-1.8.2.jar publ

PDF文件解析：PDFBox和iText例項

PDFBox和IText是解析PDF文件最常用的兩種java API。 1、使用PDFBox時，需要新增：pdfbox-2.0.0.jar、fontbox-2.0.0.jar、commons-log

Python爬蟲系列之四：利用Python爬取PyODPS頁面並整合成PDF文件

文章架構開發場景在日常開發過程中，經常需要參考一些文件。對於線上文件，往往由於網速等原因，用起來總不是那麼（ma）順（fan）心。開發工具 Anaconda Python 2 實現方案基於 bs4 模組標籤解析爬取

C#操作PDF文件--PDFBox讀取pdf文件，O2S.Components.PDFRender4NET生成縮圖

二、引用動態連結庫解壓縮下載的PDFBox，找到其中的Bin目錄，需要在專案中新增引用的dll檔案有： IKVM.GNU.Classpath.dll PDFBox-0.7.3.dll FontBox-0.1.0-dev.dll

PDF轉換技巧之怎樣把PDF文件轉換成圖片？

proc ces col 小夥伴 ESS 使用轉換成比較 pdf轉圖片 PDF如何轉換成圖片：有很多小夥伴在工作中都會遇到一些文件轉換的問題，每次遇到這些問題都會很頭痛，不知道用什麽方法可以更快的轉換完成，尤其是遇到PDF要轉換成圖片這類的問題，這就需要一個比較專業的轉

Apache PDFbox開發指南之PDF文件讀取

1、介紹

2、特徵

3、開發實戰

3.1、場景說明

3.2、所需jar包

3.3、文字內容提取

3.3.1、文字內容提取

3.3.2、過程說明

3.3.3、執行結果

3.4、圖片提取（2016-12-02新增）

3.3.1、圖片提取

3.4.2、過程說明

3.4.3、執行結果

4、小結

相關推薦