1. 程式人生 > >Pdfbox、Icepdf和JPedal三個PDF提取器的比較

Pdfbox、Icepdf和JPedal三個PDF提取器的比較

由於專案中要實現提取PDF文件的一些圖片和文字資訊,所以花了很多時間去研究這三個元件。

第一個接觸的是pdfbox,確實能提取頁面的圖片和內部圖片,頁面圖片使用page.convertToImage方法,內部的圖片提取需要繼承PDFStreamEngine,提取文字也可以通過PDFTextStripper來獲取,但是pdfbox比較悲劇的地方是一些type1字型的文件不支援,無法解析或者亂碼;

於是我又試了icepdf,同樣也能提取圖片和文字,但是對於type1的字型,icepdf提供了字型引擎,不過是商用版才有,需要付費購買,網上能下到一個ICEpdf-pro-4.3.2-bin裡有擴充套件包,雖然能直接使用,可是版本太低,有些bug由於沒有原始碼,暫時無法解決;

再試JPedal,提取出了頁面圖片和內部圖片,但是一直沒實現提取文字座標資訊,就此作罷,可能對於每一個開發者的需要不一樣,但是我還沒找到符合自己的東西!