1. 程式人生 > >java操作word,pdf的四種武器

java操作word,pdf的四種武器

下面是一個如何使用pdfbox抽取pdf檔案的例子:
import org.pdfbox.pdmodel.PDdocument.
import org.pdfbox.pdfparser.PDFParser;
import java.io.*;
import org.pdfbox.util.PDFTextStripper;
import java.util.Date;
/**
 * <p>Title: pdf extraction</p>
 * <p>Description: email:[email protected]</p>
 * <p>Copyright: Matrix Copyright (c) 2003</p>
 * <p>Company: Matrix.org.cn</p>
 * @author chris
 * @version 1.0,who use this example pls remain the declare
 */

public class PdfExtracter{

public PdfExtracter(){
  }
public String GetTextFromPdf(String filename) throws Exception
  {
  String temp=null;
  PDdocument.nbsppdfdocument.null;
  FileInputStream is=new FileInputStream(filename);
  PDFParser parser = new PDFParser( is );
  parser.parse();
  pdfdocument.nbsp= parser.getPDdocument.);
  ByteArrayOutputStream out = new ByteArrayOutputStream();
  OutputStreamWriter writer = new OutputStreamWriter( out );
  PDFTextStripper stripper = new PDFTextStripper();
  stripper.writeText(pdfdocument.getdocument.), writer );
  writer.close();
  byte[] contents = out.toByteArray();

  String ts=new String(contents);
  System.out.println("the string length is"+contents.length+"");
  return ts;
}
public static void main(String args[])
{
PdfExtracter pf=new PdfExtracter();
PDdocument.nbsppdfdocument.nbsp= null;

try{
String ts=pf.GetTextFromPdf("c://a.pdf");
System.out.println(ts);
}
catch(Exception e)
  {
  e.printStackTrace();
  }
}

}
 
     4.抽取支援中文的pdf檔案-xpdf

xpdf是一個開源專案,我們可以呼叫他的本地方法來實現抽取中文pdf檔案。
下載xpdf函式包: