1. 程式人生 > >C#讀取PDF ——PDFBox使用

C#讀取PDF ——PDFBox使用


二、引用動態連結庫

    解壓縮下載的PDFBox,找到其中的Bin目錄,需要在專案中新增引用的dll檔案有:
    IKVM.GNU.Classpath.dll
    PDFBox-0.7.3.dll
    FontBox-0.1.0-dev.dll
    IKVM.Runtime.dll


將以上4個檔案引用到專案中,在檔案中需要引入以下2個名稱空間:
    using org.pdfbox.pdmodel;
    using org.pdfbox.util;

三、API的使用方法

using System.IO;

using System.Text;

using org.pdfbox.pdmodel;

using org.pdfbox.util;

namespace PDFReader

{

    class Program

    {

        public static void pdf2txt(FileInfo pdffile, FileInfo txtfile)

        {

            PDDocument doc = PDDocument.load(pdffile.FullName);

            PDFTextStripper pdfStripper = new PDFTextStripper();

            string text = pdfStripper.getText(doc);

            StreamWriter swPdfChange = new StreamWriter(txtfile.FullName, false, Encoding.GetEncoding("gb2312"));

            swPdfChange.Write(text);

            swPdfChange.Close();

        }

        static void Main(string[] args)

        {

            pdf2txt(new FileInfo(@"C:/Users/Susan/Desktop/完整稿__匆匆那年_九夜茴.pdf"), new FileInfo(@"C:/Users/Susan/Desktop/完整稿__匆匆那年_九夜茴.txt"));

        }

    }

}

轉化中文是沒有問題的,原因你應該知道。