1. 程式人生 > >C# PDFbox讀取PDF內容

C# PDFbox讀取PDF內容

using System;
using System.Windows.Forms;
using org.apache.pdfbox.pdmodel;
using org.apache.pdfbox.util;
using System.IO;


namespace ReadPDF
{
    public partial class Form2 : Form
    {
        public Form2()
        {
            InitializeComponent();
        }

        public static void pdf2txt(FileInfo pdffile)
        {
            PDDocument doc = PDDocument.load(pdffile.FullName);
            PDFTextStripper pdfStripper = new PDFTextStripper();
            string text = pdfStripper.getText(doc);
        }

        private void button1_Click(object sender, EventArgs e)
        {
            pdf2txt(new FileInfo(@"e:/5.pdf"));
        }
    }
}

相關推薦

C# PDFbox讀取PDF內容

using System; using System.Windows.Forms; using org.apache.pdfbox.pdmodel; using org.apache.pdfbox.u

利用pdfbox讀取pdf檔案內容和圖片

     最近用pdfbox讀取pdf檔案中的內容和圖片,可以獲取每一頁的內容和圖片,但有個問題是沒法獲取圖片在頁面的位置。原始碼如下: package com.util; import java.awt.image.BufferedImage; import java.i

C#操作PDF文件--PDFBox讀取pdf文件,O2S.Components.PDFRender4NET生成縮圖

二、引用動態連結庫     解壓縮下載的PDFBox,找到其中的Bin目錄,需要在專案中新增引用的dll檔案有:     IKVM.GNU.Classpath.dll     PDFBox-0.7.3.dll     FontBox-0.1.0-dev.dll    

(8)PDFBOX讀取PDF(元資料、綱要、文字、圖片)

PDFBox是Java實現的PDF文件協作類庫,提供PDF文件的建立、處理以及文件內容提取功能,也包含了一些命令列實用工具。其主要特性包括: 1、提取PDF檔案的Unicode文字 2、將PDF切分成多個PDF檔案或合併多個PDF檔案 3、從PDF表格中提

c++中讀取檔案內容存入到另一個檔案

使用fstream庫中函式讀取檔案內容並存入到另一個檔案中的demo。 #include <stdio.h> #include <stdlib.h> #include <

PDFBox讀取PDF文件元資料

PDFBox是ASF下一個提供PDF文件操作lib的開源專案。目前PDFBox的最新版本是1.2.1,一下功能主要提供 * PDF to text extraction * Merge PDF Documents * PDF Document Encryp

C API--linux上c語言讀取資料庫內容(mysql)

這裡歸納了C API可使用的函式,詳見MYSQL手冊 函式 描述 mysql_affected_rows() 返回上次UPDATE、DELETE或INSERT查詢更改/刪除/插入的行數。 mysql_autocommit() 切換 autocommit模式,ON/OFF mysql

Android使用iText生成pdf檔案並讀取pdf內容

一、何為iText iText是著名的開放原始碼的站點sourceforge的一個專案,可用來生成Pdf檔案和讀取Pdf檔案內容. 二、使用iText生成Pdf檔案 1.將jar包放到自己的專案中,然後進行專案的編輯 2.生成Pdf檔案的程式碼: Documen

java 用pdfbox讀取pdf

import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.text.PDFTextStripper; import org.apache.pdfbox.text.PDFTextStripper

C#讀取PDF ——PDFBox使用

二、引用動態連結庫    解壓縮下載的PDFBox,找到其中的Bin目錄,需要在專案中新增引用的dll檔案有:    IKVM.GNU.Classpath.dll    PDFBox-0.7.3.dll    FontBox-0.1.0-dev.dll    IKVM.Ru

C#讀取PDF、TXT內容

//讀取PDF內容 private void button2_Click(object sender, EventArgs e) { label3.Text = OnCreated("D:\\aa.pdf"); }

JAVA中通過poi和pdfbox讀取office檔案和pdf檔案內容

xlsx* @param file* @return* @throws IOException*/public static String readEXCEL2007(String file) throws IOException {StringBuilder content = new StringBuil

C#-XML文件提取字符串+字符串存為XML文件+創建XML(自定義節點)文件+讀取節點內容

cts ted set clas desc format view nav child 一、將字符串寫入xml文件(並保存) 寫入: XmlDocument xdoc = new XmlDocument(); xdoc.LoadXml(“xmlstring”); 保存

C#利用NPOI逐列讀取excel內容

C# NPOI 讀取excel using System; using System.Collections.Generic; using System.Linq; using System.Text; using NPOI.SS.UserModel; using NPOI.HSSF.U

C# 創建、讀取PDF文檔

C# .NET 創建、讀取PDF 類庫 生成PDF文檔我們通常可以通過文檔轉換的形式來得到想要的PDF,但我們也可以通過最直接的方式來創建PDF文檔,由此本篇文章將介紹C#如何來創建帶圖、文元素的PDF文檔。同理,對於需要讀取PDF文檔的情況,我們也可以分情況來讀取想要的文檔元素(文本、圖片)

Unity3D讀取PDF文件內容

讀取 直接 min posit rec unity3d gettext fim write 最近在研究Unity3D中讀取PDF的內容,預想了三種方案,一是用Java來實現,二是調用C#的iTextSharp庫或者PDFBox庫來實現,三是下載PDF Renderer插件(

C++ 讀取檔案內容到指定型別的變數

#include <iostream> #include <fstream> #include <sstream> #include <string> using namespace std; int main(){ cout <<

C++ 讀取檔案內容到data 結構體 structure

#include <iostream> #include <fstream> #include <stdlib.h> using namespace std; typedef struct { int n; char *data; } BLOCK;

c++與matlab混合編譯———讀取mxArray內容

            mxArray作為一種特殊且複雜的資料結構,需要通過matrix.h提供的相關介面去訪問。在混合編譯過程中,matlab變數以mxArray形式儲存,通常用mxArray* 型別來指定matlab工作空間變數的地

Java 讀取PDF文字內容

本文將介紹如何在Java應用程式中讀取PDF檔案的文字內容。 在Java應用程式中讀取PDF,我們可以藉助第三方PDF控制元件,本文所使用的控制元件是免費Java PDF元件Free Spire.PDF for JAVA。 在使用以下程式碼前,你需要下載Free Spire.PDF fo