1. 程式人生 > >python讀取pdf文件-實戰

python讀取pdf文件-實戰

# -*- coding: utf-8 -*-
#讀取pdf文件
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice
import pdfminer.pdfinterp
#獲取文件物件 fp = open("naacl06-shinyama.pdf","rb") #建立一個與文件關聯的直譯器 parser=PDFParser(fp) #PDF文件物件 doc = PDFDocument() #連結直譯器和文件物件 parser.set_document(doc) doc.set_parser(parser) #初始化文件 doc.initialize("") #建立pdf資源管理器 resource = PDFResourceManager() #引數分析器 laparam = LAParams() #建立一個聚合器 device = PDFPageAggregator(resource,laparams=laparam) #建立PDF頁面直譯器
interpreter=PDFPageInterpreter(resource,device) #使用文件物件得到頁面的集合 for page in doc.get_pages(): #使用頁面直譯器來讀取 interpreter.process_page(page) #使用聚合器來獲取內容 layout= device.get_result() for out in layout: if hasattr(out,"get_text"): print(out.get_text())