1. 程式人生 > >Python讀取pdf文件 只讀文字的情況

Python讀取pdf文件 只讀文字的情況

# coding=utf-8
import pdfminer
#讀取pdf檔案
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfdevice import PDFDevice
from pdfminer.pdfinterp import PDFPageInterpreter,PDFResourceManager
from pdfminer.pdfparser import PDFPage
fp=open("a.pdf","rb")#根據二進位制的方式讀取
#如果是url
#fp=request.urlopen(url)#網址
#建立與文件關聯的直譯器
parser=PDFParser(fp)
#建立一個pdf文件物件
doc=PDFDocument()
#連線直譯器和文件物件
parser.set_document(doc)
doc.set_parser(parser)


#對文件進行初始化
doc.initialize("")#檔案沒有密碼就是空字串
#建立一個pdf資源管理器
resouse=PDFResourceManager()
#建立一個引數分析器
lap=LAParams()
#建立一個聚合器
device=PDFPageAggregator(resouse,laparams=lap)
#建立一個頁面直譯器
interpreter=PDFPageInterpreter(resouse,device)
#開始讀取內容
for page in doc.get_pages():
    #呼叫頁面直譯器來解釋
    interpreter.process_page(page)
    #使用聚合器來獲得內容
    layout=device.get_result()
    for out in layout:
        if hasattr(out,"get_text"):


            print(out.get_text())