Python處理PDF和Word文件常用的方法
Python處理PDF和Word文件的模組是PyPDF2,使用之前需要先匯入。
開啟一個PDF文件的操作順序是: 用open()函式開啟檔案並用一個變數來接收,然後把變數給傳遞給PdfFileReader物件,形成一個PdfFileReader物件,這樣用PdfFileReader物件下面的各種方法、屬性去操作PDF文件。
PdfFileReader物件方法:
(1)、PyPDF2.PdfFileReader()方法:代表一個PdfFileReader物件。
(2)、getPage() 方法:獲取FDF文件頁數;
(3)、extractText()方法:獲取當前PDF文件當前頁面的文字內容。
(4)、decrypt()方法:用來給加密的PDF文件接收密碼;
PdfFileReader物件常用屬性:
(1)、pdfReader.numPages 屬性:獲取當前文件物件總頁數。
(2)、 isEncrypted 屬性:用於判斷PDF文件是否是加密的,如果是加密的,返回True,否則返回False.
例如:
>>> import PyPDF2
>>> pdfFileObj = open('meetingminutes.pdf', 'rb')
>>> pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
>>> pdfReader.numPages
19
>>> pageObj = pdfReader.getPage(0)
>>> pageObj.extractText()