1. 程式人生 > >利用python獲取pdf檔案元資料

利用python獲取pdf檔案元資料

 

 

開發語言:python3

開發工具:pycharm

 

python第三方模組:PyPDF2

python內建模組:sys

 

第一步:pycharm安裝第三方模組“PyPDF2”

 

第二步:匯入模組“PyPDF2”,“sys”

 

第三步:定義一個變數,將pdf檔案路徑賦值給變數

 

第四步:呼叫open()用‘rb’二進位制方式讀取檔案(這裡我們可以列印下看看得到了什麼)

讀取的內容傳給PyPDF2.PdfFileReader(),初始化一個PdfFileReader物件

 

 

第五步:呼叫PdfFileReader物件的getDocumentInfo()方法

得到pdf檔案元資料(列印來看看得到了什麼)

 

第六步:遍歷字典的鍵值對(分別列印鍵和值來看下)

第七步:最終實現了我們的目的,得到了pdf的元資料

我們可以完善我們的程式碼讓他看起來像個工具指令碼