1. 程式人生 > >Python程式設計:讀取pdf、pptx、docx、xlsx檔案的頁數

Python程式設計:讀取pdf、pptx、docx、xlsx檔案的頁數

pdf

安裝工具

pip install pdfplumber

程式碼示例

import pdfplumber
from pdfminer.pdfparser import PDFSyntaxError

def get_pdf_page(pdf_path):
    try:
        f = pdfplumber.open(pdf_path)
        page = len(f.pages)
    except PDFSyntaxError:
        page = 0
    return page

pptx

安裝工具

 pip install python-pptx

程式碼示例

from pptx import Presentation

def get_pptx_page(pptx_path):
    try:
        p = Presentation(pptx_path)
        page = len(p.slides)
    except KeyError:
        page = 0
    return page

docx、xlsx

Word是流動分頁的,檔案內容本身並不儲存分頁結果。具體分頁時斷在哪裡、最後分出多少頁,都需要現場渲染所有的圖文內容之後才能確定。

Word檔案中僅包含了一行一行的文字,與頁面設定中指定的頁面尺寸。

Word每次開啟檔案時都會一行一行“擺放”文字資料,發現一頁裝不下了自動新開一頁

所以,讀取頁數是不對的

參考

  1. 如何在 Linux 上使用 Python 讀取 word 檔案資訊(如頁數)?
  2. Python程式設計:pypdf2和pdfplumber獲取pdf檔案的頁數