【閱讀全文】

第三方庫說明

# PDF讀取第三方庫
import pdfplumber # DataFrame 資料結果處理
import pandas as pd

初始化DataFrame資料物件

# 初始化DataFrame資料物件、用於DataFrame資料儲存
data_frame = pd.DataFrame()

讀取PDF表格

# pdf 檔案路徑
pdf_file = '/usr/load/data.pdf' # 讀取pdf資料
pdf_data = pdfplumber.open(pdf_file) # 遍歷PDF資料
for page in pdf_data.pages:
# 每一頁的Tbale表格資料
table = page.extract_table()
# 將每一頁的資料寫入一個DataFrame物件
data_frame_page = pd.DataFrame(table[1:], columns=table[0])
# 合併每一頁的表格資料
data_frame = pd.concat([data_frame_page, data_frame], ignore_index=True) # 簡單的資料清洗、刪除其中列值全部為Nan的資料列
data_frame.dropna(axis=1, how='all', inplace=True)

寫入EXCEL表格

# excel 檔案路徑
excel_path = '/usr/load/data.pdf' # 自定義列名
data_frame.columns = ['姓名', '年齡', '身份證號', '績效考核'] # DataFrame資料儲存到Excel資料表中
data_frame.to_excel(excel_writer=excel_path, index=False, encoding='utf-8')

【粉絲福利】關注公眾號,獲取全套視訊資料,使用python的pdf讀寫功能模組,將從pdf讀取的表格內容自定義轉換後寫入excel檔案表格。喜歡小編點個 '關注' 吧!

【往期精選】

● python 中最好用的身份證規則解析工具,地區碼、性別、出生年月、身份證編碼等快速校驗!

● os用法總結:python中必須掌握的內建模組os,實現與計算機作業系統的常規互動!

● python 實用技巧:幾十行程式碼將照片轉換成素描圖、隨後打包成可執行檔案(原始碼分享)

● python十行程式碼實現檔案去重,去除重複檔案的指令碼

● python的GUI框架tkinter,實現程式設計師的流氓式表白邏輯

● 探究python函式的不定長引數*args與**kwargs

● 沒有深思過的python冷知識你知道幾個?

● python圖片處理,自動生成gif動態圖片

● python-redis 的操作手法,相當簡單的redis資料儲存方式!

● python 日期、時間處理,各種日期時間格式/字串之間的相互轉換究竟是怎樣的?

● python 內建的資料計數器Counter相當nice

● 幾十行程式碼實現python傳送郵件與接收郵件

● 沒有開發工具,在伺服器控制檯如何進行python程式碼除錯,高階程式設計pdb程式碼除錯!

● 梳理python路線知識盲區,最全面、最詳細的python知識體系框架思維導圖終於出爐了!

本文由微信公眾號【python 集中營】釋出,更多精彩文章、視訊資料即可領取!