1. 程式人生 > >提取 PDF 表格資料

提取 PDF 表格資料

眾所周知,將資料從 PDF 表格中提取出來是一件很煩人的任務,比如將下圖的表格貼上到 Excel 中,就會是這樣!


在 PDF 中很是工整。但是!一旦,複製,然後再貼上到 Excel 中,就變了模樣,真的認不出。這種時候,很多同學想必就是無奈地手動輸入了。真的是慘啊,如果資料量少還好,一多簡直是要命啊!


但是,這些問題都難不倒機智的學霸君!


是不是很 nice 啊。接下來就讓學霸君給打家介紹中這款工具,及其使用。


這款小工具叫做 Tabula,是一個免費的開源小工具,對的,沒有看錯,是免費的哦。它除了免費,還有一個優點,就是多平臺!


除了 PC 使用者,還支援 Mac,真的是 Mac 黨的福音啊。接下來學霸君會給大家詳細介紹如何使用。

首先就是下載啦。解壓後,開啟軟體,會自動開啟瀏覽器。


開啟後介面是這樣的,這個時候,剩下的幾乎都傻瓜操作。


我們可以參照這個步驟來操作。

上傳包含資料表的 PDF 檔案。


通過單擊表格的左上角並將滑鼠拖到右下角來選擇表格,直到所有資料都包含在陰影選擇區域中。


這裡有幾個注意點,一定要切記!

第 1:不要將標題圈進陰影區域,不然會打亂格式!

第 2:如果表格的表頭包含合併單元格,不要圈進陰影區域,可以後續提取完資料再做處理!

隨後,點選綠色按鈕。


隨後會出現一個包含您的資料的視窗。檢查資料以確保它看起來正確。如果資料丟失,我們可能需要稍微擴充套件我們的選擇。


選擇我們需要的格式,點選下載按鈕。


開啟檔案,我們就可以將資料作為文字檔案或電子表格,而不是 PDF 來進行處理!

但是學霸君發現一個問題,就是有時一些符號在 CSV 中會出現亂碼,但是不知道是不是因為 Mac 的 Excel 相容性不是特別好,但是這問題很好解決。


只要選擇 Excel 的替換功能,然後將亂碼字元統一替換就好!