1. 程式人生 > >[Python工具]pdf表格提取camelot安裝教程

[Python工具]pdf表格提取camelot安裝教程

pdf表格提取camelot安裝教程

經過測試,macos 與win10 均可以用一下方式安裝

Camelot: 一個友好的PDF表格資料抽取工具

一個python命令列工具,使任何人都能很輕鬆的從PDF檔案中抽取表格資料。

怎樣使用Camelot

使用Camelot從PDF文件提取資料非常簡單

.Camelot允許你通過調整設定項來精確控制資料的提取過程

.可以根據空白和精度指標來判斷壞的表格,並丟棄,而不必手動檢查

.每一個表格資料是一個panda的dataframe,從而可以很方便的整合到ETL和資料分析工作流中

.可以把資料匯出為各種不同的格式比如 CSV、JSON、EXCEL、HTML

  • pip 安裝指令:

首先在電腦上安裝python3.6,然後再命令列輸入:

pip install camelot-py
  • 進入python命令列測試
(CLOT) C:\Users\yss>python
Python 3.6.7 |Anaconda, Inc.| (default, Oct 28 2018, 19:44:12) [MSC v.1915 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import camelot as cl
......
    import chardet  # For str encoding detection in Py3
ModuleNotFoundError: No module named 'chardet'
>>>

如果如同上述情況報錯:No module named ‘chardet’,返回系統命令列,執行:

pip install chardet

安裝chardet成功後,再次進入python命令測試:

(CLOT) C:\Users\yss>python
Python 3.6.7 |Anaconda, Inc.| (default, Oct 28 2018, 19:44:12) [MSC v.1915 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import camelot as cl
  File "F:\APP\Ides\Anaconda3\envs\CLOT\lib\site-packages\camelot\image_processing.py", line 5, in <module>
    import cv2
ModuleNotFoundError: No module named 'cv2'
>>>

報錯:ModuleNotFoundError: No module named ‘cv2’,這是應為opencv庫沒有安裝。
再次返回系統命令列,安裝opencv庫:

pip install opencv-python

執行完上述操作,就安裝成功了。

  • 安裝成功,測試一下

再次進入python,輸入:

import camelot as cl

不再會報錯了。
輸出其版本號:

print(cl.__version__)

測試過程如下:

(CLOT) C:\Users\yss>python
Python 3.6.7 |Anaconda, Inc.| (default, Oct 28 2018, 19:44:12) [MSC v.1915 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import camelot as cl
>>> cl.__version__
'0.3.2'
>>>

安裝完成了,後面就是開始使用,後面有機會,我也會把使用的心得更新上來。