Python程式設計：利用ImageMagick轉換PDF為圖片並識別提取圖表

阿新 • • 發佈：2019-01-03

思路是這樣的：

pdf -> image -> 識別其中的圖表 -> 通過PIL擷取圖片

整個過程嘗試了很多方式，最終效果不是很完美，還需要繼續探索

包括以下開源庫

Tabula

前端截圖提取表格資料，效果還可以，使用簡單
使用步驟：

如果是安裝python的第三方模組，使用命令：

pip install tabula-py

ImageMagick

可以進行圖片格式轉換，pdf轉圖片
mac

brew install ImageMagick

Linux

yum install ImageMagick

或者：
官網下載對應平臺的壓縮包：https://www.imagemagick.org/script/download.php

安裝ghostscript：brew install ghostscript

配置ImageMagick環境變數vim ~/.bash_profile

export MAGICK_HOME=/Users/qmp/Applications/ImageMagick-7.0.8
export PATH="$MAGICK_HOME/bin:$PATH"
export 
 DYLD_LIBRARY_PATH="$MAGICK_HOME/lib/"

source ~/.bash_profile

命令列測試

convert -version

convert a.jpg a.png

convert -limit thread 1 names.pdf -background white -alpha remove -colorspace RGB  -colorspace sRGB out.jpg

提高圖片質量

$ convert -density 300 -quality 100 test.pdf 1.png

引數解析:

-density 300
影象每英寸面積內的畫素點數，數值越高圖片質量越高

-quality 100
這個為轉換png時的壓縮率，100表示不壓縮

引數設定：
https://www.imagemagick.org/www/script/convert.php

python庫wand

支援ImageMagick介面，只支援6版本，而ImageMagick最新為7版本，Mac上嘗試安裝不成功
http://docs.wand-py.org/

網路資源

pdf轉圖片：
http://app.xunjiepdf.com/pdf2jpg
http://pdftoword.55.la/pdf-to-jpg/

百度ai通用影象分析：
https://ai.baidu.com/tech/imagerecognition/general

完整過程

先使用ImageMagick將pdf檔案轉為png圖片格式

import os

pdfname = "names.pdf"

os.makedirs("out", exist_ok=True)

cmd = (
    "source ~/.bash_profile; "
    "convert "
    "-limit thread 1 {} "
    "-background white "
    "-alpha remove "
    "-colorspace RGB  "
    "-colorspace sRGB "
    "out/out.jpg"
).format(pdfname)

result = os.popen(cmd)
print(result.read())

通過百度AI介面將圖片中的主物體識別出來，獲取座標


from aip import AipImageClassify

""" 你的 APPID AK SK """
APP_ID = '你的 App ID'
API_KEY = '你的 Api Key'
SECRET_KEY = '你的 Secret Key'

filename = "name.png"

client = AipImageClassify(APP_ID, API_KEY, SECRET_KEY)

with open(filename, "rb") as f:
    image = f.read()

result = client.objectDetect(image)
print(result)
data = result.get("result")

通過百度識別出來的座標，使用PIL將需要的圖片截取出來


width = data.get("width")
height = data.get("height")
top = data.get("top")
left = data.get("left")

from PIL import Image

im = Image.open(filename)
box = (left, top, left + width, top + height)
region = im.crop(box)
region.save("cutting.jpg")

參考：

Mac下使用Python進行pdf到image的轉換

Python 將pdf轉成圖片

利用ImageMagick把pdf批量轉換為高質量圖片

Python程式設計：利用ImageMagick轉換PDF為圖片並識別提取圖表

思路是這樣的： pdf -> image -> 識別其中的圖表 -> 通過PIL擷取圖片整個過程嘗試了很多方式，最終效果不是很完美，還需要繼續探索包括以下開源庫 Tabula 前端截圖提取表格資料，效果還可以，使用簡單使用步驟：

Linux系統利用ImageMagick把pdf批量轉換為高質量圖片

在Linux系統執行命令： convert -density 300 -quality 100 "/usr/local/tomcat/test/1.pdf" "/usr/local/tomcat/test/1.png" 引數解析: -density 300 影象每英寸面

python程式設計：從入門到實踐 pdf 下載

上到有程式設計基礎的程式設計師，下到10歲少年，想入門Python並達到可以開發實際專案的水平，本書是讀者優選！本書是一本全面的從入門到實踐的Python程式設計教程，帶領讀者快速掌握程式設計基礎知識、編寫出能解決實際問題的程式碼並開發複雜專案。書中內容分為基礎篇和

Python程式設計：二進位制，八進位制，十六進位制與十進位制之間的轉換

進位制轉換的函式 bin() 10進位制轉2進位制 oct() 10進位制轉8進位制 hex()10進位制轉16進位制 int() *進位制轉10進位制各進位制之間轉換 ↓ 2進位制 8進位制

Python基礎程式設計：利用列表實現簡單的先進後出、先進先出

i = []#定義空白列表 def push(a):#定義增加函式 i.append(a) def view():#定義列印函式 print(i) while True: print('請輸入你的操作：') print('push:u')#增加元素 print

《Python程式設計：從入門到實踐》高清PDF下載

本書是一本針對所有層次的Python讀者而作的Python入門書。全書分兩部分：第一部分介紹用Python程式設計所必須瞭解的基本概念，包括matplotlib、NumPy和Pygal等強大的Python庫和工具介紹，以及列表、字典、if語句、類、檔案與異常、程式碼測試等內容；第二部分將理論付諸實踐，講解如何

關於《Python程式設計：從入門到實踐）》pdf版適用於網盤前端美元符號開發下載教程

實操性還可以，點選下面藍色字可百度網盤下載本書為完整版，附下載連結連結：https://pan.baidu.com/s/1twxJ98OVlAVXXXGNI0R21A 密碼：69cx 這本書我看了電子版的，感覺還不錯，全書共有20章,書中的簡介如下：本書旨在

《Python程式設計：從入門到實踐》PDF 下載

內容簡介本書是一本針對所有層次的Python讀者而作的Python入門書。全書分兩部分：首部分介紹用Python 程式設計所必須瞭解的基本概念，包括matplotlib、NumPy和Pygal等強大的Python庫和工具介紹，以及列表、字典、if語句、類、檔案

Python程式設計：讀取pdf、pptx、docx、xlsx檔案的頁數

pdf 安裝工具 pip install pdfplumber 程式碼示例 import pdfplumber from pdfminer.pdfparser import PDFSyntaxError def get_pdf_page(pdf_path):

Python程式設計：pypdf2和pdfplumber獲取pdf檔案的頁數

pypdf2 安裝 pip install pypdf2 程式碼例項 from PyPDF2 import PdfFileReader filename = "test.pdf" reader = PdfFileReader(filename) # 不解密可能會報錯

Python程式設計：namedtuple命名元組和dict字典相互轉換

from collections import namedtuple dct = { "name": "Tom", "age": 24 } Person = namedtuple("

《Python程式設計：從入門到實踐》【PDF】完整版免費下載

內容簡介本書是一本針對所有層次的Python 讀者而作的Python 入門書。全書分兩部分：第一部分介紹用Python 程式設計所必須瞭解的基本概念，包括matplotlib、NumPy 和Pygal 等強大的Python 庫和工具介紹，以及列表、字典、if 語句、類、檔案與

Python程式設計：為世界貢獻你的輪子-pipy打包

第一步：註冊賬號第二步：設定專案資訊我要打包的檔案是chinesename.py，配置如下目錄結構： chinesename - chinesename - __init__.py - chinese

python入門：UTF-8轉換成GBK編碼

終端 nco 什麽等於 windows 就是 python 2 類型 window 1 #!/usr/bin/env python 2 # -*- coding:utf-8 -*- 3 #UTF-8轉換成GBK編碼 4 #temp(臨時雇員，譯音：泰坡) 5

python學習：利用循環語句完善輸入設置

then else cati int tro 執行 sed not range 利用循環語句完善輸入設置使用for循環：代碼1：_user = "alex"_password = "abc123"for i in range(3): username = input

Python程式設計從入門到實踐PDF下載，網紅少年程式設計書，AI自學不再難

網紅少年程式設計書，AI自學不再難原創： Cottbuser 灣區人工智慧 4天前作者：Cottbuser 會多國語言的海歸公眾號：灣區人工智慧微博：灣區人工智慧知乎：灣區人工智慧 AI QQ群：604562980 一線人工智慧工程

python程式設計：從入門到實踐學習筆記-Django開發使用者賬戶（一）

讓使用者能夠輸入資料（表單）在建立使用者賬戶身份驗證系統之前，先新增幾個頁面，讓使用者能偶輸入資料。新增新主題、新增新條目以及編輯既有條目。新增新主題 1.用於新增主題的表單建立一個forms.py檔案與models.py放在同一目錄下。 from django import

python程式設計：從入門到實踐學習筆記-Django入門（四）

建立其他網頁我們接下來擴充“學習筆記”專案，建立兩個顯示資料的網頁，其中一個列出所有的主題，另一個顯示特定主題的所有條目。模板繼承編寫一個包含通用元素的父模板，並讓每個網頁都繼承這個模板，而不必在每個網頁中重複定義這些通用元素。這樣我們可以專注於開發每個網頁的獨特部分。1.父模板

python程式設計：從入門到實踐學習筆記-Django入門（二）

建立網頁：學習筆記主頁使用django建立網頁通常分三個階段：定義URL、編寫檢視和編寫模板。首先必須定義URL模式，其描述了URL是如何設計的，讓django知道如何將瀏覽器請求與網站URL匹配，以確定返回哪個網頁。每個URL都被對映到特定的檢視——檢視函式獲取並處理網頁所需的資料。檢視函

python程式設計：從入門到實踐學習筆記Django入門（一）

建立應用程式 django專案由一系列應用程式組成，他們協同工作，讓專案稱謂一個整體。首先我們執行命令python manage.py startapp learning_logs。定義模型開啟剛剛我們建立的資料夾，並修改mod

Python程式設計：利用ImageMagick轉換PDF為圖片並識別提取圖表

Tabula

ImageMagick

python庫wand

網路資源

完整過程

相關推薦