1. 程式人生 > >UIPath入門系列十之PDF文檔操作

UIPath入門系列十之PDF文檔操作

ase 自動 mes imp 方法 情況 分享 pat ros

今天講解的是PDF數據提取與自動化(PDF Data Extraction and Automation)

一、安裝PDF插件

技術分享圖片

二、準備PDF文檔 (例1-4 Note.pdf, 例5 Invoice.pdf )

技術分享圖片

技術分享圖片

三、識別PDF所有文字和圖像

1. 識別PDF文字: Read PDF txt

2. 識別PDF圖像及文字: Read PDF with OCR 和Screen Scraping

3. 識別多個PDF中相同的單個字符 (Get Text 和Anchor Base)

例1:識別PDF文字

1. 新建一個sequence

2. 添加一個Read PDF txt的方法

技術分享圖片

Range是指掃描的頁數,跟word文檔打印的Range是一樣的功能。例如:"All", "3-7", ”1”

3. 添加一個write txt file輸出方法和message box屏幕輸出方法

技術分享圖片

4. 運行結果如下:圖片並未識別

技術分享圖片

例2:識別PDF圖像和文字方法一

1. 添加Read PDF with OCR

技術分享圖片

2.運行結果如下:圖片和文字均可識別

技術分享圖片

Tips:OCR識別的準確度會隨著PDF圖像的清晰度而降低,盡量避免使用OCR識別方法。

例3:識別PDF圖像和文字方法二

1. 打開PDF文件,點擊Screen Scraping

技術分享圖片

2. 保存錄制結果,添加message box方法,接收 “MicrosoftedgeExeMicro” 變量

技術分享圖片

3. 運行結果如下

技術分享圖片

例4:識別多個Notes.pdf中相同的 ”IMPORTANT READ:”

1. 打開Notes.pdf,加入getText方法

技術分享圖片

2. 添加message box方法

技術分享圖片

3. 運行結果如下

技術分享圖片

4. 去掉title (可匹配多個PDF文檔) 和 text (用index來代替字符串)

5. 接著打開Note2.pdf文檔,點擊運行按鈕,測試結果仍然是 ”IMPORTANT READ:”,Selector選擇器的情況如下

技術分享圖片

技術分享圖片

例5:使用Anchor Base錨點測試多個Invoice文件

1.打開Invoice1.pdf文件,添加一個Anchor Base,錨點裏有兩個參數,一是找到需要測試的對象名稱,二是得到要測試對象的值

技術分享圖片

2. find element方法(或find image方法 )中的selectors修改如下

技術分享圖片

3. get text方法中的selectors修改如下

技術分享圖片

4. 分別測試Invoice1.pdf和Invoice2.pdf文件,測試結果請自行驗證

Tips:若使用find image方法,先將PDF設置為實際大小(我使用find image方法測試不成功)

技術分享圖片

擴展:後續會推出基於圖像的自動化博客(image-based automation)

UIPath入門系列十之PDF文檔操作