UIPath入門系列十之PDF文檔操作
今天講解的是PDF數據提取與自動化(PDF Data Extraction and Automation)
一、安裝PDF插件
二、準備PDF文檔 (例1-4 Note.pdf, 例5 Invoice.pdf )
三、識別PDF所有文字和圖像
1. 識別PDF文字: Read PDF txt
2. 識別PDF圖像及文字: Read PDF with OCR 和Screen Scraping
3. 識別多個PDF中相同的單個字符 (Get Text 和Anchor Base)
例1:識別PDF文字
1. 新建一個sequence
2. 添加一個Read PDF txt的方法
Range是指掃描的頁數,跟word文檔打印的Range是一樣的功能。例如:"All", "3-7", ”1”
3. 添加一個write txt file輸出方法和message box屏幕輸出方法
4. 運行結果如下:圖片並未識別
例2:識別PDF圖像和文字方法一
1. 添加Read PDF with OCR
2.運行結果如下:圖片和文字均可識別
Tips:OCR識別的準確度會隨著PDF圖像的清晰度而降低,盡量避免使用OCR識別方法。
例3:識別PDF圖像和文字方法二
1. 打開PDF文件,點擊Screen Scraping
2. 保存錄制結果,添加message box方法,接收 “MicrosoftedgeExeMicro” 變量
3. 運行結果如下
例4:識別多個Notes.pdf中相同的 ”IMPORTANT READ:”
1. 打開Notes.pdf,加入getText方法
2. 添加message box方法
3. 運行結果如下
4. 去掉title (可匹配多個PDF文檔) 和 text (用index來代替字符串)
5. 接著打開Note2.pdf文檔,點擊運行按鈕,測試結果仍然是 ”IMPORTANT READ:”,Selector選擇器的情況如下
例5:使用Anchor Base錨點測試多個Invoice文件
1.打開Invoice1.pdf文件,添加一個Anchor Base,錨點裏有兩個參數,一是找到需要測試的對象名稱,二是得到要測試對象的值
2. find element方法(或find image方法 )中的selectors修改如下
3. get text方法中的selectors修改如下
4. 分別測試Invoice1.pdf和Invoice2.pdf文件,測試結果請自行驗證
Tips:若使用find image方法,先將PDF設置為實際大小(我使用find image方法測試不成功)
擴展:後續會推出基於圖像的自動化博客(image-based automation)
UIPath入門系列十之PDF文檔操作