1. 程式人生 > >Tesseract:簡單的Java光學字元識別

Tesseract:簡單的Java光學字元識別

1.1 介紹

開發具有一定價值的符號是人類特有的特徵。對於人們來說識別這些符號和理解圖片上的文字是非常正常的事情。與計算機那樣去抓取文字不同,我們完全是基於視覺的本能去閱讀它們。

另一方面,計算機的工作需要具體的和有組織的內容。它們需要數字化的表示,而不是圖形化的。

有時候,這是不可能的。有時,我們希望自動化的完成用雙手從影象重寫文字的任務。

針對這些任務,光學字元識別(OCR)被設計成一種允許計算機以文字形式“閱讀”圖形化內容的方法,和人類工作的方式相似。雖然這些系統相對準確,但仍然可能有相當大的偏差。即便如此,修復系統的錯誤結果也遠比手工從頭開始要更加容易和快速。

就像所有的系統一樣,本質上是相似的,光學字元識別軟體在準備好的資料集上進行訓練,這些資料集提供了足夠多的資料用來幫助學習字元間的差異。如果我們想讓結果更加準確,那麼這些軟體如何學習也是非常重要的話題,不過這將是另外一篇文章的內容了。

與其重新造輪或者想出一個非常複雜(但有用)的解決方案,不如我們先坐下來看看已有的解決方案。

1.2 Tesseract

科技巨頭 Google 一直在開發一個 OCR 引擎 Tesseract ,它從最初誕生到現在已有數十年的歷史。它為許多語言提供了API,不過我們將專注於 Tesseract 的 Java API 。

很容易使用 Tesseract 來實現一個簡單的功能。它主要用於讀取計算機在黑白圖片上生成的文字,並且結果的準確度較好。但這不是針對真實世界的文字。

對於現實世界中,我們最好使用像谷歌 Vision 這樣的更高階的光學字元識別軟體,這將在另一篇文章中討論。

1.2.1 Maven依賴

我們只需要簡單的新增一個依賴,就可以將引擎引入到我們的專案:

<dependency>
    <groupId>net.sourceforge.tess4j</groupId>
    <artifactId>tess4j</artifactId>
    <version>3.2.1</version>
</dependency>

1.2.2 光學字元識別

使用 Tesseract 毫不費力:

Tesseract tesseract = new Tesseract();
tesseract.setDatapath("E://DataScience//tessdata");
System.out.println(tesseract.doOCR(new File("...")));

我們先例項化一個 Tesseract 例項,然後為已訓練好的 LSTM (長短期記憶網路)模型設定資料路徑。

資料可以從官方GitHub帳號處下載。

然後我們呼叫 doOCR() 方法,該方法接受一個檔案引數並且返回一個字串——提取的內容。

讓我們給它提供一張有著大而清晰的黑色字元的白色背景圖片:

提供這樣一張圖片會獲得完美的結果:

Optical Character Recognition in Java is made easy with the help of Tesseract'

不過這張圖片掃描起來過於簡單了。它已經被歸一化,而且有高解析度和一致的字型。

讓我們來試試在紙上手寫一些字元並將該圖片提供給應用程式,這將會發生些什麼呢:

我們可以立即看到結果的改變:

A411“, written texz: is different {mm compatar generated but

有一些單詞十分準確,並且你可以很輕鬆的辨認出 “written text is different from computer generated” ,但是第一個和最後一個單詞差得有點多。

現在,為了讓程式使用起來更簡單,我們把它轉換成一個十分簡單的 Spring Boot 應用程式,用更加舒適的圖形化介面來展示結果。

1.3 實現

1.3.1 Spring Boot應用程式

首先,從使用Spring Initializr建立我們的專案開始。它包含spring-boot-starter-webspring-boot-starter-thymeleaf依賴。然後我們手動匯入Tesseract:

1.3.2 控制器

該應用程式只需要一個控制器,它將為我們提供兩個頁面的展示、處理圖片上傳和光學字元識別功能:

@Controller
public class FileUploadController {

    @RequestMapping("/")
    public String index() {
        return "upload";
    }

    @RequestMapping(value = "/upload", method = RequestMethod.POST)
    public RedirectView singleFileUpload(@RequestParam("file") MultipartFile file,
                                   RedirectAttributes redirectAttributes, Model model) throws IOException, TesseractException {

        byte[] bytes = file.getBytes();
        Path path = Paths.get("E://simpleocr//src//main//resources//static//" + file.getOriginalFilename());
        Files.write(path, bytes);

        File convFile = convert(file);
        Tesseract tesseract = new Tesseract();
        tesseract.setDatapath("E://DataScience//tessdata");
        String text = tesseract.doOCR(convFile);
        redirectAttributes.addFlashAttribute("file", file);
        redirectAttributes.addFlashAttribute("text", text);
        return new RedirectView("result");
    }

    @RequestMapping("/result")
    public String result() {
        return "result";
    }

    public static File convert(MultipartFile file) throws IOException {
        File convFile = new File(file.getOriginalFilename());
        convFile.createNewFile();
        FileOutputStream fos = new FileOutputStream(convFile);
        fos.write(file.getBytes());
        fos.close();
        return convFile;
    }
}

Tesseract 可以和Java的 File 類一起工作,但是不支援表單上傳的 MultipartFile 類。為了便於處理,我們添加了一個簡單的 convert() 方法,它將 MultipartFile 物件轉換成一個普通的 File 物件。

一旦我們利用 Tesseract 提取出了文字,我們只需將該文字和掃描的影象一起新增到模型當中,然後附加到重定向的展示頁面 - result

1.3.3 展示頁面

現在,讓我們定義一個包含簡單檔案上傳表單的展示頁面:

<html>
<body>
<h1>Upload a file for OCR:</h1>

<form method="POST" action="/upload" enctype="multipart/form-data">
    <input type="file" name="file" /><br/><br/>
    <input type="submit" value="Submit" />
</form>

</body>
</html>

以及一個結果頁面:

<html xmlns:th="http://www.thymeleaf.org">
<body>

<h1>Extracted Content:</h1>
<h2>><span th:text="${text}"></span></h2>

<p>From the image:</p>
<img th:src="'/' + ${file.getOriginalFilename()}"/>
</body>
</html>

執行這個應用程式將會有一個簡單的互動介面迎接我們:

新增一個圖片並提交它,螢幕上的結果將會包含提取的文字和上傳的圖片:

成功了!

1.4 結論

利用谷歌的 Tesseract 引擎,我們搭建了一個十分簡單的應用,它接受從表單提交來的圖片,從中提取文字內容,最後將結果和圖片一起返回給我們。

由於我們只使用了 Tesseract 有限的功能,所以這不是一個特別有用的應用程式。而且該應用程式對於演示目的之外的任何其他用途都過於簡單,但是它可以作為一個有趣的工具來實現和測試。

當你想把內容數字化時,光學字元識別可以很快上手,特別是針對文件。他們很容易被掃描,並且提取的內容準確度也較好。當然,為了避免潛在的錯誤,對結果文件進行校對總是明智的。


8月福利準時來襲,關注公眾號

後臺回覆:003即可領取7月翻譯集錦哦~

往期福利回覆:001,002即可領取!

相關推薦

Tesseract簡單Java光學字元識別

1.1 介紹 開發具有一定價值的符號是人類特有的特徵。對於人們來說識別這些符號和理解圖片上的文字是非常正常的事情。與計算機那樣去抓取文字不同,我們完全是基於視覺的本能去閱讀它們。 另一方面,計算機的工作需要具體的和有組織的內容。它們需要數字化的表示,而不是圖形化的。 有時候,這是不可能的。有時,我們希望自動化

吳恩達機器學習筆記 —— 19 應用舉例照片OCR(光學字元識別

本章講述的是一個複雜的機器學習系統,通過它可以看到機器學習的系統是如何組裝起來的;另外也說明了一個複雜的流水線系統如何定位瓶頸與分配資源。 OCR的問題就是根據圖片識別圖片中的文字: 這種OCR識別的問題可以理解成三個步驟: 文字檢測 字元切分 字元識別 文字檢測 文字的檢測可以用行人的檢測來做

java利用tesseract-OCR對影象進行字元識別

try { Process pro = Runtime.getRuntime() .exec(new String[]{"D:/Program Files (x86)/Tesseract-OCR/tesseract.exe",

Java基礎_3.5簡單Java

inf 簡單 字符串 stat 被調用 name屬性 職位 void 類的定義 簡單Java類 簡單Java類是一種在實際開發之中使用最多的類的定義形式,在簡單Java類中包含有類、對象、構造方法、private封裝等核心概念的使用,而對於簡單Java類首先給出如下的基本開

幾款常用光學字元識別(OCR)軟體比較

常見的OCR識別軟體包括ABBYY FineReader、LEADTOOLS、Dynamsoft OCR SDK、Tesseract、ExperVisionTypeReader。 只要有掃描器和光學字元識別(OCR)軟體,將掃描文件轉換成Word文件是相當容易的。掃描器將紙質文件轉換成掃描影象,

OCR光學字元識別

一、步驟  1. 建立訓練檔案,將文字影象與文字分類標識關聯,儲存到訓練檔案中,訓練檔案字尾名為trf,主要用到函式為append_ocr_trainf。  2. 訓練OCR分類器,Halcon支援BOX分類器、神經網路分類器(MLP)和支援向量機分類器(SVM),由於後兩者

TesseractOCR(光學字元識別)引擎概述(二)

目錄 四、單詞識別(Word Recognition) 五、形狀分類器( Shape Classification) 六、分詞與檢索(Segmentation and Search) 七、自適應分類器 (adaptive classifier) 四、單詞識

TesseractOCR(光學字元識別)引擎概述(一)

目錄 一、TesseractOCR引擎簡介 二、TesseractOCR架構 三、文字行和單詞的查詢(Text-line and Word Finding)   原文參見《Adapting the Tesseract Open Source OCR Engine f

第二章03 綜合實戰簡單Java

簡單Java類的開發原則:     1、類名稱必須具有實際意義;     2、類中屬性需要使用private封裝;     3、封裝屬性需要編寫setter、getter方法;        4、可定義若干構造方法,但必須保留一個無參構造方法;     5、類中不允

6 個優秀的開源 OCR 光學字元識別工具

紙張在許多地方已日益失寵,無紙化辦公談論40多年,辦公環境正限制紙山的生成。而過去幾年,無紙化辦公的概念發生了顯著的轉變。在計算機軟體的幫助 下,包含大量重要管理資料和資訊的文件可以更方便的以電子形式儲存。掃描文件的好處不純粹是存檔理由。為了訪問基於紙張的資訊和將資訊整合進數

Tika結合Tesseract-OCR 實現光學漢字識別(簡體、宋體的識別率百分之百)—附Java原始碼實現及真實測試資料和訓練集下載地址

   OCR(Optical character recognition) —— 光學文字識別,是影象處理的一個重要分支,中文的識別具有一定挑戰性,特別是手寫體和草書的識別,是重要和熱門的科學研究方向。可惜國內的科研院所,基本沒有大量的高識別率的訓練集&mdash

簡單Java程序向實用程序的過度二進制文件的讀寫

har finally exc min 過度 對象 writer dos int File I/O中常見的文件讀寫: 1.字節流讀寫文本文件 FileInputStream; FileOutputStream; 2.字符流讀寫文本文件 FileReader; FileWri

JAVA 工廠模式簡單工廠

int oba 創建型模式 face gen 工廠方法 getc 字符 auto 簡單工廠模式(SimpleFactory Pattern):   又稱為靜態工廠方法(Static Factory Method)模式,它屬於類創建型模式。在簡單工廠模式中,可以根據參數的不同

java基礎之JDBC三簡單工具類的提取及應用

註冊 args 釋放資源 file void tex 用戶名 SQ lose 簡單工具類: public class JDBCSimpleUtils { /** * 私有構造方法 */ private JDBCSimpleU

驗證碼識別 Tesseract簡單使用和總結

參數說明 stdout all 令行 github output 一個個 其中 簡單 Tesseract是什麽 OCR即光學字符識別,是指通過電子設備掃描紙上的打印的字符,然後翻譯成計算機文字的過程。也就是說通過輸入圖片,經過識別引擎,去識別圖片上的文字。Tesseract

java內存模型簡單理解

共享 先後 執行 但是 順序執行 數據 結果 寄存器 mod 1.Java內存模型(Java Memory Model,JMM) 2.JMM定義了線程和主內存之間的抽象關系:線程之間的共享變量存儲在主內存(main memory)中,每個線程都有一個私有的本地內存(loca

java IO字元流與位元組流簡單使用示例

1.Reader && Writer Reader java.lang.Object |-- java.io.Reader//常用方法 |-- int read() //讀取單個字元 |--

Tesseract識別知乎網站登入驗證碼

機器視覺 從 Google 的無人駕駛汽車到可以識別假鈔的自動售賣機,機器視覺一直都是一個應用廣 泛且具有深遠的影響和雄偉的願景的領域。 我們將重點介紹機器視覺的一個分支:文字識別,介紹如何用一些 Python庫來識別和使用線上圖片中的文字。

Java基礎 實驗一簡單資料型別和流程控制

1.實驗目的 掌握識別符號的定義規則、表示式的組成、各種資料型別及其使用方法、各種運算子的使用及其優先順序控制。掌握分支結構,迴圈結構,continue,break,語句標號等內容。 2.實驗內容 (1)輸入一個三角形的3個邊長,檢查是否能構成一個直角三角形。 (2)任意從鍵盤輸入一個0到

HBase Java簡單示例-2013年的

Hbase採用Java實現,原生客戶端也是Java實現,其他語言需要通過thritf介面服務間接訪問Hbase的資料。 Hbase作為大資料儲存資料庫,其寫能力非常強,加上Hbase本身就脫胎於Hadoop故和Hadoop的相容性極好,非常適合於儲存半規則資料(靈活、可擴充套件性強、大資料儲存)