1. 程式人生 > >Java OCR tesseract 圖像智能字符識別技術

Java OCR tesseract 圖像智能字符識別技術

tex jsb sim nts mar 來看 命令 -h 智能

公司有需求啊,所以就得研究哈。近期公司須要讀驗證碼。於是就研究起了圖像識別。應該就是傳說中的OCR:光學字符識別OCR),以下把今天的收獲整理一個給大家做個分享。

本人程序用的tesseract,官方地址:https://code.google.com/p/tesseract-ocr/。不為別的,誰讓它支持我們的天朝的文字呢~哈

下載好程序後解壓:

技術分享

大概能夠看到這樣一個文件夾。別見怪樓主裏面一堆測試文件。

然後就開始我們的測試之旅:

tesseract的使用方法:

參數1:須要識別的文件

參數2:輸出的文件名,輸出的是文本文件。裏面保存了識別的信息

識別英文這兩個參數就能夠了。以下做個實驗:

技術分享

我們在命令行輸入:tesseract 5.jpg 6 ,能夠看到程序生成了一個6.txt ,裏面保存著識別後的文本,怎麽樣簡單又給力~


上面說道tesseract 是支持中文的,所以麽,接下來看看怎樣使用tesseract 實現我們中文的識別,以下繼續介紹其它參數

參數3:-l

參數4: 使用的語言庫

參數3 -l應該是知道參數4所使用的語言庫,默認英文,也就是為什麽上面識別英文的樣例,並沒有輸入參數3和參數4。也實現了識別。

以下繼續我們的實驗:

技術分享

我們準備了一張圖片,然後使用tesseract zhongwen.jpg 7 -l chi_sim 指明了中文語言,然後效果圖上,還是非常不錯的,畢竟我們的中文是如此的博大精深。而且tesseract能夠經過訓練,然後識字的能力就會大幅度提升。

好了,因為一行代碼沒寫,就不上傳代碼了,大家自己去官網下載。接下來我會使用Java帶大家實現這種小程序。


假設這篇文章對你實用。就贊一個~歡迎大家留言,多交流~








Java OCR tesseract 圖像智能字符識別技術