deep ocr中文漢字識別

分類:IT技術 時間:2017-05-01

deep ocr

估計很多開發員使用tesseract做中文識別,但是結果不是一般的差,譬如下面的圖片

alt text

$ tesseract -l chi_sim test_data.png out_test_data
看到恨多公司在招腭大改癲和機器字習胸人 v 我有3個建議 (T) 憂T ' 2個上t較靠遭
胸人就譬了 v不是越多越好 (2) 這T '2個人要能給大蒙上踝'倩邂知L目 (3) 不要招
不宣代四胸人:虹大改癲和機器字習胸v不裹目宣 (或者宣過) 大量代四v基本上就
只會忽悠了

其實現在做文字識別不是很難,特別基於深度學習,這裏是這個項目的reco_chars.py腳本,基於caffe的識別效果,是不是好很多?而且代碼比tesseract短很多。

$ python reco_chars.py
看很多公檾在招聘天數據和機器學習人我有個建議找個較靠譜
的人就夠了不是越多越好這個人要給大家上課傳遞知識不要招
不寫代碼的人做天數據機器學習的不親寫或者寫過天且代碼基本上就
只會忽悠了

大家可以基於caffe訓練自己的字體,系統基於這個文章開發單個字的識別:

Deep Convolutional Network for Handwritten Chinese Character Recognition

http://cs231n.stanford.edu/reports/zyh_project.pdf

通過 Docker 安裝

先安裝docker,以下教程在ubuntu 14.04 通過測試

https://www.docker.com/

下載deep_ocr_workspace.zip (https://pan.baidu.com/s/1nvz2wrB 和 https://pan.baidu.com/s/1qYPKH3Y )

兩個文件的md5sum值,用於校驗文件是否成功下載。

$ md5sum deep_ocr_workspace.zip
ffeda7ea6604e7b8835c05a33fa0459e  deep_ocr_workspace.zip
$ md5sum deep_ocr_workspace.z01
ea66796c2bbdb2bec9b7ee28eb44012d  deep_ocr_workspace.z01

解壓到本地硬盤,譬如到以下地方 (~/deep_ocr_workspace)

cat deep_ocr_workspace.z* > unsplit_deep_ocr_workspace.zip
unzip unsplit_deep_ocr_workspace.zip -d ~/

這個zip包含deep_ocr所有需要數據文件(由於太大了,所以放百度雲了)。所有數據到解壓到 ~/deep_ocr_workspace,你也可以把需要處理的數據放到這個文件夾。

基於cpu

docker pull jinpengli/deep_ocr_cpu_docker:latest

啟動 docker container

docker run -ti --volume=${HOME}/deep_ocr_workspace:/workspace jinpengli/deep_ocr_cpu_docker:latest /bin/bash
cd /opt/deep_ocr
git pull origin master

volume用於mount到container裏面,這樣可以獲取上面的識別結果。

python /opt/deep_ocr/reco_chars.py

然後可以繼續你們的開發。。。。加油。。。

https://github.com/JinpengLI/deep_ocr

本文出自 “IT技術學習與交流” 博客,謝絕轉載!


Tags:

文章來源:


ads
ads

相關文章
ads

相關文章

ad