deep ocr
估計很多開發員使用tesseract做中文識別,但是結果不是一般的差,譬如下面的圖片
$ tesseract -l chi_sim test_data.png out_test_data
看到恨多公司在招腭大改癲和機器字習胸人 v 我有3個建議 (T) 憂T ' 2個上t較靠遭 胸人就譬了 v不是越多越好 (2) 這T '2個人要能給大蒙上踝'倩邂知L目 (3) 不要招 不宣代四胸人:虹大改癲和機器字習胸v不裹目宣 (或者宣過) 大量代四v基本上就 只會忽悠了
其實現在做文字識別不是很難,特別基於深度學習,這裏是這個項目的reco_chars.py腳本,基於caffe的識別效果,是不是好很多?而且代碼比tesseract短很多。
$ python reco_chars.py
看很多公檾在招聘天數據和機器學習人我有個建議找個較靠譜 的人就夠了不是越多越好這個人要給大家上課傳遞知識不要招 不寫代碼的人做天數據機器學習的不親寫或者寫過天且代碼基本上就 只會忽悠了
大家可以基於caffe訓練自己的字體,系統基於這個文章開發單個字的識別:
Deep Convolutional Network for Handwritten Chinese Character Recognition http://cs231n.stanford.edu/reports/zyh_project.pdf
通過 Docker 安裝
先安裝docker,以下教程在ubuntu 14.04 通過測試
https://www.docker.com/
下載deep_ocr_workspace.zip (https://pan.baidu.com/s/1nvz2wrB 和 https://pan.baidu.com/s/1qYPKH3Y )
兩個文件的md5sum值,用於校驗文件是否成功下載。
$ md5sum deep_ocr_workspace.zip ffeda7ea6604e7b8835c05a33fa0459e deep_ocr_workspace.zip $ md5sum deep_ocr_workspace.z01 ea66796c2bbdb2bec9b7ee28eb44012d deep_ocr_workspace.z01
解壓到本地硬盤,譬如到以下地方 (~/deep_ocr_workspace)
cat deep_ocr_workspace.z* > unsplit_deep_ocr_workspace.zip unzip unsplit_deep_ocr_workspace.zip -d ~/
這個zip包含deep_ocr所有需要數據文件(由於太大了,所以放百度雲了)。所有數據到解壓到 ~/deep_ocr_workspace
,你也可以把需要處理的數據放到這個文件夾。
基於cpu
docker pull jinpengli/deep_ocr_cpu_docker:latest
啟動 docker container
docker run -ti --volume=${HOME}/deep_ocr_workspace:/workspace jinpengli/deep_ocr_cpu_docker:latest /bin/bash cd /opt/deep_ocr git pull origin master
volume用於mount到container裏面,這樣可以獲取上面的識別結果。
python /opt/deep_ocr/reco_chars.py
然後可以繼續你們的開發。。。。加油。。。
https://github.com/JinpengLI/deep_ocr
本文出自 “IT技術學習與交流” 博客,謝絕轉載!
Tags:
文章來源: