1. 程式人生 > >圖像文字識別(OCR)用什麽算法小結

圖像文字識別(OCR)用什麽算法小結

說明 3.2 ecc AC egl 之間 算法 bsp 暴力

說明:主要考慮深度學習的方法,傳統的方法不在考慮範圍之內。

1.文字識別步驟

1.1detection:找到有文字的區域(proposal)。

1.2classification:識別區域中的文字。

2.文字檢測

文字檢測主要有兩條線,兩步法和一步法。

2.1兩步法:faster-rcnn.

2.2一步法:yolo。相比於兩步法,一步法速度更快,但是accuracy有損失。

文字檢測按照文字的角度分。

2.1水平文字檢測:四個自由度,類似於物體檢測。水平文字檢測比較好的算法是2016ECCV喬宇老師團隊的CTPN。

2.2傾斜文字檢測:文本框是不規則的四邊形,八個自由度。傾斜文字檢測個人比較喜歡的方法是2017CVPR的EAST和Seglink。套路:檢測文本框->用radon hough變換等方法進行文本矯正->通過投影直方圖分割出單行的文本的圖片->最後對單行OCR。

3.文字識別

只考慮了不需要對文字進行分割。

3.1定長的,各個字符之間看成是獨立的:multi-digit number。

3.2不定長的:RNN/LSTM/GRU+CTC。白翔老師團隊的CRNN寫的比較清楚。

3.3不定長的attention-mechanism(CNN+RNN+Attention):分為hard attention(直接給出hard location,不能直接暴力pb)、soft attention(可以暴力pb)、gradient-base attention。

參考:https://www.zhihu.com/question/20191727

圖像文字識別(OCR)用什麽算法小結