OCR場景文字識別：文字檢測+文字識別

阿新 • • 發佈：2020-03-06

一. 應用背景

OCR(Optical Character Recognition)文字識別技術的應用領域主要包括：證件識別、車牌識別、智慧醫療、pdf文件轉換為Word、拍照識別、截圖識別、網路圖片識別、無人駕駛、無紙化辦公、稿件編輯校對、物流分揀、輿情監控、文件檢索、字幕識別文獻資料檢索等。OCR文字識別主要可以分為：印刷體文字識別和手寫體文字識別。文字識別方法的一般流程為：識別出文字區域、對文字區域矩形分割成不同的字元、字元分類、識別出文字、後處理識別矯正。

二. 文字檢測

文字檢測是文字識別過程中的一個非常重要的環節，文字檢測的主要目標是將圖片中的文字區域位置檢測出來，以便於進行後面的文字識別，只有找到了文字所在區域，才能對其內容進行識別。

1.【CTPN】

CTPN，全稱是“Detecting Text in Natural Image with Connectionist Text Proposal Network”，將文字行在水平方向解耦成slices進行檢測，再將slices區域合併成文字框。CTPN接面構與Faster R-CNN類似，但加入了RNN(LSTM層)用於序列的特徵識別來提高檢測精度，目前CTPN針對水平長行文字的檢測是工業級的，演算法魯棒。

演算法流程：

Feature Map：N(images) - C(channels) - H(height) - W(width)

(1). 骨幹網路VGG16提取特徵，第5個block的第三個卷積層conv5(stride=16,size=N×C×H×W)作為特徵圖；

(2). 在con5上做3×3滑窗，每個點都結合周圍3×3區域生成3×3×C特徵向量，輸出N×9C×H×W空間特徵圖；

(3). Reshape特徵圖：N×9C×H×W -> (NH)×W×9C;

(4). 以batch=NH，T_max=W的資料流輸入雙向LSTM，學習每一行的序列特徵(注：LSTM/Reverse-LSTM都包含128個hidden layer)，BLSTM輸出(NH)×W×256空間序列混合特徵圖；

(5). Reshape特徵圖：(NH)×W×256 -> N×256×H×W;

(6). 將RNN的結果輸入到FC層(256×512的矩陣引數)，變為N×512×H×W的特徵；

(7). 將FC層得到的特徵輸入類似Faster R-CNN的RPN網路，獲得text proposals。2k vertical coordinate和k side-refinement用來回歸k個anchor的位置資訊並進行校準，2k scores表示k個anchor的類別。

(8). 採用文字線構造辦法，把text proposal連線成一個文字檢測框。

關鍵策略：

(1). text proposals網路。

左側分支用於b-box迴歸，FC特徵圖每個點配備了10個對應原圖尺度的Anchor(紅色小矩形框確定字元位置)，寬度相等(width=[16])，高度10個尺度([11,16,23,33,48,68,97,138,198,283])，保證Anchor在x方向上覆蓋原圖每個點且不相互重疊並在y方向上覆蓋差異較大的不同高度文字目標。獲得Anchor後，b-box regression只修正並預測包含文字的Anchor的中心y座標與高度h(沒預測起始座標x是因為在構造標籤時有固定偏移)，故rpn_bbox_pred有20個channels。右邊分支用於Softmax分類，判斷Anchor中是否包含文字，選出score大的正Anchor。

(2). 標籤構造。

如圖，給定一個文字的標註框(x, y, w, h)，沿著水平方向進行切分，偏移為16個畫素(conv5的stride為16，特徵圖中的一個畫素對應標籤的16的寬度)，得到了一系列的文字小片。將左右標記為紅色的小片(兩端50畫素以內)作為side-refinement時候的標籤，約束網路對文字起始和終止點的矯正。

(3). 文字線構造。

如圖，有2個text proposal，包含紅藍2組Anchor。首先按水平x座標排序Anchor。然後按照規則依次計算每個box_i的pair(box_j)，組成pair(box_i，box_j)，規則如下：

正向尋找：1. 沿水平正方向，尋找和box_i水平距離小於50的候選Anchor；2. 從候選Anchor中，挑出與box_i豎直方向overlap_v>0.7的Anchor；3. 挑出符合條件2中Softmax score最大的box_j。

再反向尋找：1. 沿水平負方向，尋找和box_j水平距離小於50的候選Anchor；2. 從候選Anchor中，挑出與box_j豎直方向overlap_v>0.7的Anchor；3. 挑出符合條件2中Softmax score最大的box_k。

最後對比score_i和score_k：如果score_i>=score_k，這是一個最長連線，設定Graph(i,j)=True；如果score_i<score_k，不是一個最長連線。

如上圖，Anchor已經按照x座標排序且Softmax score已知。對於box₃(i=3)，向前尋找50畫素，滿足overlapv>0.7且score最大的是box₇(j=7)；box₇反向尋找，滿足overlapv>0.7且score最大的是box₃(k=3)。因為score_i=3>=score_k=3，pair(box₃,box₇)是一個最長連線，設定Graph(3,7)=True。對於box₄，正向尋找得到box₇；box₇反向尋找得到box₃，但score_i=4>=score_k=3，所以pair(box₄,box₇)不是最長連線，包含在pair(box₃,box₇)中。

以這種方式，建立一個N×N(N是正Anchor數量)的connect graph，並遍歷graph。Graph(0,3)=True且Graph(3,7)=True，所以Anchor index 0->3->7組成藍色文字區域；Graph(6,10)=True且Graph(10,12)=True，所以Anchor index 6->10->12組成紅色文字區域。

綜上，我們通過Text proposals確定了文字檢測框。

2.【SegLink】

Seglink是在SSD基礎上改進的，基本思想是：一次性檢測整個文字行比較困難，就先檢測區域性片段，然後通過規則將所有的片段進行連線，得到最終的文字行。可以檢測任意長度和多方向的文字行，CTPN只能檢測水平方向。

全卷積網路。輸入：任意尺寸影象；輸出：segments和links。

演算法流程：

(1). 沿用SSD網路結構，VGG16作為backbone並將最後兩個全連線層改成卷積層(fc6,fc7->conv6,conv7)，再額外增加conv8, conv9, conv10, conv11，用於提取更深的特徵，最後的修改SSD的Pooling層，將其改為卷積層；

(2). 提取conv4_3, conv7, conv8_2, conv9_2, conv10_2, conv11不同層的特徵圖，尺寸1/2倍遞減；

(3). 對不同層的特徵圖使用3×3卷積，產生segments和links來檢測不同尺度文字行；

(4). 通過融合規則，將segment的box資訊和link資訊進行融合，得到最終的文字行。

關鍵策略：

(1). Segment檢測。

segment可以看作是增加了方向資訊的b-box，可以表示為：b = (x_b,y_b,w_b,h_b,θ_b)。卷積後輸出通道數為7，包含segment相對於預設框(default boxes)的偏移量(x_s,y_s,w_s,h_s,θ_s)及segment是否為文字的置信度(0,1)。特徵圖上的點在原圖中的對映，就是預設框的位置。6層特徵圖，每層都要輸出segments，例如：l層尺寸為 w_l× h_l，一個點在特徵圖上的座標為(x,y)，對應原圖座標(x_a,y_a)的點，那麼一個預設框的中心座標就是(x_a,y_a)：

不同於SSD，特徵圖每個位置只有一個長寬比為1的預設框，根據當前層的感受野通過經驗等式進行設定。最後，通過預設框和特徵圖迴歸segment的位置，預測的offsets裡除了Δx, Δy, Δw, Δh,　多了一個Δθ。

(2). Link檢測。

links分為Within-Layer Link和Cross-Layer Link：

within-layer link在同一個feature map層，特徵圖中每個位置只預測一個segment，所以對於層內link，我們只考慮當前segment與它周圍的８連通鄰域的segment的連線情況，每個link有正負兩個分數，正分用來表示二者是否屬於同一個單詞，負分表示二者是否屬於不同單詞(應斷開連線)。這樣，每個segment的link是8*2=16維的向量，links就是每個特徵圖卷積後輸出16個通道，每兩個通道表示segment與鄰近的一個segment的link。

segment可能會被不同的feature map檢測到，如果不同層輸出segment是同一個位置，只是大小不一樣，會造成重複檢測的冗餘問題。cross-layer link連線的是相鄰兩層feature map產生的segments。前一層特徵圖的size是後一層的特徵圖的兩倍，這個size必須是偶數，所以輸入影象的寬和高必須是128的倍數。對於跨層link，特徵圖的每個位置需要預測2*4=8個權重，４表示與上一層的４個鄰域。

綜上，conv4_3層輸出的link維度為2*8=16；conv7, conv8_2, conv9_2, conv10_2, conv11其輸出的link維度為2*8+2*4=24。

(3). 合併演算法。

每層特徵圖提取出來後，再經過卷積，輸出既有segments又有links的預測。 2表示二分類分數(是不是字元)，５表示位置資訊(x, y, w, h, θ)，16表示８個同層的neighbor連線或不連線的２種情況，８表示前一層的4個neighbor連線與不連線情況。對於conv4_3：其預測輸出維度為：2+5+2×8=23 ，因為該層沒有cross-layer link；對於conv7, conv8_2, conv9_2, conv10_2, conv11，其預測輸出維度為：2+5+2×8+2×4=31。

輸出一系列的segments和links後，1. 首先人工設定α和β(對應segments和links的置信度設定不同的閾值)過濾噪聲；2. 再採用DFS(depth first search)將segments看做node，links看做edge，將他們連線起來；3. 將連線後的所有結果作為輸入，將連線在一起的segments當作是一個小的集合，稱為B；4. 將B集合中所有segment的旋轉角求平均值作為文字框的旋轉角稱為θ_b；5. 求tanθ_b作為斜率，得到一系列的平行線，求得B集合中所有segment的中心點到直線距離的和最小的那條直線；6. 將B集合中所有segment的中心點垂直投影到3步驟中找到的直線上；7. 在投影中找到距離最遠的兩個點(x_p,y_p),(x_q,y_q)；8. 上述兩點的均值作為框的中心點，距離為框的寬，B集合中所有segment的高的均值就是高。

注：3-5其實就是最小二乘法線性迴歸。

(4). 訓練。

訓練當前網路需要生成groundtruth，包括default box的label，偏移(x, y, w, h, θ)，層內link及跨層link的label。求segments和links的標籤前先確定與其對應的default box的標籤值。影象只有一個文字框時，滿足如下2點就是正樣本(否則負樣本)：1. default box的中心在當前文字行內；2. default box的大小a_l與文字框的高h滿足公式：。影象中有多個文字框時，default box對於任意文字框都不滿足上述條件時為負樣本，否則為正樣本，滿足多個文字框時，該default box為與其大小最相近的文字框的正樣本，大小相近指的是：。通過上述規則得到default box的正樣本後，基於這些正樣本計算segments相對於default box的位置偏移量。offset只對正樣本有效，負樣本不需要計算。

將文字框順時針旋轉θ與default box進行水平對齊，然後進行裁剪，寬度保留與default box相交的部分，最後再繞文字框中心點逆時針轉回到原來的角度，就可以得到一個segment。根據公式(segment檢測)，就可以求出segment和default box的偏移量，用來訓練segment。link的標籤值只要滿足下面兩個條件即為真：1. link連線的兩個default box都為正樣本；2. 兩個default box屬於同一個文字框。

損失函式定義如下：

y_s表示所有的segments的標籤值，如果第i個default box為正樣本，yⁱ_s=1，否則為0；y_l表示所有links的標籤值；c_s,c_l分別為segments和links的預測值；L_conf為softmax loss，用於計算segments和links置信度的損失；L_loc為為Smooth L1 regression loss，用於計算segments預測偏移量和標籤值的損失；N_s為影象中所有正樣本的default box的數量；N_l為影象中所有正樣本的links的個數；λ₁=λ₂=1。關於Data Augmentation和Online Hard Negative Mining，做法和SSD中一致。

3.【EAST/AdvancedEAST】

EAST可以實現端到端文字檢測。

a~d是幾種常見的文字檢測過程，典型的檢測過程包括候選框提取、候選框過濾、b-box迴歸、候選框合併等階段，中間過程比較冗長。EAST模型檢測過程簡化為只有FCN，NMS階段，中間過程大大縮減，且輸出結果支援文字行、單詞的多角度檢測，高效準確，適應性強。EAST模型的網路結構分為特徵提取層、特徵融合層、輸出層三大部分。

演算法流程：

(1). PVANet(也可採用VGG16，Resnet等)作為主幹網路提取特徵，並借鑑FPN思想，抽取4個尺度(1/4,1/8,1/16,1/32 input)的特徵圖；

(2). 參考UNet的方法，從feature extractor頂部按規則向下合併特徵；

(3). 輸出文字得分和文字形狀。檢測形狀為RBOX時，輸出檢測框置信度、檢測框的位置角度(x,y,w,h,θ)共6個引數；檢測形狀為QUAD時，輸出檢測框置信度、任意四邊形檢測框(定位扭曲變形文字行)的位置座標(x1, y1), (x2, y2), (x3, y3), (x4, y4)共9個引數。

關鍵策略：

(1). 特徵融合規則。

最後一層特徵圖被最先送入uppooling層放大２倍，再與前一層的特徵圖進行concatenate，然後依次進行1×1和3×3卷積；再重複上述過程2次，卷積核的個數(128,64,32)依次遞減；最後經過3×3,32的卷積層。

(2). 訓練。

QUAD訓練樣本生成：

通常資料集提供的標註為平行四邊形的四個頂點(x1, y1), (x2, y2), (x3, y3), (x4, y4)，訓練網路時，需要的將其轉化為網路需要的形式，即這個平行四邊形生成的9個單通道圖片。

通道1：置信度score map。

1. 生成一個大小MxN為全零矩陣A，M,N為原圖的長和寬；2. 將平行四邊形的四個頂點兩兩相連，連成一個四邊形Q；3. 將這個四邊形向內縮小0.3，得到Q1；4. 將四邊形Q1內的點置為1；5. 將矩陣A按比例縮小為原圖的1/4，得到score map(長M/4,寬N/4)。

通道2：四邊形位置germety map_1。

1. 生成一個大小為MxN的全零矩陣A，M,N為原圖的長和寬；2. 將四邊形的四個頂點兩兩相連，連成一個四邊形Q；3. 給四邊形Q內的每一個畫素賦值，A(xi,yi) = x1-xi；將矩陣A按比例縮小為原圖的1/4，得到germety map_1(長M/4,寬N/4)。

通道3：四邊形位置germety map_2。

1. 生成一個大小為MxN的全零矩陣A，M,N為原圖的長和寬；2. 將四邊形的四個頂點兩兩相連，連成一個四邊形Q；3. 給四邊形Q內的每一個畫素賦值，A(xi,yi) = y1-yi；將矩陣A按比例縮小為原圖的1/4，得到germety map_2(長M/4,寬N/4)。

通道4：四邊形位置germety map_3。

1. 生成一個大小為MxN的全零矩陣A，M,N為原圖的長和寬；2. 將四邊形的四個頂點兩兩相連，連成一個四邊形Q；3. 給四邊形Q內的每一個畫素賦值，A(xi,yi) = x2-xi；將矩陣A按比例縮小為原圖的1/4，得到germety map_3(長M/4,寬N/4)。

通道5：四邊形位置germety map_4。

1. 生成一個大小為MxN的全零矩陣A，M,N為原圖的長和寬；2. 將四邊形的四個頂點兩兩相連，連成一個四邊形Q；3. 給四邊形Q內的每一個畫素賦值，A(xi,yi) = y2-yi；將矩陣A按比例縮小為原圖的1/4，得到germety map_4(長M/4,寬N/4)。

通道6：四邊形位置germety map_5。

1. 生成一個大小為MxN的全零矩陣A，M,N為原圖的長和寬；2. 將四邊形的四個頂點兩兩相連，連成一個四邊形Q；3. 給四邊形Q內的每一個畫素賦值，A(xi,yi) = x3-xi；將矩陣A按比例縮小為原圖的1/4，得到germety map_5(長M/4,寬N/4)。

通道7：四邊形位置germety map_6。

1. 生成一個大小為MxN的全零矩陣A，M,N為原圖的長和寬；2. 將四邊形的四個頂點兩兩相連，連成一個四邊形Q；3. 給四邊形Q內的每一個畫素賦值，A(xi,yi) = y3-yi；將矩陣A按比例縮小為原圖的1/4，得到germety map_6(長M/4,寬N/4)。

通道8：四邊形位置germety map_7。

1. 生成一個大小為MxN的全零矩陣A，M,N為原圖的長和寬；2. 將四邊形的四個頂點兩兩相連，連成一個四邊形Q；3. 給四邊形Q內的每一個畫素賦值，A(xi,yi) = x4-xi；將矩陣A按比例縮小為原圖的1/4，得到germety map_7(長M/4,寬N/4)。

通道9：四邊形位置germety map_8。

1. 生成一個大小為MxN的全零矩陣A，M,N為原圖的長和寬；2. 將四邊形的四個頂點兩兩相連，連成一個四邊形Q；3. 給四邊形Q內的每一個畫素賦值，A(xi,yi) = y4-yi；將矩陣A按比例縮小為原圖的1/4，得到germety map_8(長M/4,寬N/4)。

RBOX訓練樣本生成：

通常資料集提供的標註為5個值Theta,x1,y1,x3,y3，訓練網路時，需要的將其轉化為網路需要的形式，即這個旋轉的矩陣生成的6個單通道圖片。在此之前，先利用theta,x1,y1,x2,y2,生成矩形的另外兩個頂點(x2,y2),(x4,y4)，這樣，矩形的四個頂點可以表示為(x1,y1),(x2,y2),(x3,y3),(x4,y4)。

通道1：置信度score map。

1. 生成一個大小MxN為全零矩陣A，M,N為原圖的長和寬；2. 將矩形的四個頂點兩兩相連，形成一個矩形Q；3. 將矩形Q內的點置為1；4. 將矩陣A按比例縮小為原圖的1/4，得到score map(長M/4,寬N/4)。

通道2：角度angle map。

1. 生成一個大小MxN為全零矩陣A，M,N為原圖的長和寬；2. 將矩形的四個頂點兩兩相連，形成一個矩形Q；3. 將矩形Q內的點置為theta，如果theta=-0.5,那麼Q內的所有點都為-0.5；4. 將矩陣A按比例縮小為原圖的1/4，得到angle map(長M/4,寬N/4)。

通道3：矩形位置germety map_1。

1. 生成一個大小MxN為全零矩陣A，M,N為原圖的長和寬；2. 將矩形的四個頂點兩兩相連，形成一個矩形Q；3. 給矩形Q內的每一個畫素賦值，A(xi,yi) = distance[ A(xi,yi), 直線A(x1,y1)A(x2,y2)] ；4. 將矩陣A按比例縮小為原圖的1/4，得到germety map_1(長M/4,寬N/4)。

通道4：矩形位置germety map_2。

1. 生成一個大小MxN為全零矩陣A，M,N為原圖的長和寬；2. 將矩形的四個頂點兩兩相連，形成一個矩形Q；3. 給矩形Q內的每一個畫素賦值，A(xi,yi) = distance[ A(xi,yi), 直線A(x2,y2)A(x3,y3)] ；4. 將矩陣A按比例縮小為原圖的1/4，得到germety map_2(長M/4,寬N/4)。

通道5：矩形位置germety map_3。

1. 生成一個大小MxN為全零矩陣A，M,N為原圖的長和寬；2. 將矩形的四個頂點兩兩相連，形成一個矩形Q；3. 給矩形Q內的每一個畫素賦值，A(xi,yi) = distance[ A(xi,yi), 直線A(x3,y3)A(x4,y4)] ；4. 將矩陣A按比例縮小為原圖的1/4，得到germety map_3(長M/4,寬N/4)。

通道6：矩形位置germety map_4。

1. 生成一個大小MxN為全零矩陣A，M,N為原圖的長和寬；2. 將矩形的四個頂點兩兩相連，形成一個矩形Q；3. 給矩形Q內的每一個畫素賦值，A(xi,yi) = distance[ A(xi,yi), 直線A(x4,y4)A(x1,y1)] ；4. 將矩陣A按比例縮小為原圖的1/4，得到germety map_4(長M/4,寬N/4)。

訓練Loss：

loss由分數圖損失(score map loss)和幾何形狀損失(geometry loss)兩部分組成。分數圖損失採用的是類平衡交叉熵，用於解決類別不平衡訓練，具體實戰中，一般採用dice loss，收斂速度更快。幾何形狀損失，針對RBOX loss採用IoU損失，針對QUAD loss採用smoothed-L1損失。本文中幾何體數量較多，普通的NMS計算複雜度過高，EAST提出了基於行合併幾何體的方法，locality-aware NMS。

為改進EAST的長文字檢測效果不佳的缺陷，有人提出了Advanced EAST。Advanced EAST以VGG16作為網路結構的骨幹，同樣由特徵提取層、特徵合併層、輸出層三部分構成，比EAST，尤其是在長文字上的檢測準確性更好。

三. 文字識別

文字識別，根據待識別的文字特點一般分為定長文字、不定長文字兩大類，前者(如:驗證碼識別)相對簡單，這裡不做分析。

1.【LSTM+CTC】

LSTM(Long Short Term Memory,長短期記憶網路)是一種特殊結構的RNN，用於解決RNN的隨著輸入資訊的時間間隔不斷增大，出現“梯度消失”或“梯度爆炸”的長期依賴問題。CTC(Connectionist Temporal Classifier，聯接時間分類器)，主要用於解決輸入特徵與輸出標籤的對齊問題。由於字元變形等原因，分塊識別時，相鄰塊可能會識別為同個結果，字元重複出現。通過CTC來解決對齊問題，模型訓練後，對結果中去掉間隔字元、去掉重複字元。

2.【CRNN】

CRNN(Convolutional Recurrent Neural Network，卷積迴圈神經網路)是目前比較流行的文字識別模型，可以進行端到端的訓練，不需要對樣本資料進行字元分割，可識別任意長度的文字序列，模型速度快、效能好。

演算法流程：

(1). 卷積層：從輸入影象中提取出特徵序列；

先做預處理，把所有輸入影象縮放到相同高度，預設是32，寬度可任意長；然後進行卷積運算(由類似VGG的卷積、最大池化和BN層組成)；再從左到右提取序列特徵，作為迴圈層的輸入，每個特徵向量表示了影象上一定寬度內的特徵，預設是單個畫素1(由於CRNN已將輸入影象縮放到同樣高度了，因此只需按照一定的寬度提取特徵即可)。

(2). 迴圈層：預測從卷積層獲取的特徵序列的標籤分佈；

迴圈層由一個雙向LSTM構成，預測特徵序列中的每一個特徵向量的標籤分佈。由於LSTM需要時間維度，模型中把序列的width當作time steps。“Map-to-Sequence”層用於特徵序列的轉換，將誤差從迴圈層反饋到卷積層，是卷積層和迴圈層之間的橋樑。

(3). 轉錄層：把從迴圈層獲取的標籤分佈通過去重、整合等操作轉換成最終的識別結果。

轉錄層是將LSTM網路預測的特徵序列的結果進行整合，轉換為最終輸出的結果。在CRNN模型中雙向LSTM網路層的最後連線上一個CTC模型，從而做到了端對端的識別。

四. 程式碼實現

CTPN：https://github.com/eragonruan/text-detection-ctpn

SegLink：https://github.com/dengdan/seglink

EAST：https://github.com/argman/EAST

AdvancedEAST：https://github.com/huoyijie/AdvancedEAST

CRNN：https://github.com/Belval/CRNN

五. Reference

https://my.oschina.net/u/876354

https://zhuanlan.zhihu.com/p/34757009

https://www.jianshu.com/p/109231be4a24

https://zhuanlan.zhihu.com/p/37781277

https://me.csdn.net/imPlok

OCR場景文字識別：文字檢測+文字識別

計算機視覺（三）：目標檢測與識別

計算機視覺（一）：人臉檢測和識別

生物特征識別：小面積指紋識別算法（二）

OCR場景文字識別：文字檢測+文字識別

圖片文字識別：Tesseract OCR庫在Python中基本使用

中國領跑全球OCR文字識別：福昕掃描王廣受歡迎

機器視覺 OpenCV—python 基於LSTM網路的OCR文字檢測與識別

[深度學習]場景文字檢測與識別

場景文字檢測與識別相關論文

電腦端的全能掃描王：圖片轉文字識別

[百度OCR]BDOcr.getText(識別圖上的文字）

[開原始碼與資料集]文字檢測與識別

如何通過迅捷OCR文字識別軟體精準識別圖片中的文字

如何通過迅捷OCR文字識別軟件精準識別圖片中的文字

OCR文字識別軟體裡面的票證識別怎麼操作

如何通過迅捷OCR文字識別軟件識別提取圖中文字

文字識別：CRNN

如何使用迅捷OCR文字識別軟體識別提取圖中文字

如何使用迅捷OCR文字識別軟件識別提取圖中文字

OCR文字識別工具，輕鬆幫你識別圖片上的文字

OCR場景文字識別：文字檢測+文字識別

相關推薦