1. 程式人生 > >微軟亞洲研究院對傳統OCR的突破和進展(有詳細檢測 識別的介紹),及成果展示

微軟亞洲研究院對傳統OCR的突破和進展(有詳細檢測 識別的介紹),及成果展示

  把手機攝像頭對準選單上的法語菜名,螢幕上實時顯示出翻譯好的中文菜名;將全世界圖書館的藏書轉化為電子書;街景車遊走於大街小巷,拍攝街景的同時也從 街景影象中自動提取文字標識,讓地圖資訊更豐富更準確……這些場景的背後有一個共同的關鍵技術——OCR (Optical CharacterRecognition),光學字元識別。

  OCR讓電腦“讀”懂世界

  滑鼠發明人Douglas Engelbart曾經針對人工智慧的簡稱AI提出了另一個理念——Augmented Intelligence,增強智慧。在他看來,人已經足夠聰明,我們無需再去複製人類,而是可以從更加實用的角度,將人類的智慧進一步延伸,讓機器去增強人的智慧。

  智慧眼鏡就是這樣的產品,去超市的時候帶上一副,看到心儀商品上的文字,自動搜尋出詳細資訊:生產商情況、在不同電商平臺的價格等等。讓智慧眼鏡讀懂文 字的正是OCR技術。OCR本質上是利用光學裝置去捕獲影象,今天可以是手機、照相機,未來可以是智慧眼鏡、可穿戴裝置等,就像人的眼睛一樣,只要有文 字,就去認出來。

  我們也可以設想一下OCR在未來工作中的應用場景:每次工作會議後,無需再把白板上的討論內容抄寫下來,然後群發郵件佈置任務,只要將白板用手機等智慧裝置拍照留存,系統便能自動識別並分檢出相關人員的後續工作,並將待辦事項自動存放到各自的電子日曆中。

  事實上,我們已經向這個場景邁進了一步,微軟前不久推出的Office Lens應用,已經可以通過視覺計算技術自動對影象進行清理並把它儲存到OneNote,而OneNote中基於雲端的OCR技術將對圖片進行文字識別, 隨後你就可以擁有一個可編輯、可搜尋的數字檔案,為上述未來應用場景打下基礎。微軟幾年前推出的手機應用Translator,除了支援文字和語音翻譯 外,還能用手機拍攝不同語言的選單或指示牌,翻譯結果立即浮現於原文之上。Office Lens和Translator這兩款產品中的“中日韓”OCR核心技術就來自

微軟亞洲研究院的語音團隊。

從平板掃描器到前端手機後端雲從平板掃描器到前端手機後端雲

  回過頭來看,OCR技術經歷了怎樣的發展歷程呢?早在20世紀50年代,IBM就開始利用OCR技術實現各類文件的數字化,早期的OCR裝置龐大而復 雜,只能處理乾淨背景下的某種印刷字型。20世紀80年代,平板掃描器的誕生讓OCR進入商用階段,裝置更為輕便靈巧,可以處理的字型數量也增多,但對文 字的背景要求仍然很高,需要很好的成像質量。

  平板掃描器對印刷體文字的識別率在20世紀90年代就已經達到99%以上,可謂OCR應用 迎來的第一個高潮。當時最著名事件是谷歌數字圖書館,谷歌還申請了圖書掃描專利,實現了批量化的高速掃描。在此期間,手寫字型的識別也在並行發展,被廣泛 用於郵件分揀、支票分類、手寫表格數字化等領域。

  這樣的成就一度讓大家誤以為OCR技術已經登峰造極,但從21世紀開始,準確地說是自 從2004年擁有300萬畫素攝像頭的智慧手機誕生之日起,這一情況發生了根本改變。越來越多的人隨手拿起手機拍攝所看到的事物和場景,而此類自然場景中 的文字識別難度遠遠高於平板掃描器時期,即便是印刷字型,也不能得到很高的識別率,更別說手寫體了。學術界因此將自然場景中的文字識別作為全新的課題來對待。

  與此同時,雲端計算、大資料以及通訊網路的快速發展,實現了智慧手機的24小時線上,前端採用手機攝像頭進行文字捕捉,後端可以對其 進行實時分析和處理,二者的結合讓OCR的未來應用模式充滿想象。因此,對OCR的研究再度成為學術界的焦點,無論是前端識別技術還是後端的關聯應用領 域,都有著無限可能。微軟亞洲研究院的研究員們,也非常有幸加入了這個大潮。

  自然場景下的文字檢測獲突破性進展

  自然場景影象中的文字識別大大難於掃描器影象中的文字識別,因為它具有極大的多樣性和明顯的不確定性。如文字中包含多種語言,每種語言含有多種字母,每 個字母又可以有不同的大小、字型、顏色、亮度、對比度等;文字通常以文字行的形式存在,但文字行可能有不同的排列和對齊方式,橫向、豎向、彎曲都有可能; 因拍攝影象的隨意性,影象中的文字區域還可能會產生變形(透視和仿射變換)、殘缺、模糊斷裂等現象。

自然場景圖片中的文字多樣性示例自然場景圖片中的文字多樣性示例

  與傳統 OCR 技術中的掃描文件影象相比,自然場景影象的背景更為複雜。如文字可能不是寫在平面上而是在曲面上;文字區域附近有非常複雜的紋理和噪聲;影象中的非文字區域有著跟文字區域非常相似的紋理,比如窗戶、樹葉、柵欄、磚牆等。這些複雜背景會極大增加誤檢率。

  由於自然場景下的文字識別難度大,微軟亞洲研究院團隊對相關技術和演算法進行了針對性的優化和創新,從三個方面對文字檢測技術進行了改進,並取得突破。通 常,OCR識別的步驟可以分為兩步:首先是文字檢測(Text detection),將文字從圖片中提取出來;然後,對文字進行識別(Recognition),此次的突破主要是在文字檢測環節的兩個子階段。

  階段①:採用新演算法,檢測準確高效

  一個字母或文字通常可以分為若干個連通區域,如o就擁有一個連通區域,i則擁有兩個連通區域,文字檢測首先要從影象中切割出可能存在的文字,即候選連通區域,然後再對其進行文字/非文字分類。

  在確定候選連通區域階段,微軟亞洲研究院團隊在傳統檢測方法ER(Extremal Region,極值區域)和MSER(Maximally Stable Extremal Region,最大平穩極值區域)基礎之上創新地採用了對比極值區域CER(Contrasting Extremal Region),CER是跟周圍的背景有一定對比度的極值區域,這個對比度至少要強到能夠被人眼感知到,在低對比度的影象上比MSER效果更好,而且獲得 的候選連通區域數量遠小於ER,候選範圍大大縮小,提高了演算法的效率。

  為了提高所獲得的候選連通區域的質量,微軟亞洲研究院團隊決定增加一個演算法環節去增強CER。尤其在影象模糊、解析度低或者噪聲較多時,提取出來的CER有可能會含有冗餘畫素或者噪聲,這些冗餘畫素或者噪聲的存在會使得後面的文字/非文字分類問題變得更為複雜。

採用基於感知的光照不變(Perception-based IlluminationInvariant, PII)顏色空間中的顏色資訊去增強CER可算是此次演算法優化的另一個創新之舉,利用顏色資訊儘可能濾除CER中的冗餘畫素或者噪聲,從而得到 Color-enhanced CER。該顏色空間具有視覺感知一致性,而且對光照不敏感,更接近人眼對顏色的判斷。

受噪聲影響的CER示例受噪聲影響的CER示例

  在實際操作中,並不是每個CER都需要通過顏色資訊來增強,因為有很多CER本身顏色均勻,沒有噪聲,尤其是在圖片質量很高的時候。因此,在對CER進行增強操作之前我們會先判斷該CER是否需要增強操作,以減少不必要的計算複雜度。

對CER的顏色增強效果示例對CER的顏色增強效果示例

  階段②:創新分類,檢測更高質

  當獲得了高質量的候選連通區域,就需要對其中的字元進行分辨,確定其是否為文字或非文字,微軟亞洲研究院團隊創新地提出了一套基於淺層神經網路的文字/非文字分類演算法,比以往的演算法更加有效。

  該演算法根據文字本身的特性採用分治策略將原始問題空間劃分為5個子空間,每個子空間對應一類文字樣本,分別命名為Long類,Thin類,Fill 類,Square-large類和 Square-small類(如下圖所示),於是每個候選連通區域被劃分到這5類中的一種。

文字類問題空間劃分示例文字類問題空間劃分示例

  在每個子空間中,微軟亞洲研究院團隊創新地利用無歧義學習策略訓練一個相應的淺層神經網路,作為該子空間的文字/非文字分類器,我們可以將該神經網路看作是一個黑盒子,在經過大量學習之後,它便能較為準確的將文字與非文字分類。

  每次分類動作包括兩個階段——預剪枝(Pre-pruning)階段和驗證(Verification)階段。在預剪枝階段,分類器的任務是儘可能濾除 無歧義的非文字候選連通區域;在驗證階段,則通過引入更多資訊來消除孤立連通區域的歧義性,從而進一步濾除有歧義的非文字候選連通區域。

  2014年8月,在瑞典首都斯德哥爾摩舉辦的國際模式識別大會(ICPR)上,微軟亞洲研究院團隊公佈的研究成果在自然場景文字檢測的標準資料集 (ICDAR-2013測試集)上取得了92.1%的檢測精度和92.3%的召回率。此前業界最好技術的檢測精度是88.5%,而召回率只有66.5%, 多年來這些數字每年增長只有幾個百分點,微軟的技術讓自然場景影象中的文字檢測實現了突破。

  人類需求牽引科技發展走到今天,智慧的無限延伸決定了世界的無限潛能。10年前的簡單通訊工具手機如今已成為智慧生活的伴侶,曾經只被掃描器應用的OCR技術亦已煥發新機。隨著研究工作的不斷突破和智慧裝置的推陳出新,OCR的應用也將充滿無限機會、無限可能性。

  作者簡介:

  霍強博士,微軟亞洲研究院首席研究員