1. 程式人生 > >文字識別總結(OCR)

文字識別總結(OCR)

最近在讀Tesseract相關文章,發現一篇總結的不錯的文章,對剛入門或者準備入門的具有挺大參考價值,轉自:http://www.xtecher.com/Xfeature/view?aid=5372

連結可能掛掉了,今天重新補充一下。

目錄

一 ,文字識別簡介

1)探索階段(1979一1985)

2)研製階段(1986~1988)

3)實用階段(1989一至今)

二 ,印刷體文字識別

2.1 影象預處理

2.2版面處理

2.3 影象切分

2.4 特徵提取與模型訓練

2.5 識別後處理

三,手寫體文字識別

四,應用案例

4.1印刷體識別應用

4.2手寫體識別應用

五 學習資料

5.1 部落格推薦

5.2 書籍推薦

5.3 視訊資料

5.4 論文參考

5.5 OCR工具

5.6 參考文獻


文字識別是計算機視覺研究領域的分支之一,歸屬於模式識別和人工智慧,是電腦科學的重要組成部分。本文將以上圖為主要線索,簡要闡述在文字識別領域中的各個組成部分。

 

一 ,文字識別簡介

計算機文字識別,俗稱光學字元識別,英文全稱是Optical Character Recognition(簡稱OCR),它是利用光學技術和計算機技術把印在或寫在紙上的文字讀取出來,並轉換成一種計算機能夠接受、人又可以理解的格式。OCR技術是實現文字高速錄入的一項關鍵技術。

在OCR技術中,印刷體文字識別是開展最早,技術上最為成熟的一個。早在1929年德國科學家Taushek就取得了一項光學字元識別(Optical Character Recognition,簡稱OCR)的專利131。歐美國家為了將浩如煙海、與日俱增的大量報刊雜誌、檔案資料和單據報表等文字材料輸入計算機進行資訊處理,從上世紀50年代就開始了西文OCR技術的研究,以便代替人工鍵盤輸入。經過40多年的不斷髮展和完善,並隨著計算機技術的飛速發展,西文OCR技術現已廣泛應用於各個領域,使得大量的文字資料能夠快速、方便、省時省力和及時地輸入到計算機中,實現了資訊處理的“電子化”。

與印刷體西文OCR相比,印刷體漢文OCR技術的研究是在印刷體數字識別和印刷體英文識別的基礎上發展起來的,最早可以追溯到上世紀60年代。1966年,BIM公司的Casey和Nagy發表了第一篇關於印刷體漢字識別的論文,在這篇論文中他們利用簡單的模板匹配法,識別了1000個印刷體漢字。從上世紀70年代以來,日本學者在漢文OCR方面做了許多研究工作,其中有代表性的系統有1977年東芝綜合研究所研製的可以識別2000個單體印刷漢字的識別系統;80年代初期,日本武藏野電氣研究所研製的可以識別2300個多體漢字的印刷體漢字識別系統,代表了當時漢字識別的最高水平。此外,日本的三洋、松下、理光和富士等公司也有其研製的印刷體漢字識別系統。這些系統在方法上,大都採用基於K-L數字變換的匹配方案,使用了大量專用硬體,其裝置有的相當於小型機甚至大型機,價格極其昂貴,所以並沒有得到廣泛應用。

與國外相比,我國的印刷體漢字識別研究是從上世紀70年代末起步的,至今己有近三十年的發展歷史,大致可以分成如下三個階段:

1)探索階段(1979一1985)

在對數字、英文、符號識別研究的基礎上,自上世紀70年代末,國內就有少數單位的研究人員對漢字識別方法進行了探索,發表了一些論文,研製了少量模擬識別軟體和系統。這個階段漫長,成果不多,但是卻孕育了下一個階段的豐碩果實。

2)研製階段(1986~1988)

1986年初到1988年底,這三年是漢字識別技術研究的高潮期,也是印刷體漢字識別技術研究的豐收期。總共有11個單位進行了14次印刷體漢字識別的成果鑑定,這些系統對樣張識別能達到高指標:可以識別宋體、仿宋體、黑體、楷體,識別的字數最多可達6763個,字號從3號到5號,識別率高達99.5%以上,識別速度在286微機條件下能夠達到10~14字/秒,但對真實文字識別率大大下降,這是由於以上系統對印刷體文字形狀變化(如文字模糊、筆劃粘連、斷筆、黑白不均、紙質質量差、油墨反透等等)的適應性和抗干擾性比較差造成的。但是這三年研製的識別系統為印刷體漢字識別系統的實用化打下了基礎,是識別系統從研製到實用化必經的過程。

3)實用階段(1989一至今)

印刷體漢字識別自1986年掀起高潮以來,清華大學電子工程系、中國科學院計算所智慧中心、北京資訊工程學院、瀋陽自動化研究所等多家單位分別研製並開發出了實用化的印刷體漢字識別系統。尤其是由清華大學電子工程系研製的清華TH一OCR產品和由漢王集團開發的尚書OCR產品,它們始終都處於技術發展的最前沿,並佔據著最大的市場份額,代表著印刷體漢字識別技術的發展潮流。目前,印刷體漢字識別技術的研究熱點已經從單純的文字識別轉移到了表格的自動識別與錄入,圖文混排和多語種混排的版面分析、版面理解和版面恢復,名片識別,金融票據識別和古籍識別等內容上。並且出現了許多相關的識別系統,如:紫光文通推出的名片識別系統(e一card)、身份證識別系統(e驗通)和“慧視”螢幕文字影象識別系統等等。這些新的識別系統的出現,標誌著印刷體漢字識別技術的應用領域得到了廣闊的擴充套件。

國家高技術研究發展“863”計劃、國家重點科技攻關計劃、國家自然科學基金和軍事基礎研究基金都對印刷體漢字識別這一研究課題予以極大的重視和大力的支援。目前,印刷體漢字識別和聯機手寫漢字識別走向實用化,其技術水平和當前世界最高水平並駕齊驅。

這篇文章將對OCR技術進行分類描述,並介紹一些在OCR領域中較常使用的演算法,由於個人主要參與的專案實踐與印刷體識別較為相關,所以對於其他領域的描述若有不當之處,請大家指正,希望本文的介紹會讓大家對OCR的整個流程有一個簡要的概念。

 

二 ,印刷體文字識別

OCR技術的興起便是從印刷體識別開始的,印刷體識別的成功為後來手寫體的發展奠定了堅實的基礎。印刷體識別的主要流程大致分為以下幾個部分:影象預處理;版面處理;影象切分;特徵提取、匹配及模型訓練、匹配;識別後處理。

2.1 影象預處理

輸入文字經過掃描器進入計算機後,由於紙張的厚薄、光潔度和印刷質量都會造成文字畸變,產生斷筆、粘連和汙點等干擾,所以在進行文字識別之前,要對帶有噪聲的文字影象進行處理。由於這種處理工作是在文字識別之前,所以被稱為預處理。預處理一般包括灰度化、二值化,傾斜檢測與校正,行、字切分,平滑,規範化等等。

2.1.1灰度化

通過外設採集的影象通常為彩色影象,彩色影象會夾雜一些干擾資訊,灰度化處理的主要目的就是濾除這些資訊,灰度化的實質其實就是將原本由三維描述的畫素點,對映為一維描述的畫素點。轉換的方式和規則有很多,在這裡不詳細介紹。

2.1.2 二值化

經過灰度處理的彩色影象還需經過二值化處理將文字與背景進一步分離開,所謂二值化,就是將灰度值(或者彩色值)影象訊號轉化成只有黑(l)和白(0)的二值影象訊號。二值化效果的好壞,會直接影響灰度文字影象的識別率。二值化方法大致可以分為區域性閾值二值化和整體閾值二值化。目前使用較多的日本學者大津提出的“大津法”

2.1.3傾斜校正

印刷體文字資料大多是由平行於頁面邊緣的水平(或者垂直)的文字行(或者列)組成的,即傾斜角度為零度。然而在文字頁面掃描過程中,不論是手工掃描還是機器掃描,都不可避免地會出現影象傾斜現象。而傾斜的文件影象對後期的字元分割、識別和影象壓縮等工作將產生很大影響。為了保證後續處理的正確性,對文字影象進行傾斜檢測和校正是十分必要的。

文字影象的傾斜校正分為手動校正和自動校正兩種。手動校正,是指識別系統提供某種人機互動手段,實現文字影象的傾斜校正。自動校正,是指由計算機自動分析文字影象的版面特徵,估計影象的傾斜角度,並根據傾斜角度對文字影象進行校正。

目前,文字影象的傾斜檢測方法有許多種,主要可以劃分為以下五類:基於投影圖的方法,基於Houhg變換的方法,基於交叉相關性的方法,基於Fourier變換的方法和基於最近鄰聚類方法。

最簡單的基於投影圖的方法是將文字影象沿不同方向進行投影。當投影方向和文字行方向一致時,文字行在投影圖上的峰值最大,並且投影圖存在明顯的峰谷,此時的投影方向就是傾斜角度。

Huogh變換也是一種最常用的傾斜檢測方法,它是利用Hough變換的特性,將影象中的前景畫素對映到極座標空間,通過統計極座標空間各點的累加值得到文件影象的傾斜角度。

Fourier變換的方法是利用頁面傾角對應於使Fourier空間密度最大的方向角的特性,將文件影象的所有畫素點進行Fourier變換。這種方法的計算量非常大,目前很少採用。

基於最近鄰聚類方法,取文字影象的某個子區域中字元連通域的中心點作為特徵點,利用基線上的點的連續性,計算出對應的文字行的方向角,從而得到整個頁面的傾斜角。

 

2.1.4規範化

規範化操作就是將輸入的任意尺寸的文字都處理成統一尺寸的標準文字,以便與己經預先儲存在字典中的參考模板相匹配。規範化操作包括1211:位置規範化、大小規範化以及筆劃粗細規範化。在本節只討論位置規範化和大小規範化。

為了消除文字點陣位置上的偏差,需要把整個文字點陣圖移動到規定的位置上,這個過程被稱為位置規範化。常用的位置規範化操作有兩種,一種是基於質心的位置規範化,另一種是基於文字外邊框的位置規範化。基於文字外邊框的位置規範化需要首先計算文字的外邊框,並找出中心,然後把文字中心移動到指定的位置上來。基於質心的位置規範化方法抗干擾能力比基於文字外邊框的位置規範化方法要強。

使用基於文字外邊框的位置規範化方法對文字進行位置規範化的操作結果,如下圖所示。

對不同大小的文字做變換,使之成為同一尺寸大小,這個過程被稱為大小規範化。很多已有的多字號印刷體識別系統都是通過大小規範化來識別不同字號的文字。常用的大小規範化操作也有兩種,一種是將文字的外邊框按比例線性放大或縮小成規定尺寸的文字,另一種是根據水平和垂直兩個方向上文字黑畫素的分佈情況進行大小規範化。

使用根據水平和垂直兩個方向上文字黑畫素的分佈情況方法對文字進行大小規範化操作的效果,如下圖所示。

2.1.5影象平滑

文字影象經過平滑處理之後,能夠去掉筆劃上的孤立白點和筆劃外部的孤立黑點,以及筆劃邊緣的凹凸點,使得筆劃邊緣變得平滑。一種簡單的平滑處理方法如下。採用NxN視窗(N一般為3,如圖2-1所示是一個3X3視窗),依次在二值文字點陣中進行掃描,根據視窗中黑白畫素的分佈情況,使處於視窗中心的被平滑畫素X。,從“0”變成“1”或者從“l”變成“0”。

該方法是按以下規則對文字輪廓邊緣進行平滑的。

規則1如果滿足圖2-2中(a),(b),(c),(d)四種情況中的任何一種,則中心點應該由“0”變成“l”。

規則2如果滿足圖2-2中(e),(f),(g),(h)四種情況中的任何一種,則中心點應該由“1”變成“0”。

 

2.2版面處理

通常版面處理分為三個主要部分,版面分析、版面理解、版面重構。

2.2.1版面分析

將文字影象分割為不同部分,並標定各部分屬性,如:文字、影象、表格。目前在版面分析方面的工作核心思想都是基於連通域分析法,後衍生出的基於神經網路的版面分析法等也都是以連通域為基礎進行的。連通域是指將影象經過二值化後轉為的二值矩陣中任選一個畫素點,若包圍其的所有畫素點中存在相同畫素值的畫素點則視為兩點連通,以此類推,這樣的畫素點構成的一個集合在影象中所在的區域即一個連通域。根據連通域大小或畫素點分佈等特徵可以將連通域的屬性標記出來,用作進一步處理的依據。

2.2.2版面理解

獲取文章邏輯結構,包括各區域的邏輯屬性、文章的層次關係和閱讀順序。根據版面分析時記載的連通域位置資訊,確定連通域歸屬序列。

2.2.3版面重構

根據版面分析和OCR的結果,重構出包含文字資訊和版面資訊的電子文件。

2.3 影象切分

影象切分大致可以分為兩個個主要類別,行(列)切分和字切分。經過切分處理後,才能方便對單個文字進行識別處理。如下圖所示。

 

 

2.3.1 行列切分

由於印刷體文字影象行列間距.、字間距大致相等,且幾乎不存在粘連現象,所以可以採用投影法對影象進行切分,得到每列(行)在座標軸的畫素值投影曲線是一個不平滑的曲線,通過高斯平滑後的曲線在每個波谷位置間的區域即為要的一行(列)。

2.3.2 字切分

字切分對於不同的文種存在著比較明顯的差異,通常意義下,字切分是指將整行或整列文字切分成獨立的一個個文字,而實際上根據文種差異,可能還需需要將單個文字進行進一步切分。而因為文種不同,構詞法或鉤字法也有所不同,所以切分方法的難度差別也是天壤之別。例如將漢字“屋”切分開的難度和將英文“house”切分開的難度差別就很大,因此在識別模式上,也會根據文種特性,設計不同的識別方法。

 

2.4 特徵提取與模型訓練

在深度學習廣泛應用於影象識別領域之前,模板匹配是較為常見的一種識別方式,之後由於神經網路的復甦,基於反饋的神經網路給OCR領域帶來了又一春。現在隨著計算機硬體算力的提升,利用大批資料訓練深度神經網路在影象識別方面取得了傲人的成績。

2.4.1 特徵提取及匹配

特徵提取是從單個字元影象上提取統計特徵或結構特徵的過程。所提取的特徵的穩定性及有效性,決定了識別的效能。對於統計特徵的提取,可利用統計模式識別中的特徵提取方法,而對結構特徵的提取,應根據具體文字所確定的識別基元確定相應的特徵提取方法。在相當長的文字識別的研究過程中,是利用人們的經驗知識,指導文字特徵的提取。例如邊緣特徵、變換特徵、穿透特徵、網格特徵、特徵點特徵、方向線素特徵等等。

特徵匹配是從已有的特徵庫中找到與待識別文字相似度最高的文字的過程。當待識別文字提取完特徵之後,不管使用的是統計特徵,還是結構特徵,都需要有一個特徵庫來進行比對,特徵庫中應包含欲識別字符集中所有文字的特徵。特徵匹配的方法有很多,比較常用的有:歐式空間的比對法、鬆弛比對法、動態程式比對法以及HMM(HiddneMarkovModel)法等等。在神經網路出現之前以及之後很長一段時間,在漢字OCR領域,一直採用的就是這種模板匹配的方法。

2.4.2 模型訓練

人工神經網路經過一段時間的發展在OCR中主要充當了分類器的作用,網路的輸入為文字特徵向量,輸出是類編碼,在識別型別較少且結構區分較為明顯的文字識別中,特徵向量通常為字元影象畫素點的矩陣,這樣特徵提取相當於是一個黑盒的操作,對於原理的解釋有很多,這裡不做詳細介紹。深度學習已經成功應用於OCR領域,深度學習的發展替代了繁重的特徵工程,從大量標記預料中自動學習出影象的特徵,其中CNN(卷積神經網路)尤為搶眼,除了省去人工特徵提取的流程外,共享權值的方式也減少了權值數量,大幅減少了計算開銷,它的兩大優勢使得CNN在OCR領域表現十分卓越。

2.4.3 識別方式

隨著使用者數量及需求的增加,識別效率也成為OCR工程化的一項重要指標。傳統方法,會對伺服器效能要求較高,這樣使得投入成本較高且不易擴充套件;在Hadoop出現之後,該問題得到了較好的改善,通過MapReduce程式設計框架,使得企業需要為之投入的硬體成本大幅減少,對OCR的發展提供了有力的推動作用。

2.5 識別後處理

識別後處理主要應用於兩個方面分別是版面恢復及識別校正。版面恢復在版面處理章節已經講過,這裡不再贅述。識別校正,主要方式是在識別結果基礎上根據語種的語言模型進行,當然在單文種識別中相對容易一些,而在多語種則較為複雜。

 

三,手寫體文字識別

手寫體識別較印刷體識別難度較高,而在手寫體識別中離線手寫體識別難度又比聯機手寫體識別高。這也是離線手寫體識別還未成功應用的主要原因。

 聯機手寫體文字識別(on-line handwritten character recognition)又被稱為實時(或者線上)手寫體識別,即:人在書寫文字的同時,機器根據所書寫文字的筆劃、筆順等特徵進行識別。聯機手寫體文字識別是依靠電磁式或壓電式等手寫輸入板來完成的,當用戶使用光筆在輸入板上寫字的時候,光筆在板上的運動軌跡(板上的座標)會被轉化為一系列的電訊號,這些電訊號能夠序列地輸入到計算機中,從這些電訊號我們可以比較容易地抽取筆劃和筆順的資訊,從而進行文字識別。從上世紀90年代以來,聯機手寫體文字識別正逐步走向實用。中國的科研工作者推出了多個聯機手寫體漢字識別系統,國外的一些大公司也開始進入這一市場。這一技術也迎合了PDA(Personal Digital Assistant)的發展潮流。

離線手寫體文字識別(off-line handwritten character recognition)又被稱為離線手寫體文字識別:由書寫者預先將文字寫在紙上,然後通過掃描器轉換成文字影象,再由計算機識別成相應文字。由於每個人書寫習慣的不同,所以離線手寫體文字的型別是多種多樣的,而且既便同一個人在不同情況下寫出來的文字也會有變化,這些都給離線手寫體文字識別帶來了巨大的困難。對於離線手寫體文字識別而言,如果對文字的書寫不加以任何限制(即自由手寫體文字),則識別難度相當大。

對於離線手寫體文字識別處理流程和技術手段大致和印刷體識別相似,但是由於手寫體隨意性較大,因此對文字影象的行列切分、字切分帶來了較大的困難,根據文種不同,切分的方法也有所不同,例如:在手寫體蒙古文字中內蒙古大學的研究學者採用了一種基於字元外接多邊形的尋找切分點的字切分演算法,取得了不錯的切分效果。

對於聯機手寫體識別的處理流程,主要是利用筆劃順序作為序列模型,加上字元結構特徵、筆順方向特徵、筆畫數量特徵作為空間模型,的組合式模型,完成識別任務。

 

四,應用案例

 

4.1印刷體識別應用

印刷體識別引用擴充套件較多,且技術發展較為成熟,無論在識別準確率方面還是在識別效率方面,都達到了較高的標準。

4.1.1車牌識別

車牌識別系統是OCR工業化應用較早而且成功的典型案例,如今從停車場到小區門禁,車牌識別技術已走進生活的各個角落。車牌識別的成功,歸結為以下幾個原因;

1、識別內容是封閉集合,且集合較小

2、文字字型、大小較為規範

3、文字間距均勻,噪音較少

4.1.2 Tesseract

Tesseract的OCR引擎最先由HP實驗室於1985年開始研發,至1995年時已經成為OCR業內最準確的三款識別引擎之一。然而,HP不久便決定放棄OCR業務,Tesseract也從此塵封。

數年以後,HP意識到,與其將Tesseract束之高閣,不如貢獻給開源軟體業,讓其重煥新生--2005年,Tesseract由美國內華達州資訊科技研究所獲得,並求諸於Google對Tesseract進行改進、消除Bug、優化工作。

Tesseract目前已作為開源專案釋出在Google Project,其最新版本3.0已經支援中文OCR,並提供了一個命令列工具。

4.1.3驗證碼識別

驗證碼的主要目的是強制人機互動來抵禦機器自動化攻擊的。驗證碼作為一種輔助安全手段在Web安全中有著特殊的地位,驗證碼安全和web應用中的眾多漏洞相比似乎微不足道,但是千里之堤毀於蟻穴,有些時候如果能繞過驗證碼,則可以把手動變為自動,對於Web安全檢測有很大的幫助。

全自動區分計算機和人類的圖靈測試(英語:Completely Automated Public Turing test to tell Computers and Humans Apart,簡稱CAPTCHA),俗稱驗證碼,是一種區分使用者是計算機和人的公共全自動程式。在CAPTCHA測試中,作為伺服器的計算機會自動生成一個問題由使用者來解答。這個問題可以由計算機生成並評判,但是必須只有人類才能解答。由於計算機無法解答CAPTCHA的問題,所以回答出問題的使用者就可以被認為是人類。

對於文字識別技術只適用於字元型驗證碼識別工作,除此之外還需要對不同驗證碼設計相應的去噪演算法等。

 

4.2手寫體識別應用

4.2.1文通筆(聯機手寫)

筆順和連筆是影響聯機手寫漢字識別系統識別率的兩個主要因素。前面講過,解決筆順問題的方法有二:一是對使用者提出嚴格的要求,希望他們按“標準”的筆順、一筆一畫地寫字。這種要求,實際上很難做到。這是因為,事實上我國還沒有統一的筆順標準或規定;即使有一種標準,每個人的受教育程度和習慣不盡相同,要求做到都按標準筆順寫字,實際上幾乎是不可能的。另一種辦法是:對於容易出現筆順不同的每一個漢字,設定若干標準模板。例如“女”字,有的人先寫“く”筆,有的人則先寫“一”筆,這個字就可能有兩種不同的筆順。在“字典”中可設定兩個模板,它們的筆畫相同,而筆順不一樣,但都代表“女”字。這樣做會使字典的容量大大增加。在積體電路規模還不夠大、速度也不夠高的年代,這種辦法不容易推廣應用。

連筆是一個更為困難的問題,實際上也很難解決。人們為了提高書寫速度,寫字時往往是一筆呵成。要求他們一筆一畫、按部就班地書寫,也幾乎是不可能的。這個問題比筆順問題更不易處理,這是目前市場上出售的筆式輸入裝置的識別率尚難進一步提高的主要原因。

近幾年投入市場的“文通筆”在解決上述筆順和連筆的兩個問題上做了一些努力,取得了一些成果,並在全國評測中獲得較好的評價。取得這些進展的原因,一方面是由於計算機技術的迅速發展,機器資源已經不是制約識別演算法的主要矛盾,設計者不必過分擔心計算機的容量和速度的問題,可以更大膽地設計一些具有較高的抗干擾能力的演算法;另一方面,在識別演算法上,文通筆的研製者提出了一種富有創造性的結構法與統計法相結合的新技術,較好地解決了單純的結構識別方法難以適應手寫漢字字形及筆順變化的問題。下面扼要介紹這種演算法的要點。

上面講過,結構模式識別比較充分地描述被識別物件的結構資訊。但是這種方法也有不少缺點:

①模式的描述是基於符號而不是基於數值,抗干擾能力差。

②描述基元關係的語法規則一般需由人工編寫,難以利用機器自學習方法獲得。

③句法分析較為複雜,運算量大。

針對上述問題,文通筆在漢字字形建模方面做了一些創新性工作,包括:

①在比較嚴格的概率基礎上建立了一種模式統計模型,可用於描述聯機手寫字形的空間資訊,並易於用統計方法進行訓練,建立手寫漢字的二維模型。

②對隱馬可夫模型(HMM)做了改進,提出控制狀態轉移路徑的概念,使模型較適用於聯機手寫漢字的描述,較好地反映手寫漢字的時間資訊,還給出了這種模型的路徑搜尋演算法及引數訓練方法。

③將上述兩種模型結合起來,用於聯機手寫漢字識別,在很大程度上解決了連筆和筆順變化對識別系統性能的影響,使系統具有較高的魯棒性。

採用上述方法研製成功的“文通筆”,在近年兩次“863計劃”智慧機主題專家組組織的評測會上名列前茅。系統可識別6763個簡體漢字和5401個繁體漢字,對於書寫比較工整的字,識別率在95%~99%之間;書寫比較潦草的字也可達到87%~93%,前十位累加識別率仍達98%~99%;採用主流微機的識別速度大於3字/秒,能滿足實際應用要求。

4.2.2 古籍識別(離線手寫體識別)

目前離線手寫體識別的主要應用方向在於古籍識別,在印刷術發明之前,古人傳承書籍的方式主要依靠抄寫,在印刷術發明之後,使用人力抄寫的書籍數量減少,但信件、奏摺類的包含大量手寫體文字的載體依然不少。而使用人力來完成這些書信的電子化轉儲工作十分費力,因此,針對古籍中文字進行識別的科研需求應運而生。

但是,由於古籍在儲存中難免會遭到人為或非人為的損壞,導致字跡不清、殘損的情況屢見不鮮,加之,手寫體自身可能存在的較大差異性,使得古籍文字識別的工作難上加難。因此,對於離線手寫體識別的應用尚未出現未成功的案例。

 

五 學習資料

 

5.1 部落格推薦

5.1.1中文OCR部落格

博主中文OCR系列部落格,內容講解比較直白,比較容易理解,可以比較清楚瞭解漢字識別整個流程。

http://blog.csdn.net/plfl520/article/details/8441478

5.1.2 卷積神經網路數學理解

再推薦一個系列部落格,博主的一系列部落格,都是對神經網路演算法的從數學角度的深度境界,對於想要詳細瞭解演算法原理的童鞋,比較適用。

http://colah.github.io/posts/2014-07-Understanding-Convolutions/

 

5.2 書籍推薦

5.2.1 《統計學習方法》—李航

本書可以說是機器學習領域的聖經級書籍,書中主要介紹了一些基礎機器學習演算法,其中數學演算也很詳盡,十分適合機器學習入門的一本書籍。

5.2.2 《數學之美》—吳軍

“數學之美”系列文章原刊載於谷歌黑板報,獲得上百萬次點選,得到讀者高度評價。吳軍博士把高深的數學原理講得更加通俗易懂,讓非專業讀者也能領略數學的魅力。讀者通過具體的例子學到的是思考問題的方式 —— 如何化繁為簡,如何用數學去解決工程問題,如何跳出固有思維不斷去思考創新。這種思維模式在不僅機器學習領域十分重要,在其他的領域中也會受益匪淺。

5.2.3《數字影象處理》—岡薩雷斯

想要理解影象處理的理論可以把岡薩雷斯的《數字影象處理》通讀一遍,這本書主要在講基礎原理,推薦大家閱讀原版,譯翻譯不太好,容易導致誤解。

5.3 視訊資料

https://www.coursera.org/learn/machine-learning/home/welcome

Andrew Ng的機器學習課程,配合小練習,收穫很大。

5.4 論文參考

url : http://pan.baidu.com/s/1bpH2dtX      code : xjwl

5.5 OCR工具

1,識別率極高。

2,自由度高。

3,批量操作方便。

4,可以保持原有表格格式,省去二次編輯。

5,包括梯形校正,歪斜校正之類的許多圖片校正方式。

5.6 參考文獻

[1] 魏巨集喜.印刷體蒙古文字識別中關鍵技術的研究[D].內蒙古大學碩士學位論文,2006.

[2] 劉煜星.基於MapReduce的漢字識別的研究與實現[D].華南理工大學碩士學位論文,2011.

[3] Dan Ciresan, Ueli Meier. Multi-Column Deep Neural Networks for offline handwritten Chinese character classification[C]. In: Proceedings of the International Conference on Neural Networks (IJCNN) , 2015, pp. 1-6.

[4] Chunpeng Wu,Wei Fan, Yuan He, Jun Sun.Satoshi Naoi.Handwritten Character Recognition by Alternately Trained Relaxation Convolutional Neural Network[C]. In: Proceedings of the International Conference on Frontiers in Handwriting Recognition (ICFHR), 2014, pp.291-296.