1. 程式人生 > >是要成為海賊王的男人——日記4.22

是要成為海賊王的男人——日記4.22

號外:其實一直在打Datacastle上的一個比賽,目前第五,但是最近幾天暫時不打算打上去,一個周之內,絕對會衝進前三

A.M
煩炸了。。。。。。。。還是昨天那個CRNN專案,warp-ctc的依賴 編譯的時候老是TMD出問題,所以一上午木得了。
所以 我TMD今天決定皮一手‘make,makefile和程式的編譯連結過程‘的學習,木得辦法。

學習目標:

GCC逐個檔案編譯過程:編譯——》連結——》執行
詳細步驟:
預處理:巨集替換,刪除註釋和多餘的空白字元,條件編譯,檔案包含。.i
編譯(生成彙編) :gcc檢查程式碼規範性,是否有語法錯誤,生成彙編 .s
生成機器可識別程式碼 :將編譯生成的.s檔案轉成.o二進位制目的碼 .o
連結 : 動態連結、靜態連結
執行

MAKE:
make:是一個命令工具,按照makefile檔案的編譯方式,進行編譯、連結
makefile:是一個存放編譯方法的檔案

二、語音識別:深入理解CTC Loss原理 :

這裡寫圖片描述

CTC空格——表示停頓, 然後在兩個空格之間的預測序列,就更加放心的刪去重複單元了

裡面提到了HMM(隱馬爾可夫模型),還好之前在李航的統計學習方法研究過,其實感覺它還跟RNN挺像的,都是此時輸出和上一個時刻狀態、此時可輸入有關

““最近在研究CRNN ,但是這個CTCLoss 看了論文還是感覺沒有理解到恰到好處,大佬們有沒有 比較易讀的資料、或者視訊分享一波? 或者說,這個CTCLoss 用於計算 RNN輸出序列 和 對應的Label序列 ,到底是怎樣計算的?難道不是去空格、去重複 ,然後跟目標序列對比,計算標籤錯誤率嘛,但是我看到論文裡面提的類似隱馬爾可夫模型那種前向計算的定義公式,感覺很萌比阿,不是 經過CNN之後對應的影象列向量作為一個序列投入到RNN 後,RNN已經產生了對應的輸出,然後再轉化成 字典數目個分類,然後都取最大的那個字元,然後 不就完了。。。。。。。怎麼就 ???我理解的不到位,求大佬指教啊“

這個CTCLoss還沒徹底弄明白,先記錄下來,好吧,在群裡面問大佬這個問題的時候,感覺 對 隱馬爾可夫模型和馬爾可夫鏈的理解 完全低下,改日補

發現想搞明白CTPN,最好先搞明白 faster rcnn
Faster-RCNN演算法精讀 :https://blog.csdn.net/hunterlew/article/details/71075925
可以,這篇文章還可以,RPN,先對影象進行物體探測,也就是拿九個不同規格的框(anchor)在最後的60乘以40的 map上探測,對應著願影象的2萬多個anchor,經過最大值抑制等操作,選出iou最高的部分探測到物體的anchor,然後投給RCNN 進行分類定位

不過,這塊感覺,對他的RPN理解還有些問題,改日補吧

四、CPS-OCR-Engine 一個 票據OCR識別 :https://github.com/JiHanFly/CPS-OCR-Engine
五、其實是想把三、四結合下,生成一種自動識別文字邊框+自動解析邊框文字的深度神經網路