1. 程式人生 > >概率生成模型在驗證碼上的成果論文解讀

概率生成模型在驗證碼上的成果論文解讀

研究 輪廓 一般來說 分解 作用 nsh 級別 優秀 框架

摘要
從少數樣本學習並泛化至截然不同的情況是人類視覺智能所擁有的能力,這種能力尚未被先進的機器學習模型所學習到。通過系統神經科學的啟示,我們引入了視覺的概率生成模型,其中基於消息傳送(message-passing)的推斷以統一的方式處理識別、分割和推理(Reasoning)。該模型表現出優秀的泛化和遮擋推理(occlusion-reasoning)能力,並在困難的場景文字識別基準任務上優於深度神經網絡,且更具有 300 倍的數據效率(data efficient)優勢。此外,該模型基本上打破了現代基於文本的驗證碼生成方案,即在沒有具體驗證碼的啟發式方法下分割目標。我們的模型在通向通用人工智能的路上可能是非常重要的,因為它強調了數據效率和語意合成性等特性。

從幾個例子中學習和概括的能力是人類智力的標誌(1)。
CAPTCHAs,網站使用的阻止自動交互的圖像,
是人類易於使用的問題的例子,但對於計算機來說卻很困難.
CAPTCHAs對於算法來說很難,因為它們將混亂和擁擠的字符加在一起,
字符分類器創建一個雞和雞蛋問題
分類器適用於已分段出來但分段的字符個人角色需要理解角色,
每個角色可以以組合方式呈現(2-5)。
最近一種深度學習的方法來解析一種特定的人機識別模式,需要數百萬個標註的例子(6),
早期的方法主要依靠手工制作的風格特定的啟發式來分割字符(3,7);
而人類可以在沒有明確訓練的情況下解決新的風格(圖1A)。
字母形式可以呈現並仍然被人們理解的各種各樣的方式在圖1中示出。

Douglas Hofstadter設想“程序處理具有人類靈活性,它必須擁有全面的人工智能“(8)。要構建這樣的模型遠遠超出訓練數據,
許多研究人員推測,這可以通過結合視覺皮層(9-12)的感應偏差來實現,利用神經科學和認知科學研究產生的豐富數據。
在哺乳動物的大腦中,視覺皮層中的反饋連接起作用
即使部分透明的物體占據相同的空間位置(13-16),圖像分割中的角色和基於對象的自頂向下的註意力即使隔離對象的輪廓。
視覺皮層的橫向連接涉及強化輪廓連續性(17,18)。使用相互作用的獨立機制(19-21)來表示輪廓和曲面,
使得能夠識別和想象出異常外觀的物體 - 例如由冰制成的椅子。皮質激活的時間和形態給出了關於輪廓表面表示和推理算法的線索(22,23)。
基於皮質功能的這些見解尚未納入領先的機器學習模型


我們引入了一個稱為遞歸皮質網絡(RCN)的層次模型,將這些神經科學見解融入到一個結構化概率生成模型框架。

除了開發RCN及其學習和推理算法之外,我們將該模型應用於需要從一個或幾個訓練示例中進行泛化的各種視覺認知任務:解析CAPTCHAs,一次和幾次識別以及生成手寫數字, 閉塞推理和場景文本識別。 然後,我們將其性能與最先進的模型進行比較。


Recursive cortical network

RCN建立在現有的組合模型(24,28-32)上。
雖然基於語法的模型(24)具有基於來自語言學的眾所周知的想法的優點,
但是它們將解釋限制為單個樹,或者在使用歸因關系時計算不可行(32)。
關於AND-OR模板和樹結構化組合模型(34)的開創性工作具有簡化推理的優點,
但由於缺乏橫向約束,缺乏選擇性(35)。
來自另一個重要類別(25,29)的模型使用橫向約束,而不是通過池化結構逐漸構建不變性(36),
它們使用參數變換來完成每個級別的完整的縮放,旋轉和平移不變性。
需要自定義推理算法,但這些算法在傳播局部相互作用之外的橫向約束效應方面無效。
(37)中的輪廓和曲面的表示不會對它們的相互作用進行建模,而是選擇將其模型化為獨立的機制.
RCN和組合機器(CM)(32)共享將組合模型想法放置在圖形模型公式中的動機。
然而,CM的“組合分布”的代表性選擇 - 使用單層隨機變量來折疊特征檢測,匯集和橫向協調 - 導致擴展的狀態空間,從而將模型限制為貪心推理和解析過程。
一般來說,由於各種各樣的表現形式的選擇,組合模型的推論依賴於不同模型實例的定制方法,包括求解隨機偏微分方程(30),基於抽樣的算法(24)和修剪動態規劃( 29)。

RCN整合並構建了組合模型的各種想法 - 層次結構,逐漸建立不變性,側向連接的選擇性,輪廓分解和基於解釋的聯合解釋 - 在結構化概率圖形模型中,
使信仰傳播(38)可以用作 主要近似推理機[(33)第6節]。
實驗性神經科學數據提供了代表性選擇的重要指導[(33)]第7節,然後使用實驗研究證實有益。 我們現在討論RCN及其推理和學習算法的表示。
數學細節在(33)的第2至5節中討論。

Representation
在RCN中,對象被建模為輪廓和曲面的組合(圖2A)。輪廓出現在表面的邊界處,無論是在對象的輪廓和組成對象的曲面之間的邊界。表面使用條件隨機場(CRF)建模,其捕獲表面性質變化的平滑度。輪廓使用特征的組成層次來建模(28,39)。輪廓(形狀)和表面(外觀)的因子表示使得模型能夠以顯著不同的外觀識別物體形狀,而不必對每種可能的形狀和外觀組合進行詳盡的訓練。我們現在詳細描述形狀和外觀表示。圖2B顯示了兩個子網(黑色和藍色)
一個級別的RCN輪廓層次結構。圖中填充和空的圓形節點分別對應於特征和池的二進制隨機變量。每個特征節點編碼其子池的AND關系,每個池變量編碼其子特征的OR,類似於AND-OR圖(34)。表示為矩形“因子節點”的橫向約束協調連接到的池之間的選擇。可以對應於兩個對象或對象部分的兩個子網共享較低級別的特征。


圖2C示出了表示平方的輪廓的三級網絡。最低,中等和最高水平的特征分別表示線段,拐角和整個正方形。每個池變量池不同
“中心”特征的變形,小平移,縮放變化等,從而引入相應的不變性。沒有池之間的橫向連接(圖2C中的灰色方塊),從表示
如圖3A所示,角部可以產生不對準的線段。池之間的橫向連接通過確保在一個池中的特征的選擇影響其連接的池中的特征的選擇來提供選擇性(35),創建輪廓變化更加平滑的樣本。橫向約束的靈活性是通過擾動因子來控制的,這是一個每級指定的超參數。通過多層特征集合,橫向連接和組合,頂層的特征節點可以表示可以通過一定程度的平移,縮放和變形不變性來識別的對象。

生成模型先驗知識
數據足夠多,神經網絡同樣能達到效果。

神經網絡

隱馬爾科夫模型HMM
http://freemind.pluskid.org/machine-learning/hmm-definition/

如何輕松愉快地理解條件隨機場
http://www.jianshu.com/p/55755fc649b1

概率生成模型在驗證碼上的成果論文解讀