完形與世界模型
本文主要探討完形與世界模型的關係。

格式塔心理學引入了心理學的動力學視角,啟發我們從一個全新的角度看待世界模型的構建,自我、感官、舊腦等綜合作用下產生不同的行為環境的內容。
考卡夫向我們展示了一系列實驗,表明人在結構感知資訊時會傾向於簡單性、相似性、閉合性等一系列完形原則,雖然其大作《格式塔心理學原理》中為探討成因,但在生理-心理聯合框架上下足了理論功夫。
對於AGI而言,如何理解這種動力學觀點還是其次,重要的是,注意力、工作記憶、記憶還有什麼其他的機制在一起構建了世界模型,以什麼形式表徵世界模型。Gestalt的原則提醒我們大腦檢視以主題-背景模式來分離出感知流中的一個完形,至於何以一個完形應由哪些要素構成,我以為則是以簡單為原則,而相似、相近、閉合則是自然屬性的反映,即可形成簡單模型的完形,大抵都偏向相似、相近、閉合。若此,我們便可得到一個與邏輯推理相近的視覺世界模型的理論,並難得地將他們統一了。
我們的大腦為了尋得一種解釋,近似原則既可是先天便有,亦可是後天訓練而得,但均輔助我們快速構建這種理解,一旦形成的理解可以解釋可見,便以為理解的目標達成。
由於我們動用全部的大腦資源職位尋得一個gestalt,說明這個事情並不是單純的一箇中間抽象特徵問題,而是一個全腦巨集觀任務,工作記憶和世界模型的存在讓我們可以進行持續的跟蹤。為gestalt所付出的全腦級努力,恰恰是為了資源節約而做的努力。
狹義上的完形更可能是結果而不是本源,它反映的是世界的本質。當然我們不用特種注重這個因果,我們用全新的框架也不一定按進化的原則構建舊腦,只要一個機制可以讓神經網路(Neural Network,NN)產生完形即可。主要的挑戰之一是如何評價一個NN產生了完形呢?首先討論應不應排除現行的mask方法,如果NN掌握了完形,那麼它可以完成mask任務,但完成了mask任務卻不代表掌握了完形。NN如果可以畫出簡要的模型圖,才更讓人信服其掌握了內在結構,因為世界模型是可以參與智慧任務的,但豐富的畫面內在結構是複雜的方位關係、組合關係、變化關係等等,畫出模型圖會不夠。GAN重現是可以的,那GAN是否掌握了完形、物體的概念呢?如果有,如何利用呢?如果沒有它利用的是什麼呢?它是一種欺騙技術麼?從貝葉斯思維來看,很多GAN是產生的是近似巨集觀知覺的錯誤細節圖,它未必掌握了真正的世界模型。
首先應從巨集觀層面看待完形和世界模型,至少在執行時是非常巨集觀的,雖然儲存可能很微觀,其次注意資源、完形是一種動力學過程,所有的機制以及完形的產生,世界模型的構建都是整個機制運轉過程的環節,所以倘若可以以圖靈機制有效的運轉起來,勢必有世界模型和完形的產生,否則整個機制將無法運轉,那麼便回到兩個基本問題:1) 世界模型如何儲存、表徵 2) 完形如何產生。
世界模型是我們對世界真實構成的理解,世界模型可能是極其複雜的,比如對一個城市的理解,對一個家的理解,裡面包含了數以百計、千計、萬計的關係,完形是從感知資料中抽取的一個認知、一個主體,這個主體一般只是世界模型的一部分,這個認知在學習階段,更多是幫助補充世界模型的資訊,比如我們讀完一本書,才能建立一個知識體系,考察一個房間才對其佈局瞭如指掌。世界模型是一個模糊的非主體概念,萬事萬物、互相關聯,它應是由無數的概念、無數關係、無數結構構成,由其中某些部分便可構建出一個整體,亦即完形,每個通過感知形成的完形,可能是經驗的,也可能是全新的,但全新的能否構成整體,也可依賴經驗和舊腦,有些東西具備先天的完形傾向(進化通路),而有些需要後天學習(學習捷徑通路)。
無論何種通路,傾向性均忠於現實世界的內在結構。這是進化的適應的結果,也是生命體和智慧體的基本能力。
當預測基於世界模型時,就可以擺脫概率的煩惱,世界模型的啟用在某些時候也依賴完形的產生,識別出的完形啟發式地激活了世界模型,世界模型是一個比完形更復雜的整體,但在意識中,很多時候一個世界模型可能就是一個完形。但世界模型不是意思層面的東西,所以它應是更廣泛的代表物。
完形本質上不只是感知問題,而是注意機制的表現,也是思維的需要,面對複雜的世界構成,注意讓計算資源集約,通過演算法完成智慧任務,離開完形世界模型的大廈便無法築建,演算法便無法展開。
完形如何產生,如何表徵定要放到世界模型,圖靈機制的框架下來思考。所有感覺最終都在為這個機制服務,不同的感覺資料在完形上有不同的特點,聲音的近似性一般指在音色上、接近性指在時間上,海倫凱勒的案例表明單純的觸覺亦可構建世界模型,雖然極其困難,但大腦世界模型的潛力是存在的,我不知道是否與舊腦有關,但舊腦在完形上的確在低等動物中發揮重要作用。