位元組跳動李航:智慧與計算
近日,位元組跳動科技有限公司人工智慧實驗室總監李航在《中國計算機學會通訊》2019年第一期發表專欄《智慧與計算》,對計算與思考(或智慧)這個話題進行簡單綜述與討論。機器之心經授權轉載。
前言
1950 年,圖靈發表論文《計算機器與智慧》 (Computing machinery and intelligence),提出著名的 圖靈測試。這段時間裡,圖靈關注的主要問題是, 在計算機上是否可以實現人的思考 (thinking) [1]。他 的基本觀點是,只要進行適當的程式設計,計算機可以 像人腦一樣工作。我們不需要給思考一個嚴格定義 1, 可以通過圖靈測試判斷計算機的“思考”能力是否 達到了人的水平。
1957 年,馮·諾伊曼去世,次年他的遺作《計算機與人腦》(The computer and the brain) 出版。該書是他在離世前的兩年時間裡準備的演講草稿,討 論他當時最關心的研究課題:計算機和人腦。馮·諾伊曼把計算機和人腦都看作是計算機器 (automata), 對兩者進行了比較,試圖為建立統一的計算機器理 論奠定基礎。
人的思考是不是計算,是怎樣的計算?計算機 是否可以實現人的思考?這個問題是認知科學、人工智慧的一個核心問題,這一點從計算機領域兩位 巨人對這個問題的關注程度就可見一斑。
本文對計算與思考(或智慧)這個話題進行簡單綜述與討論。必須申明,筆者是電腦科學家, 對腦科學、認知科學等是外行。因為人工智慧的目標是要構建能夠“思考”和“行動”的機器,所以作為人工智慧的研究人員又不能不對這些問題進行 關注與思考,進而斗膽執筆,寫出本篇文章,希望能拋磚引玉,引發大家的思索與辯論。
腦科學告訴我們的
人腦是由千億級的數百種神經元(神經細胞) 通過千萬億級的突觸連線形成的神經網路,能夠實 現各種智慧性功能,包括感知、認知、語言、情感、 創造、意識。腦科學研究雖然取得了一定的成果, 但離探明人腦的工作機理還相差甚遠 [2]。
圖1大腦主要區域
在巨集觀層面,腦科學研究對大腦各個腦區的結 構與功能有一定的認識。人腦由大腦、小腦、腦幹 組成。大腦最重要的部位是大腦皮層,人類與動物 的主要區別在於人類擁有極其發達的大腦皮層,可以說大腦皮層造就了人類的智慧。大腦皮層不同區 域掌管不同的功能,包括視覺皮層、聽覺皮層、味 覺皮層、體感皮層、運動皮層、語言區等(見圖 1)。
在微觀層面,腦科學研究對神經元的資訊處理 機制有比較清楚的瞭解[3]。神經元通常由一個細胞體、 一個軸突和多個樹突組成。樹突接入訊號,軸突接 出訊號,神經元與神經元之間由突觸連線(見圖 2)。 現神經元從多個前神經元得到輸入訊號,當輸入信 號超過一定閾值時被啟用,產生輸出訊號,傳遞到 多個後神經元。神經元之間的訊號傳遞通過突觸進 行。前神經元在軸突末梢釋放化學物質,通過突觸 傳到現神經元的樹突,開啟現神經元的離子通道 (ion channel),促使其細胞內外離子流動,形成現神經元 的輸入訊號。現神經元的輸出訊號通過軸突以離子 流的形式傳遞到軸突末梢,繼續向後神經元傳遞。
圖2神經元
在介觀層面,腦科學研究對神經環路的資訊處 理原理有一些認識。神經可塑性是神經網路的重要 特點,有所謂的赫伯法則(Hebbian rule),認為同 時被啟用的神經元之間的連線被強化,產生新的鏈 路,形成新的記憶 (fire together, wire together)。對 概念的記憶儲存於由密切連線的神經元組成的細胞 群中,啟用其中的部分神經元可以喚起對整個概念 的記憶。
可以看出人腦是一個由龐大複雜網路組成的信 息處理系統。它通過神經元之間的訊號傳遞實現信 息處理,具有以下特點 :處理速度並不很快,進行 的是並行處理,計算與儲存融合在一起,擁有自學 習能力。
心智的計算理論
心智的計算理論 (computational theory of mind) 認 為,人的思考是計算,人腦或心智是計算系統。這 裡說的計算不是比喻,而是實質上的 [4]。這個認知 科學、腦科學、人工智慧等領域的理論,在20 世紀 60~70 年代佔據主流地位,代表人物包括認知科學家 福多 (Jerry Fodor)和平克 (Steven Pinker)、腦科學家 馬爾 (David Marr)、哲學家丹奈特 (Daniel Dennett) 等。
計算系統
馬爾提出了計算的層次概念,認為無論是計算 機還是心智都是計算系統,需要從三個不同且相關 的層次理解,包括計算層、表徵層、實現層。計算 層決定系統的輸入與輸出,對應計算的功能 ;表徵 層決定系統內部的表徵與演算法,對應計算的軟體; 實現層決定系統的物理實現,對應計算的硬體。
心智的計算理論把心智看作是圖靈式計算機 (Turing style machine),認為人的思考(感知、認知等) 是這種機器上的計算。這一點與圖靈和馮·諾伊曼 的觀點一脈相承。有許多理由讓人相信這個想法的 正確性。給定一個輸入,產生一個輸出,至少從功 能的角度,心智做的是資訊處理,可以把心智看作 是一種計算系統。神經元對輸入的多個訊號進行處 理,輸出一個訊號,進而傳遞資訊,從實現的角度, 是一種計算器件。
心智的計算理論中,心智的表徵理論是重要的 一個分支,從表徵的角度進一步推進心智是計算系 統的想法。
心智的表徵理論
心智的表徵理論(representational theory of mind) 認為思考是在心智中(圖靈式計算機上)的符號操 作 [5,6]。人的思考和行動是基於常識的,由信念或願 望驅動。信念是對事實的描述,願望是對目標的描 述,常識是對世界的描述,而這些描述是通過內心 的語言進行的,稱為“心智語言”(mentalese)。也 就是說,心智中的符號操作基於心智語言。
心智語言同自然語言一樣,由符號和語法組成。 符號有簡單的,也有複雜的,語法規則決定符號的 組合方式以及產生的語義。聽別人講一段話,人一 般不能複述原話,但可以把內容講述出來,對這個 現象的解釋是,人理解自然語言時把它轉化成了心 智語言。自然語言有歧義(多個語義),但心智語 言沒有,原因是人能夠區別自然語言的歧義,說明 人用不同的心智語言表達了不同的語義。
有一些認知學實驗支援心智語言存在的假說。 比如,讓受驗者坐在電腦螢幕前,螢幕上瞬間閃出 兩個英文字母,根據內容快速按下兩個按鈕中的一 個。如果兩個英文字母相同,按其中的一個,如果 兩個字母不相同,按另外一個。有時出現的是同一 個字母且大小寫相同(如“A A”“ a a”),有時出現 的是同一個字母但大小寫不同(如“A a”“ a A”)。 結果發現,大小寫相同時,受驗者按按鈕的速度更 快,準確率更高。說明在第二種情況,人需要做某 種處理把視覺中的符號轉換成心智語言中的符號。
中文房間
圖3中文房間
哲學家塞爾(John Searle)用著名的中文房間 (Chinese room) 思想實驗,對“心智是計算系統,思 考是符號操作”的想法提出質疑 [7]。
中文房間思想實驗是說,有一個不懂中文的人 被放到一個房間裡,其他人從房間外塞進寫著中文 的紙條。房間裡有一本書,寫著中文會話的規則。 他根據書上的規則,對著紙條上的中文符號,找出
相應的中文符號畫在紙條上,把紙條塞出房間外(見 圖 3)。從房間外的人看,這個人能夠用中文對話, 會說中文,但是事實上他完全不會。基於符號操作 的計算機器,和中文房間裡的人一樣,看似在使用 語言,其實完全沒有理解語言。說明語言理解乃至 思考,不是計算和符號操作。
中文房間的論點引起了極大的反響,各種支援和 反對的意見接踵而至。比如有一個代表性的反對意見 是:確實這個人不會講中文,但是整個房間會講中文。 因為從功能的角度來說這個房間整體可以完成中文的 對話,這個人只是會講中文的系統的一部分。塞爾對 此的反駁是:這個人可以把所有的規則都記住,也可 以離開這個房間,但是隻要他不能把語義附加到符號 上,就不能認為他會講中文。塞爾的主要論點是符號 操作只能代表語法,不能代表語義。
體驗認知理論
體驗認知 (embodied cognition)理論 2 是近二十 年來興起的理論,認為生命體(包括人和其他動 物)的身體是感知和認知的基礎,身體的體驗對感 知和認知起著決定性的作用 [8]。代表人物包括認知 科學家雷可夫 (George Lakoff)、腦科學家達馬西奧 (Antonio Damasio)、哲學家克拉克 (Andy Clark) 等。 可以說,體驗認知理論對心智的計算理論提出了一 定的挑戰。
腦科學的假說
達馬西奧認為,思考是能夠在意識中產生表象 (image)的,在下意識中進行的對神經表徵 (neural representation) 的操作 [9]。神經表徵是人腦的神經活 動(神經網路中的訊號傳遞)產生的狀態。表象是 指人的意識中對事物形象的認識,包括視覺、聽覺、 體感等的表象。比如,提到“黃色的帽子”,我們會 在腦海裡聯想到黃色的帽子,這就是它的視覺表象。
腦和身體是不可分割的有機體(這裡說的身體指除去腦之外的身體部位)。腦和身體的相互作用, 形成一個整體,與外界相互作用,產生人的行為。 通過神經系統,外界訊號可以從身體器官傳到大腦, 指令訊號也可以從大腦傳到身體器官。大腦發出的 指令未必都經過思考,有很多屬於被動的反應。經 過思考的指令,會在意識中產生表象,成為人的主 動的命令。達馬西奧指出“我們未必是思考機器, 其實我們是思考的感覺機器 (We are not necessarily thinking machines; we are feeling machines that think)”。
思考也使用單詞和符號。單詞和符號作為表徵 被記憶,人在說出或寫出一句話之前,單詞和符號 相關的聽覺表象、視覺表象等浮現於意識中。人的 邏輯和數學思維也基於表象,而不是符號。一個證 據是,許多數學家、物理學家,包括愛因斯坦,都 將自己的抽象思維過程描述為表象的操作過程。
這裡談到意識,這也是認知科學、腦科學和哲 學關注的一個重要問題,至今仍是一個很大的疑團。 因為涉及的內容較多,本文不作討論。
體驗模擬假說
體驗模擬假說 (embodied simulation hypothesis) 是關於語言理解的體驗認知理論,認為人的語言理 解是在心智中進行的,基於自己過去的視覺、聽覺、 運動等體驗的模擬 [10,11]。
人進行語言理解時既使用語言相關的大腦部 位,又使用感知和運動相關的大腦部位。理解語 言描述的概念時,會聯想到概念相關的影象,這 時大腦視覺皮層變得活躍 ;會聯想到概念相關的 聲音,這時大腦聽覺皮層變得活躍 ;會聯想到概 念相關的運動,這時大腦運動皮層變得活躍。語 言理解的過程就是,喚起大腦各個部位相關體驗 的記憶,基於這些記憶在心智中生成語言所描述 的內容的過程。
語言理解大多發生在下意識,在意識層面,會 產生相關的表象。比如,問:“大猩猩有沒有鼻子?”要回答這個問題,我們會在腦裡先浮現出大猩猩的 視覺表象,然後根據這個表象去回答問題。再比如, 聽到 :“ flying pig(飛豬)”,不同的人會根據自己對 飛的概念的理解(飛的表象),以及對豬的概念的 理解(豬的表象)組合成不同的新的表象。
如果認為語言理解不是基於符號,而是基於體驗 模擬,那麼中文房間中的人確實沒有理解語言,塞爾 的觀點可能是正確的。語義不是由符號定義出來的, 而是從人與外界互動的體驗中積累抽象出來的。
有很多認知學實驗證明體驗模擬假說的正確 性。有這樣的實驗,讓受驗者先聽一句話,然後看 一張圖片,之後快速按下兩個按鈕中的一個。如果 圖片中出現了句子中描述的物體,按其中的一個按 鈕,否則按另一按鈕。例如,句子有“木匠把釘子 釘進牆裡”(常識中這時釘子的方向是水平的),“木 匠把釘子釘進地板”(常識中這時釘子的方向是垂直 的),圖片中顯示的物體有水平方向的釘子,也有 垂直方向的。結果發現句子中釘子的方向和圖片中 釘子的方向一致時受驗者的反應速度更快,判斷準 確率更高。更一般地,語言中描述的和影象中顯示 的同種物體,當方向、形狀、顏色相同時 3,人能 更快地判斷其同一性。說明人在理解語言時,根據 自己的經驗在視覺上想象出了對應的場景。
比較與評論
兩個理論
心智的計算理論與體驗認知理論在思考即計算 問題上有相似的觀點,但在思考是怎樣的計算問題 上觀點完全不同 4。從近年的研究成果來看,體驗 認知理論對人的感知與認知機制能夠給出更好的解 釋,有很多理由讓人相信這個理論的正確性,雖然 現在還不能完全否定心智的計算理論。
心智的計算理論以意識為主要物件,基本不考慮下意識 ;只關心人腦或心智,而不關心身體,對 這個理論來說,身心是可以分開的,智慧可以獨立 於身體而存在。體驗認知理論關注的是人腦和身體 的統一體,強調下意識對意識的影響,身體對人腦 或心智的影響 ;對這個理論來說,身心是不能分開 的,(人的)智慧不可能獨立於身體而存在。心智 的計算理論中的計算是意識中的符號特徵的操作。 體驗認知理論中的計算是下意識中的神經表徵的操 作,其結果浮現於意識中成為表象。圖4 給出了兩 個理論的對比。
圖 4心智的計算理論與體驗認知理論的對比
人工智慧
在人工智慧 60 多年的歷史中,一直有符號主義 (symbolism)和連線主義 (connectionism)之爭。前 30 年研究的重點是知識與推理,占主導地位的是符 號主義,後30 年特別是近十年研究的重點是機器 學習,特別是深度學習,占主導地位的是連線主義。 這與心智的計算理論與體驗認知理論的發展在時間 上有一定的對應關係。認知科學和人工智慧本來就 是相互影響的兩個學科。
深度學習的重要概念是人工神經網路和神經表 徵。神經表徵將影象、語音和語言的內容都表示為 實數向量。人工神經網路是對各種表徵進行操作, 從而完成各種感知、認知的模式識別任務的機器學 習模型。深度學習的“神經表徵”與體驗感知理論 的“神經表徵”不盡相同,但也有相通之處。人工 神經網路和生物神經網路具有不同的機制,後者借 鑑了前者的原理。
結語
思考即計算這一命題是認知科學與人工智慧的核 心問題。圖靈和馮·諾伊曼時代以來,其正確性就不 斷被一些事實所佐證。計算機在數值計算上早已超過 人類,近年在智力競賽、圍棋上又完勝人類,在影象 分類、語音識別、機器翻譯上也接近人類。這些說明 對人類來說屬於思考的問題,在計算機上都可以實現。 由此看來,影象理解、語言理解等現在看來還非常困 難的問題,未來將有希望在計算機上實現或部分實現, 原因是這些問題的本質也是人的思考。
心智的計算理論和體驗認知理論從不同角度對 “思考是怎樣的計算”給出了答案。前者認為思考 是符號計算,後者認為思考是神經計算。雖然現在 沒有確定性的結論,但體驗認知理論似乎對人的思 考機制給出了一個令人信服的解釋。近年深度學習 的巨大成功說明基於神經計算(人工神經網路)的 資訊處理能更好地實現人的感知與認知能力。希望 體驗感知理論的研究取得更大的進展,為人工智慧 提供更多的啟發和引導。
如果智慧和身體不可分割的假說成立,那麼構建 像人一樣的智慧系統就需要從開發智慧系統的“身體” 入手,讓它們在與環境的互動中獲得智慧,這似乎意 味著要走一條非常遙遠而艱難的路徑。但現實中往往 並不需要構建像人一樣的智慧系統,很多情況下能 得到輔助人的智慧工具就足矣,所以問題可以被簡 化,這時體驗認知理論仍然具有借鑑意義。
註釋
-
1這裡說的“思考”並沒有嚴格定義,一般包括認知和感知。
-
2也有人譯作“具身認知”理論。
-
3形狀:“天空中飛翔的老鷹”與“躲在巢中的老鷹”。顏色:“放在櫥櫃中的牛排”與“放在餐盤上的牛排”。
-
4其實這兩個學派都有不同的學者,他們對具體問題的觀點不盡相同。
參考文獻
-
[1] Proudfoot D.What Turing himself said about the imitation game[J]. IEEE Spectrum , 2015, 52(7):42-47.
-
[2] 蒲慕明,腦科學給人工智慧帶了來什麼?[OL].[2016-08-27]. https://blog.csdn.net/happytofly/article/ details/80125000.
-
[3] The Neuron and Nerve System, Khan Academy.
-
[4] Zalta E N, ed. Computational Theory of Mind[M]// Stanford Encyclopedia of Philosophy, 2015.
-
[5] Pinker S.The Language Instinct[M].William Morrow and Company, 1994.
-
[6] Pinker S.How the Mind Works[M]. W. W. Norton & Company, 1997.
-
[7] Zalta E N, ed. The Chinese Room Argument[M]// Stanford Encyclopedia of Philosophy, 2014.
-
[8] Zalta E N, ed. Embodied Cognition[M]//Stanford Encyclopedia of Philosophy, 2015.
-
[9] Damasio A. Descartes' Error: Emotion, Reason, and the Human Brain[M].Penguin Books, 2005.
-
[10] Lakoff G. Cascade Theory: Embodied Cognition and Language from a Neural Perspective[R]. Central European University, 2013.
-
[11] Bergen B.Louder Than Words: The New Science of How the Mind Makes Meaning[M].Basic Books, 2012.
作者介紹
李航:中國計算機學會(CCF)高階會員,《中國計算機學會通訊》(CCCF)特邀專欄作家。 位元組跳動科技有限公司人工智慧實驗室總監(Director of AI Lab)。主要研究方向為自然語言處理、資訊檢索、機器學習等。