1. 程式人生 > >【思維論01】如何讓自己像打王者榮耀一樣發了瘋、石樂志的學習?

【思維論01】如何讓自己像打王者榮耀一樣發了瘋、石樂志的學習?

 

這是我思維導論的第1期,靈感來自另一位博主。視訊做完後會接著更新算法系列專欄~


 

我們玩王者榮耀,究竟是為了什麼

 

對於非職業玩家來說,打王者榮耀,是為了什麼?除去消遣時間這個普遍因素,是為了推掉對方水晶?還是拿到5殺?抑或只是為了和朋友一起,享受在遊戲中暢快地傾瀉技能的感覺?

這些都不是本質原因,單次的獲勝,或者5殺,並不能促使我們不斷開啟下一局遊戲。本質上,我們對遊戲的快感,都是大腦對遊戲反饋機制的一種獎勵,它由我們的多巴胺所決定。

人們常以為多巴胺等同於快感,但事實並非如此。多巴胺(dopamine)只是腦垂體腺中的前體物質,它不是快感本身,而是對快感的預期,或者說,對快感的追求。當你獲勝,或者拿到擊殺,你的腎上腺素、催產素以及內啡肽分泌增多,你會感到愉悅、興奮,當你被擊殺、水晶被推,你會感到沮喪、憤怒。但對於大腦神經來說,這些情緒只是暫時的體驗,突觸上的電訊號一觸即走,不帶走半點雲彩。而多巴胺所構成的訊號機制,才是決定你會不會接著玩下去,並且以後還會開啟遊戲的關鍵。

換句話說,多巴胺賦予你沉迷遊戲的慾望。在多巴胺的訊號機制中,它並不會讓你感到“我玩王者榮耀很爽”,而是讓你覺得“這把我能翻”、“下把一定贏”“再贏一把排位我就升段位了”。

也正由於多巴胺是直接作用於大腦的獎勵迴路,使得一個人即使對某件事感到厭惡,也會在多巴胺的作用下去做這件事。於是,一次又一次地,我們開啟手機或電腦,點開了遊戲,進入了排位,周而復始。

這,就是我們玩王者榮耀的根本原因。


 

反饋迴路

反饋迴路是一種“訊號-動作-反饋”機制,可以簡單描述為一個五元組系統

· 環境 – 你的互動環境,比如遊戲

· 狀態 – 你所處的狀態,比如擊殺、被擊殺、以及獲得勝利

· 動作 – 開啟遊戲,操作遊戲角色,或者關掉遊戲

· 更新 – 提高或降低你做出某個動作的概率。概率-可以理解為大腦訊號的強弱

· 獎勵 – 獲勝的愉悅,也就是快感預期

並且滿足以下4個規則:

  1. 當你進入遊戲,你會以不同的概率,在每一個時間點上,做出不同的動作

  2. 你的動作決定了下一刻你所處的狀態,每個狀態都對應一個獎勵,也即大腦所獲得的反饋

  3. 每一步動作,都不只影響下一步的反饋,也可能影響更遠的狀態和反饋

  4. 反饋可以為正,也可以為負

舉個例子,作為一個剛玩MOBA類遊戲的玩家,你只知道要推掉敵方水晶。當你進入遊戲(環境),你孤身進入敵方防禦塔範圍(動作),被擊殺(狀態),你的大腦感覺失望(獎勵)。於是,當你從泉水復活(環境),你孤身進塔的動作概率被降低(更新),你選擇跟隨兵線一起進入(動作),推掉了防禦塔(狀態轉移),並在數十個類似動作後,最終勝利(更遠狀態),你獲得了滿足(獎勵)。

根據獎勵結果,大腦判斷第二種路徑更好,因此下一次迴圈,你選擇跟隨兵線的概率會繼續增加,並隨之做出更多正確操作,最終加強這個正向反饋迴路的效果。這,也是職業選手得以脫穎而出的原因——他們的反饋機制更為迅速,且響應更快。


 

強化學習

 

這個反饋迴路,就是構成人工智慧中強化學習理論的基礎機制。強化(reinforcement),是指在不斷嘗試中,個體所學習到的反饋迴路在不斷更新,並最終優化到可能目標的過程。

它和監督式機器學習一樣,是構成人工智慧的基石。

監督式機器學習,就好比你做歷年真題,它由往年題目(舊資料)和答案(標籤)構成,通過做題,你獲得了從題目和答案中學習到的解題方法,並將這種方法應用到下一次考試中去。本質上,它學習出的是問題和答案之間的關係,這種關係就是模型。機器學習,只是把我們在過去學習中所做了十幾年的事情,複製到了計算機上。

而強化學習,學到的是反饋迴路。反饋 (reward),即用來判斷這個行為是好是壞。一個優秀的強化學習系統,甚至不需要舊有的資料,就可以直接進行學習。

強化學習的反饋有延時,即有可能走了很多步以後,才知道以前的某一步的選擇是好還是壞,而監督式機器學習只學習方法,不考慮時間。這樣的思考方式其實並不與現實相似,因為我們所做的每個選擇,所處的每個環境,都與過去的許多行為有關,它們極其複雜,沒有一個固定、線性的模式可被學習,但通過強化學習,可以儘量逼近可能存在的完美模型。

從生物學的角度講,強化學習更符合人類的進化方式,從古代的尼安德特人就已經開始:不符合正反饋迴路的行為或族群,註定被“環境”所“更新”,也意味著淘汰。人類之所以進化成人類,是因為除了總結舊有知識並發現規律(機器學習)外,還會不斷嘗試和探索(強化學習)。

 

現如今,最完善的強化學習系統,就是谷歌的AlphaGo。每日與自己對弈數十萬局,根據對弈結果,強化棋盤落子的正反饋迴路。如果說,監督式機器學習是一種方法遷移,那強化學習則是方法探索。在某種意義上,強化學習更接近想象中的人工智慧。

現在,讓我們回到問題中來。

學習,究竟是為了什麼?

不打遊戲,是為了更好的學習。更好的學習,是為了更好的生活。那,什麼是更好的生活?可以痛快地玩遊戲,算不算更好的生活?我們從小被教導要好好學習,卻從來沒有真正思考過為什麼要好好學習。如果連成因、機制都不瞭解,看再多的思維教學、學習導論,也沒有辦法讓自己真正地執行“好好學習”這件事。

讓我們思考一個問題:

“我們真的厭惡學習嗎?”

 

其實,用強化學習的角度看,學習和玩王者,本質上沒有區別。

學習是一個枯燥的過程,你要背單詞、背公式,要寫作、還要練習。玩遊戲也是如此:你要記憶每個英雄的技能、走位技巧、出裝順序,也要通過很多次的對局來練習、提高技能。

區別在哪裡?在學習系統中,它們都是同一種東西,即“動作”,動作無所謂枯燥和有趣,關鍵看它所處的“狀態”和預期的“獎勵”。

人類厭惡枯燥的東西,所以當學習變得索然無味,我們就會討厭學習,這是天性。我們在學習時,並不能獲得和做愛一樣的快感,否則的話,沒有人會討厭學習。但是,有的人卻能堅持學習並樂在其中,為什麼?答案是反饋機制。

當學習的“動作”帶給人的長期收益為正,就會獲得我們所說的快感預期,也即前文提到的多巴胺。如果不靠多巴胺,只靠意志力去堅持學習,會怎麼樣呢?就像不斷繃緊一根弦,強行違背身體的感覺,到最後早晚會斷掉。

我們絕大多數人,沒有移山填海的毅力,因此這樣的學習方式,是不科學的。大腦發出指令的動機其實和海洋館的海豹一樣,是為了眼前那一條小魚乾,頂一次球,給一條魚,再頂一次,再給一次。也就是說,只有不斷收到正向的反饋,才會自然而然地保持前進的動力。

本質上,這只是把“學習”動作的反饋迴路,搬到了遊戲上來。搞清楚這點,我們就可以思考,如何讓自己像打王者榮耀一樣的學習

 


 

反饋強化

 

先讓我們回到遊戲本身。遊戲帶給玩家的反饋是否足夠,是決定一個遊戲是否有趣的基礎。而遊戲廠商在做的事情,就是將反饋迴路,竭盡所能的加強和加快,也即提高動作的收益,比如推掉水晶,你獲得的不只是勝利,遊戲分數也會提升。或者增加不確定性,讓玩家耗費更多次的嘗試,來確定反饋迴路,比如部分面板的隨機性。

簡單來說,常見的遊戲,都是基於以下三種強化模式,來對遊戲結果的反饋機制進行加強:

  • 一種是“固定比率強化”(Fixed Ratio),比如“打敗10個哥布林一定可以升1級”,“連勝10場一定可以升段”

  • 一種是“固定時距強化”(Fixed Interval),比如“《皇室戰爭》裡的白銀寶箱3小時後一定可以解鎖”

  • 還有一種“不固定比率強化”(Variable Ratio),也就是“《陰陽師》每抽一次卡,有1%的機率抽到SSR”

這三種方法,將強化學習中的不確定性獎勵,固化成為確定性收益,比如分數、卡牌、等級。

分別為遊戲廠商帶來了留存率,線上人數,和淨收入。

 


 

我們該怎麼做?

 

學霸和學渣的區別,就在於對快感的預期不同。預期不同,形成的反饋也就不同。成為學霸,需要不斷強化自己的反饋迴路。最基本的,從以下三點做起

1. 縮短反饋週期

反饋週期太長,意味著半衰期長。半衰期是什麼,下期文章我會講。這裡只需要知道,反饋週期太長是大多數人無法堅持的主要障礙。舉個例子,有的人高中時成績很好,為何到大學時成績就一落千丈?有人說,是因為高考之後人鬆懈了,就容易變笨。很可惜,這個說法或許有道理,卻並沒有研究結論支撐。真正的原因,其實是反饋週期變長了。

在高中時,一個月會有3-4次測試,你努力學習一個周,就能看到努力的效果,班級名次很容易進步。接著,同學吃驚,家長老師表揚,你覺得特別很開心,打了雞血一樣繼續學習,這種感覺可能會持續幾天,還沒等它消退,下一次考試又來了。不出意外,你會接著獲得下一次正反饋。在這樣的反饋迴路中,“動作”帶來的“獎勵”被極大加速,整個系統變得完全正向。

上了大學以後,認真學習一個學期,才能有一個好的GPA,這個反饋週期變長了幾倍,而且也很少有人因為GPA受到表揚,因此,大多數人堅持不來。取而代之的,很多人習慣考試前1個周開始執行“學習”動作,因為只需要1個周就可以獲得相當可觀“獎勵”,比如及格。所以,想辦法減少你的反饋週期,比如,將大目標分解為小目標,會更容易獲得成就感。

 

2. 增加反饋強化

我們提到過三種反饋強化模式,那麼把“遊戲”替換成“學習”,我們要做的是什麼呢?可以是考試累計進步10名就請自己吃燒烤,也可以是隔壁班的小愛刮目相看的“SSR”,又或是再看3小時書就去打王者榮耀。

對應到遊戲廠商的三種收益上來,就是提高學習留存率,延長學習時間,增加學習收益。

 

3. 調整反饋難度

斯坦福大學行為科學研究人員曾發表過一篇論文,大意是玩家在高難度遊戲獲勝的那一刻,大腦多巴胺迴路會異常啟用。也就是說,適當的高難度遊戲,能夠最大化地啟用反饋迴路。這也是各大競技類遊戲排位賽機制的由來,通過匹配不同難度的對手,即不會讓你一直輸下去,也不會讓你永遠贏。它們塑造一種“升段”“掉段”的獎勵機制,讓你的反饋迴路一直處於半啟用狀態。

在學習中,如何設定難度,需要根據個人情況制定,比如,下一次考試提高10分,和成為班級第一,就是兩種不同的難度。難度可以遞進,既不要太簡單,也不能太難。

一旦大腦形成了正反饋迴路機制,那麼嘗過一次甜頭,食髓知味,你的動力將會更加充足,久而久之,甚至會享受學習這件事情本身,像打王者一樣石樂志一般的學習,最終愛上學習。這,就是學霸的誕生規則。

關於反饋機制,其實還有很多東西可以講,具體的學習方法也遠不止這些,有一種叫做“心流”的東西,是增強學習能力的利器。但是因為時間關係,我不想把文章寫的太長。更多的學習方法和強化學習知識,歡迎關注我的下一期文章。

文章之後會製作成視訊發在B站,也謝謝大家的閱讀~