1. 程式人生 > >人工智慧-強化學習02|HCNA-AI不得不瞭解的知識

人工智慧-強化學習02|HCNA-AI不得不瞭解的知識

強化學習(RL)的歷史

強化學習的早期歷史有兩條主線,這兩條主線冗長而又豐富,在歷史長廊中獨立成長,直至現代強化學習技術的興起,它們才開始交織在一起。其中一條主線源於學習理論的心理學部分,即試錯學習,這條主線貫穿了人工智慧一些早期的成果,並導致了20世紀80年代初強化學習的復興。

另一條主線則涉及使用值函式和動態規劃的最優控制問題,大多數情況下,這條主線並不涉及學習理論。兩條看似無關的研究線路最終被研究人員混合在一起,並由此衍生了第三條強化學習的研究主線,即時間差分方法。

所有三條研究主線在20世紀80年代後期彙集在一起,共同構建了現代強化學習的領域,而這一切的開始可以源於對一種控制系統的最優解決方案。

【試錯學習(trial and error learning)】

試錯學習指的是動物在反覆過程中完成學習。如小鳥的啄食成功率隨年齡而增加。研究者對渦蟲、蚯蚓、螞蟻、蜜蜂、魚類、鳥類等動物進行試錯實驗,發現它們均有試錯學習行為。要建立這種學習行為,動物必須先有某種欲求動機,對所欲求事物和某種刺激之間建立活動關係,然後發現這種刺激引發的自身活動是無法得到所欲求的事物,在反覆嘗試的過程中排除錯誤的活動方式直至成功。

Alan Turing在1948年的一份報告中描述了一種“pleasure-pain”學習系統:在某個場景中,當輸入給系統的配置所引發的動作,不能達到確定完成目標的效果時,就隨機丟棄一些刺激資料,當“痛苦”發生時所有輸入被終止,而當“快樂”發生時所有輸入被固定在這個場景,這是在人工智慧領域最早應用試錯學習的例子。但之後就進入了低潮期,很多本應在試錯學習上有建樹的人都轉移到了監督學習上,畢竟監督學習有更易達到的目標。

在20世紀60年代,工程學文獻首次使用了術語“強化”和“強化學習”來描述試錯學習的工程應用(例如Waltz和Fu,1965; Mendel,1966; Fu,1970 ; Mendel和McClaren,1970)。 特別有影響力的是Minsky的論文 《Steps Toward Artificial Intelligence》(Minsky,1961),其中討論了與試錯學習相關的幾個問題,包括預測,期望等。

【最優控制理論(Optimal Control Theory)】

20世紀50年代中期,最優控制理論被提出,它描述了一個受控動力學系統或運動過程,好的設計應該是能夠從一類控制方案中尋找最優的那個,使系統的運動在指定時間狀態範圍內獲得最優效能,減少隨機行為(不受控行為)。例如對於長跑運動員,如何確定在馬拉松比賽過程中體力的分配,使平均速度最快,獲得最好的名次。顯然這樣的問題往往是有數不清的解,而有一個人創造了提出了一種方法,為最優控制問題的解決方案奠定了基礎——Richard Bellman。

【動態規劃(Dynamic Programming Bellman 1957a)】

Richard Bellman,1920年8月26日生於美國紐約,1984年3月19日逝世,動態規劃的創造者。使用動力系統狀態、價值函式以及最優迴歸函式來定義一個函式方程(貝爾曼方程),通過對個方程求最優解,來實現最優控制問題數學表達的方法被稱為動態規劃。雖然當時這種方法被Bellman自己稱為“受維度詛咒的方法”,意指它的計算量隨狀態的增加呈現指數級增長。1957年Bellman提出動態規劃時,即用來求解最優控制問題中的馬爾可夫決策過程。

【馬爾可夫決策過程(MDPs,Bellman 1957b)】

馬爾可夫決策過程是最優控制問題的離散隨機版本,Ronald Howard(1960)為MDP設計了策略迭代方法。通常人們認為這種“最優控制”過程實際上屬於強化學習過程,特別是隨機行為的最優控制問題,所以動態規劃技術也是一種強化學習技術,畢竟動態規劃是增量進行的,也是需要迭代的,通過反覆的規劃嘗試尋找最優方案,以上這些就是現在最流行的強化學習技術的理論基礎和演算法基石。

【時間差分學習(Temporal-difference Learning)】

時間差分學習方法最早是源於心理學研究中的二階刺激(secondary reinforcers),例如某個女孩看到商店展示櫃有她很喜歡的一條裙子,這條裙子就是一階刺激,然而買裙子需要花錢,所以買裙子需要的錢就屬於二階刺激,這兩種刺激同時對應於“想要買漂亮裙子”這樣的慾望,但如果沒有一階刺激直接給予二階刺激,即並沒有遇到心儀的裙子,這個女孩只會把那些錢先存著,這時二階的“錢”與心理慾望“想要買漂亮裙子”無法聯絡起來。1954年Minsky首次發現這種心理學也那就或許可以應用在人工智慧上。

Arthur Samuel (1959)首次提出一種包含時間差分學習原理的的學習方法,並實施在他的跳棋專案中。所謂時間差分學習,意指使用當前獎勵與未來估值來共同計算當前狀態值的學習方法。當然,在時間差分學習貢獻最多的應該是Richard Sutton,他們將時間差分與試錯學習兩種概念結合起來,發明了一種結構“Actor-Critic”這個結構至今都出現在一些最新的研究論文中。Sutton 1988年的論文將時間差分學習方法確定為一種更具泛化能力的預測學習方法。

後續研究

接下來隨著神經網路等人工智慧技術的復興,強化學習也逐漸贏得了研究人員的深度關注:

1992 年 Watkins 提出 Q-learning 演算法;

1994 年 Rummery 提出 Saras 演算法;

1996 年 Bersekas 提出解決隨機過程中優化控制的神經動態規劃方法;

2006 年 Kocsis 提出了置信上限樹演算法;

2009 年 kewis 提出反饋控制只適應動態規劃演算法;

2013 年 Deepmind 提出使用 Deep-Q-Network 方法訓練 AI 玩 Atari2600 遊戲;

2014 年 silver 提出確定性策略梯度(Policy Gradents)演算法;

2015 年 Google-deepmind 提出正式的 Deep-Q-Network 演算法;

2016 年 Google-deepmind 提出 A3C 方法。

Deepmind

從流行角度講,最能體現強化學習價值的,就是2013年Deepmind使用Deep-Q-Network方法訓練AI玩Atari2600遊戲,實現了很好的遷移學習價值,即個別遊戲上訓練的AI,能夠很快學會玩其他並沒有專門訓練的遊戲。

在論文的 Background 部分,我們可以清晰看到 Q-Learning 的技術細節,包含馬爾可夫決策過程等基本演算法,而最精彩的 Deep Reinforcement Learning 部分,描述了他們是如何將 AI 玩遊戲時的錄影轉換成圖片,利用神經網路對 Q-Learning 過程進行迭代,自動優化最大獎勵等值的人們學習的思維方式,後續文章將會逐漸揭祕這些技術。


AI公會活動預告

7月5日 YESLAB-AI公會活動第二彈(僅面向公會會員)

內容主題:

a、介紹貓狗實驗的過程,實驗後總結的問題,簡述影象分類任務,如何提高準確率。

b、GPU主機選配與搭建完整指南。

c、深度學習技術分類介紹。

如何加入YESLAB-AI 公會?

第一式:凡7月8日前報名任何方向IE,將自動升級為會員;

第二式:報名HCNA-AI課程(7月9日),將自動升級為會員;

第三式:在7月9日前支付199元升級為會員(原價1999元)。

點選“技術文獻”可檢視論文連結。

網址:www.yeslab.net