1. 程式人生 > >Reinforcement Learning An Introduction~Limitations and Scope

Reinforcement Learning An Introduction~Limitations and Scope

1.4 限制和範圍

       強化學習在很大程度上依賴於這種稱為狀態的概念,它是作為政策和價值函式的輸入,以及作為模型的輸入和輸出。非正式地,我們可以將狀態視為向智慧體傳達,在特定時間某種“環境如何”的訊號。我們在此處使用的狀態的正式定義,由第3章的馬爾可夫決策過程的框架給出。然而,更一般地說,我們鼓勵讀者遵循非正式的含義,並將狀態視為是智慧體對其環境來說,可獲得的任何資訊。實際上,我們假設狀態訊號是由一些名義上屬於智慧體環境的預處理系統產生的。我們本書中沒有解決構建,改變或學習狀態訊號的問題(除了第17.3節中的簡要介紹)。我們採用這種方法並不是因為我們認為狀態表示不重要,而是為了完全關注決策問題。換句話說,我們主要關心的不是設計狀態訊號,而是決定採取什麼動作作為任何狀態訊號可用的函式。

       我們在本書中考慮的大多數強化學習方法都是圍繞估計價值函式設計的,但這對於解決強化學習問題,並不是絕對必要的。例如,諸如遺傳演算法,遺傳程式設計,模擬退火和其他優化方法從不估計價值函式。這些方法應用多個靜態策略,每個策略在較長時間內與單獨的環境例項進行互動。獲得最多獎勵的策略及其隨機變化將延續到下一代策略,並重復該過程。 我們稱之為這些進化方法,因為它們的操作類似於生物進化,即使它們在個體生命期間不學習,也能產生生物的具有熟練行為的方式。如果策略的空間足夠小,或者是可以構建的,或者如果有大量時間可用於搜尋,那麼好的策略是常見的或易於查詢的,那麼進化方法可能是有效的。此外,在可學習的智慧體無法感知其環境的完整狀態的問題上,進化方法具有優勢。

       我們的重點是強化學習方法,這些方法在與環境互動時學習,進化方法並不能夠。在許多情況下,能夠利用個體行為相互作用細節的方法比進化方法更有效。進化方法忽略了強化學習問題的許多有用結構:它們沒有使用他們正在尋找的策略是從狀態到動作的功能;它們沒有注意到一個情節在其生命週期中經歷了哪些狀態,或者它們選擇了哪些動作。在某些情況下,這些資訊可能會產生誤導(例如,當狀態被誤解時),但更常見的是它應該能夠實現更有效的搜尋。雖然進化和學習共享許多特徵並自然地協同工作,但我們並不認為進化方法本身特別適合強化學習問題,因此,我們不在本書中介紹它們。