強化學習第4課:這些都可以抽象為一個決策過程

上圖是一個一般的 決策過程 ,裡面包括代理和環境。
這個過程有兩步,首先你的代理會觀察環境的一些特質,有時是感測器感知到的,有些是輸入的使用者特徵。
然後 代理 會選擇一個行為,將這個行為反饋給環境。
之後代理不僅僅會收到在這個行為下的 環境 的反饋,同時還以某些方式,影響著環境改變著環境。
例如,你不僅收到了使用者是否點選了你的橫幅廣告的反饋,還影響著你的使用者基礎。
圖中這條線下面一般我們是沒有辦法控制的,環境,環境中的其他代理,其他變數。我們可能都控制不了。
這個就像一個黑盒子,我們沒有辦法知道它的內部原理。不知道他是如何觀察的,如何給出反饋的。
而在這條線上面,agent 這裡可以做任何事,可以用任何監督式學習方法。
強化學習除了可以推薦電影,書,新聞,在 機器人 領域更是有很多應用,可以教機器人踢足球,做煎餅等等等。
自動駕駛也是另一種 dynamic system,另一種機器人,你要訓練他如何不撞東西,開得更有效率,用更少的能源,更有效的時間。
例如我們有一個雙足機器人,我們要教它如何走,不摔跤。
這時可以這樣定義它的強化學習:
observation :就是機器人能感知的東西,例如肢體的角度,攝像頭的輸入。
action: 就是你的機器人傳送給運動子系統的任何訊號,例如當機器人想要彎曲時會傳送電壓給各個關節上的電機。
feedback:這時你想要最大化的反饋可以定義為你的機器人在摔倒前所前進的距離。
雖然機器人和橫幅廣告是完全不同的領域,但是同樣可以形式化為一個相同的決策過程。
還有就是你會發現強化學習中80%的論文都研究如何教 agent 玩 遊戲 。
你要如何定義遊戲 agent 的 observation,action,feedback 呢?
observation:一系列的遊戲畫面或者聲音
action:控制桿按鈕
feedback:遊戲得分
強化學習在棋牌遊戲中也有成功的應用:AlphaGo ,TG Gammon,Simel
另外,在用 深度學習 優化不可微損失函式時,也可以用強化學習。
聽起來很理論,但是實際應用還很廣,例如在 翻譯系統 中,通常是要最小化交叉熵等損失函式。
而強化學習可以最大化你想要的一些其他指標,如 Blair。它可以讓你有更大的自由可以決定優化什麼目標。
學習資料:
ofollow,noindex">Practical Reinforcement Learning推薦閱讀歷史技術博文連結彙總
http://www.jianshu.com/p/28f02bb59fe5
也許可以找到你想要的:
[入門問題][TensorFlow][深度學習][強化學習][神經網路][機器學習][自然語言處理][聊天機器人]
Hello World !
This is 不會停的蝸牛 Alice !
:snail: 要開始 連載強化學習 系列啦!
今天開始我們一起來 每天 2 分鐘,get 強化學習的一個小知識吧!