1. 程式人生 > >強化學習,深度學習,深度強化學習

強化學習,深度學習,深度強化學習

1.深度學習:任何通過神經網路的訓練和學習都是深度學習

2.強化學習:基於MDP(馬爾可夫決策過程),通過狀態(state),決策(action),以及獎勵(reward)和轉化概率來進行學習的就是強化學習,通過求Q*(state,action),求pai*,複雜一點就可能不知道獎勵和轉化概率

3.深度強化學習:深度學習和強化學習的結合,就是通過定義一個函式Q(s,a)=w1*feature1(s,a)+w2*feature2(s,a)+..+wn*featuren(s,a),利用神經網路擬合Q(s,a)來求出[w1,w2,..,wn]的學習就是深度強化學習.