強化學習相關資源

阿新 • • 發佈：2017-05-06

ren info round count question posit pre tar tor

　　最近因為某個不可描述的原因需要迅速用強化學習完成一個小實例，但是之前完全不懂強化學習啊，雖然用了人家的代碼但是在找代碼的過程中還是發現了很多不錯的強化學習資源，決定mark下來以後學習用

【1】如何用簡單例子講解 Q - learning 的具體過程？

　　https://www.zhihu.com/question/26408259

【2】最簡單的講解Q-Learning過程的例子

　　http://mnemstudio.org/path-finding-q-learning-tutorial.htm

　　註：這個網站上還附帶了代碼，可惜都是用C++，java寫的，看不懂，哎，感覺是一個不錯的資源網站

　　這篇博客是對應的中文翻譯最簡單的講解Q-Learning過程的例子

　　還有人用python按照上述教程完成了復現：

　　https://github.com/JasonQSY/ML-Weekly/blob/master/P5-Reinforcement-Learning/Q-learning/Q-Learning-Get-Started.ipynb

具體代碼如下：

import numpy as np
import random

In [44]:

# initial
q = np.zeros([6, 6])
q = np.matrix(q)

r = np.array([[-1, -1, -1, -1, 0, -1], [-1, -1, -1, 0, -1, 100], [-1, -1, -1, 0, -1, -1], [-1, 0, 0, -1, 0, -1], [0, -1, -1, 0, -1, 100], [-1, 0, -1, -1, 0, 100]])
r = np.matrix(r)

gamma = 0.8

In [45]:

# training
for i in range(100):
    # one episode
    state = random.randint(0, 5)
    while (state != 5):
        # choose positive r-value action randomly
        r_pos_action = []
        for action in range(6):
            if r[state, action] >= 0:
                r_pos_action.append(action)
        
        next_state = r_pos_action[random.randint(0, len(r_pos_action) - 1)]
        q[state, next_state] = r[state, next_state] + gamma * q[next_state].max()
        state = next_state

In [46]:

# verify
for i in range(10):
    # one episode
    print("episode: " + str(i + 1))
    
    # random initial state
    state = random.randint(0, 5)
    print("the robot borns in " + str(state) + ".")
    count = 0
    while (state != 5):
        # prevent endless loop
        if count > 20:
            print(‘fails‘)
            break
            
        # choose maximal q-value action randomly
        q_max = -100
        for action in range(6):
            if q[state, action] > q_max:
                q_max = q[state, action]
            
        q_max_action = []
        for action in range(6):
            if q[state, action] == q_max:
                q_max_action.append(action)
                
        next_state = q_max_action[random.randint(0, len(q_max_action) - 1)]
        
        print("the robot goes to " + str(next_state) + ‘.‘)
        state = next_state
        count = count + 1

【3】這個人的博客有強化學習系列

　　http://www.algorithmdog.com/ml/rl-series

【4】http://blog.csdn.net/u012192662/article/category/6394979 技術分享

　　粗看感覺寫的還可以

強化學習相關資源

ren info round count question posit pre tar tor 　　最近因為某個不可描述的原因需要迅速用強化學習完成一個小實例，但是之前完全不懂強化學習啊，雖然用了人家的代碼但是在找代碼的過程中還是發現了很多不錯的強化學習資源，決定mark下

強化學習相關問題

一次看到蘇克在知乎寫的強化學習問題，自己順便學習了一下，可能總結有不對的地方，希望朋友們指出。 1. 強化學習與監督學習的區別強化學習就是通過不斷與環境互動，利用環境給出的獎懲來不斷的改進策略（即在什麼狀態下采取什麼動作），以求獲得最大的累積獎懲。主要區別：

Linux內核(5) - 內核學習的相關資源

背景大量 vmm 代碼 linux min 建議資源自己 “世界上最缺的不是金錢，而是資源。”當我在一份報紙上看到這句大大標題時，我的第一反應是——作者一定是個自然環保主義者，然後我在羞愧得反省自身的同時油然生出一股對這樣的無產主義理想者無比崇敬的情緒來。

深度學習及計算機視覺相關資源(不斷更新)

LSTM: http://colah.github.io/posts/2015-08-Understanding-LSTMs/ 深度學習領域PyTorch專案-git原始碼整理 https://blog.csdn.net/u012969412/article/details/774792

深度強化學習資源介紹

加拿大阿爾伯塔大學計算機系博士 Yuxi Li 的深度強化學習綜述論文，該論文概述了在深度強化學習（Deep Reinforcement Learning）方面喜人的進展。而這本剛上線的《深度強化學習》手稿對前面的版本《深度強化學習綜述》做了大規模的改進；從一年多前的 70 頁擴充到現在的 150 頁。

微信小程式小白總結全攻略2-學習路線與相關資源和除錯工具

廢話都在前一章講了，這裡直接切入正題。下面以我自己的微信小程式全棧學習路線（淺嘗輒止式的），按照時間順序往下依次列出，並附上對應的除錯工具和方法、學習資源以及我的評價一、前端部分（一）HTML（超文字標記語言：HyperText Markup Language）除錯工具：

機器學習相關問題與資源下載。

1、執行如下程式碼: import numpy from numpy import * import matplotlib.pyplot as plt dataset = [[-0.017612,14.053064],[-1.395634,4.662541],[

【學習】QA相關資源/資料集/論文列表

近期有哪些值得讀的QA論文？ https://blog.csdn.net/m0epNwstYk4/article/details/81008901 摘要轉自：愛可可-愛生活 Papers Memory Networks End-To-End Memory Ne

java免費相關資源，書籍，視訊，學習資料分享

Java資源獲取方法步驟： 1：關注微信公眾號“摘星族”，會彈出以下頁面 2：在公眾號下方輸入你需要的書籍名稱，建議全名 3：點選進去閱讀圖文資訊，點選下方的閱讀全文獲取資源連結地址更多的資源敬

做機器學習相關工作，需要哪些技能 ?（附資源連結）

來源：Python開發者（PythonCoder）原文連結：http://blog.jobbol

MIT6.S094深度學習與無人駕駛整理筆記（1）——————課程相關資源

MIT6.S094課程：用於深度學習的框架： Google:Tensorflow Facebook:Torch Intel:neon Microsoft:CNTK JS-ConvNet JS Theano

計算機視覺、模式識別、機器學習相關方向資源

牛人主頁（主頁有很多論文程式碼） Serge Belongie at UC San Diego Antonio Torralba at MIT Alexei Ffros at CMU Ce Liu at Microsoft Research New England

資源 | UC Berkeley CS 294深度強化學習課程（附視訊、學習資料）

來源：機器之心本文共4000字，建議閱讀10分鐘。本文主要介紹了課程中的強化學習主題，涉及深度強

深度強化學習（Deep Reinforcement Learning）的資源

Google的Deep Mind團隊2013年在NIPS上發表了一篇牛x閃閃的文章，亮瞎了好多人眼睛，不幸的是我也在其中。前一段時間收集了好多關於這方面的資料，一直躺在收藏夾中，目前正在做一些相關的工作（希望有小夥伴一起交流）。一、相關文章關於DRL，這方面的工作基本

資料庫基礎快速學習理解一張圖理解資料庫（附帶相關資源）第一天

資料庫資料庫管理系統：指一種操作和管理資料庫的大型軟體，用於建立、使用和維護資料庫，對資料庫進行統一管理和控制，以保證資料庫的安全性和完整性。使用者通過資料庫管理系統訪問資料庫中表內的資料。資料庫表資料庫中以表為組織單位儲存資料。

常用牛人主頁鏈接（計算機視覺、模式識別、機器學習相關方向,陸續更新。。。。）【轉】

short psu works charles 貝葉斯 learning 數學 ocr 相關轉自：http://blog.csdn.net/goodshot/article/details/53214935 目錄(?)[-] The Kalman

常用牛人主頁鏈接（計算機視覺、模式識別、機器學習相關方向,陸續更新

bject detail ebo abi err 技術 arch college eoj 牛人主頁（主頁有很多論文代碼） Serge Belongie at UC San Diego Antonio Torralba at MIT Alexei Ffros at CMU C

學習筆記TF037:實現強化學習策略網絡

屬於控制返回獎勵渲染動作 ren 虛擬初始強化學習(Reinforcement Learing)，機器學習重要分支，解決連續決策問題。強化學習問題三概念，環境狀態(Environment State)、行動(Action)、獎勵(Reward)，目標獲得最多累

強化學習(David Silver)4：免模型學習

叠代 ack 方差自舉組合 a* 最小二乘求和效率 0、為什麽免模型學習？ PS：課程中叠代的值是值函數；周誌華老師的西瓜書中叠代的是狀態值函數；課程中叠代的是狀態-動作值函數 1、蒙特卡洛方法：直接通過采樣求和（v(s) = S(s)/n(s)，其中S(s) =

強化學習(David Silver)4：免模型控制

sil 對比 rsa isod 頻率模型找到使用采樣 1、一般的策略叠代優化的方法 1)策略評估 2)策略改善 2、model free的策略叠代優化的方法基於v(s)的優化需要MDP，基於Q的優化不需要，所以策略是 1)使用Q函數策略評估 2)使用厄普西隆貪心策

強化學習 相關資源

相關推薦

強化學習相關資源