強化學習的歷史和學習部落格網址

阿新 • • 發佈：2018-11-04

強化學習推薦學習網站：莫凡部落格https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/

1.強化學習的歷史發展

1956年Bellman提出了動態規劃方法。
1977年Werbos提出只適應動態規劃演算法。
1988年sutton提出時間差分演算法。
1992年Watkins 提出Q-learning 演算法。
1994年rummery 提出Saras演算法。
1996年Bersekas提出解決隨機過程中優化控制的神經動態規劃方法。
2006年Kocsis提出了置信上限樹演算法。

2009年kewis提出反饋控制只適應動態規劃演算法。
2014年silver提出確定性策略梯度（Policy Gradents）演算法。
2015年Google-deepmind 提出Deep-Q-Network演算法。

2.強化學習的介紹

Supervised learning：監督學習有標籤，能告訴你訓練結果的對與錯。可以看成根據監督者的先驗知識提供的先例進行監督學習。
Unsupervised learning：非監督學習無標籤，演算法能夠通過資料之間的關聯性將資料分類進行處理。
Reinforcement learning：強化學習的目標是使得回報最大化。強化學習和非監督學習的關鍵部分就是回報的選擇。強化學習是學習狀態和行為之間的對映關係，以使得數值回報達到最大化。換句話說，在未知採取何種行為的情況下，學習者必須通過不斷嘗試才能發現採取哪種行為能夠產生最大回報。

隨機博弈包括兩個框架：
1.馬爾科夫決策過程（MDP)：MDP包括一個智慧體和多個狀態。
2.矩陣博弈：矩陣博弈包括多個智慧體和一個狀態。

隨機博弈可以看成是多個智慧體和多個狀態的問題。

3.常用強化學習演算法介紹

強化學習從提出到現在，也差不多半個世紀左右。到目前為止，常見的強化學習的演算法有下面幾種，以及不同的分類。

這裡寫圖片描述

Model-free：不嘗試去理解環境, 環境給什麼就是什麼，一步一步等待真實世界的反饋, 再根據反饋採取下一步行動。
Model-based：先理解真實世界是怎樣的, 並建立一個模型來模擬現實世界的反饋，通過想象來預判斷接下來將要發生的所有情況，然後選擇這些想象情況中最好的那種，並依據這種情況來採取下一步的策略。它比 Model-free 多出了一個虛擬環境，還有想象力。

Policy based：通過感官分析所處的環境, 直接輸出下一步要採取的各種動作的概率, 然後根據概率採取行動。
Value based：輸出的是所有動作的價值, 根據最高價值來選動作，這類方法不能選取連續的動作。
Monte-carlo update：遊戲開始後, 要等待遊戲結束, 然後再總結這一回閤中的所有轉折點, 再更新行為準則。
Temporal-difference update：在遊戲進行中每一步都在更新, 不用等待遊戲的結束, 這樣就能邊玩邊學習了。
On-policy：必須本人在場, 並且一定是本人邊玩邊學習。
Off-policy：可以選擇自己玩, 也可以選擇看著別人玩, 通過看別人玩來學習別人的行為準則。

--------------------- 作者：術君閣來源：CSDN 原文：https://blog.csdn.net/qq_20499063/article/details/78762596?utm_source=copy 版權宣告：本文為博主原創文章，轉載請附上博文連結！

強化學習的歷史和學習部落格網址

強化學習推薦學習網站：莫凡部落格https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/ 1.強化學習的歷史發展 1956年Bellman提出了動態規劃方法。

程式設計師如何鍛鍊程式設計思維(學習方法)(轉自部落格園)

1.明確學習目的學習程式設計對大多數IT業人員來說都是非常有用的。學程式設計，做一名程式設計人員，從個人角度講，可以解決在軟體使用中所遇到的問題，改進現有軟體，可以為自己找到一份理想的工作新增重要得砝碼，有利於在求職道路上謀得一個好的職位；從國家的角度，可以為中國的軟體產業做出應有的貢獻，一名

前端學習常用網站及部落格

掘金：https://juejin.im/ 部落格：http://jspang.com/ 初學者看一下張鑫旭的部落格：https://www.zhangxinxu.com/ 阮一峰的js：http://javascript.ruanyifeng.com/ 以及JQuery常用元件：h

深度學習比較好的部落格

1.http://www.jianshu.com/p/5a17f5fef3e0 大神關於深度學習的理解 2.http://blog.csdn.net/u010900574/article/details/51992156 卷積神經網路

記錄一些用來學習設計模式的部落格及書籍

一、設計模式的六大原則： 1、開閉原則（Open Close Principle）開閉原則就是說對擴充套件開放，對修改關閉。在程式需要進行拓展的時候，不能去修改原有的程式碼，實現一個熱插拔的效果。所以一句話概括就是：為了使程式的擴充套件性好，易於維護和升級

深度學習入門和學習書籍

cer 書籍資源 ews iam 圖像 php eas 平臺連接深度學習書籍推薦：深度學習（Deep Learning） by Ian Goodfellow and Yoshua Bengio and Aaron Courville 中文版下載地址：h

學習方法和學習工具

學習方法和學習工具工具 &nbs

分享雲及人工智慧的一些學習資源和學習心得

很久沒寫新的東西了。這段時間除了適應新的工作，其他時間都獻給了各種學習~ 在這個提倡終身學習的年代，面對急劇更新的IT行業，不學點雲端計算和人工智慧啥的，總感覺會被時代拋棄。所以，終於找到個空閒時間，在有WiFi的“復興號”上開始一

我的個人簡介和其他部落格文章我寫的Angular相關的文章

歡迎來到我的部落格。我叫葉偉民，英文名叫Billy。我目前正在創業，我創立了廣州神機妙算大資料。這是我的管理/創業類文章最近我在跟陳希章一起學習人工智慧, 歡迎你加入一起學習. 我喜歡寫.net程式，我目前正在復活廣州.net俱樂部。這是廣州地區.net相關活動的文章。我打算在12月份

分享一些自己的學習歷程和學習方法

學習的三個階段第一階段：消費者階段我在快上高中的時候，開始接觸的程式。那會兒家裡有一本 Visual Basic 的書，30 多頁左右，也是家裡唯一一本計算機類書籍，是我哥學校發的一本課外書，他對計算機貌似沒有什麼興趣，就一直堆在家裡，直到無意中被我翻到。書裡的程式格外的簡單，幾行簡單的英語程式碼，就

分享一些自己的學習過程和學習方法

每天，都會有人在微博上私信我，問我關於學習和成長的問題。這種問題我一般都不會回覆某個j，畢竟每個人的情況不一樣，每個人對待事物的性格也不一樣，我不能誇下海口的說，你看某本書幾個月就能如何如何，我能做的多數時候只是鼓勵鼓勵，其次我也從不認為我已經成長到一個多高的境界上，讓我

分享一些自己的學習過程和學習方法（來自daimajia）

每天，都會有人在微博上私信我，問我關於學習和成長的問題。這種問題我一般都不會回覆某個j，畢竟每個人的情況不一樣，每個人對待事物的性格也不一樣，我不能誇下海口的說，你看某本書幾個月就能如何如何，我能做的多數時候只是鼓勵鼓勵，其次我也從不認為我已經成長到一個多高的境界上，讓我去給別人做指導，我還是當之有愧的。

談談部落格園和寫部落格，以及通過部落格遇到的那些人

不知不覺，部落格園園齡已經5年11個月了，還曾依稀的記得，那是研究生畢業設計搞完了，有沒有什麼事情可以做，只能每天背個屌絲的書包去學院機房，狂賺CSDN積分，曾經高峰期的時候CSDN積分達到16000分，不過由於這幾年免費分享給Newlife群使用，已經只剩下500分

我今天才知道：學習程式設計和學習程式語言是兩碼事

![](https://img2020.cnblogs.com/blog/759200/202008/759200-20200828162434507-196711401.jpg) > * 原文地址：[Learning programming is different from learning a

angular2+和ionic2+學習部落格和問題記錄

原文出處：https://blog.csdn.net/qq_16660859/article/details/78475638 Angular4.x+Ionic3 踩坑之路之打包時出現JAVASCRIPT HEAP OUT OF MEMORY的幾種解決辦法 https://segme

必讀的AI和深度學習部落格

技術的提高是需要日積月累的努力，除了看書看視訊外，一個很有效的提高方法當然就是閱讀大牛的部落格文章了，所謂聽君一席話，勝讀十年書，雖然讀大牛的文章沒有這麼誇張，但也可以讓你解決技術上的一些難題，可以學習大牛的學習方法和思維方式，受益匪淺！接下來會介紹一些 AI 和深度學習方面的部落格。原文：Must-

開啟我的部落格記錄學習和收穫

** 開啟我的部落格記錄學習和總結 ** 　　在過去的本科生活中，自己也曾完成過好多個相關的專案，例如利用微控制器實現閉環溫度控制系統，利用Verilog實現了多功能數字鐘（含整點報時功能），參加過全國大學生積體電路設計大賽並獲得了一等獎，主要的設計了基於磁共振的無線充電裝置。可是回

QT學習資料部落格：《Qt 實戰一二三》和《Qt 學習之路 2》等

參考原貼 https://blog.csdn.net/dpsying/article/details/80615320 目的：僅供自己學習，並無他用。參考書目： 1《Qt5開發及例項》（Qt 5.8為平臺）

最近半年的學習和部落格計劃（2018.6）

先對之前的半年計劃的成果進行總結，順便提出未來半年的計劃。關於前端：完成了高階JS的學習，並且更新的系列部落格，JS學得很紮實。考慮到JQuery實在是過時了，就沒有再看了。關於Angular，因為在之前的公司離職了，沒有再用了。反而因為工作的關係，接觸到了小

【songrenqing】部落格主要是為了記錄自己在學習python中遇到的問題，解決問題的方法。有些問題早就存在，解決問題的方法也有很多，我只是把這些存在的問題和自己經過測試成功的方法，重新記錄下來，便於自己學習和重溫。

部落格主要是為了記錄自己在學習python中遇到的問題，解決問題的方法。有些問題早就存在，解決問題的方法也有很多，我只是把這些存在的問題和自己經過測試成功的方法，重新記錄下來，便於自己學習和重溫。...

強化學習的歷史和學習部落格網址

強化學習推薦學習網站：莫凡部落格https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/

1.強化學習的歷史發展

2.強化學習的介紹

3.常用強化學習演算法介紹

相關推薦