【強化學習】強化學習的一些基礎理念【一】

阿新 • • 發佈：2020-04-12

Reinforcement Learning的關係
- Reward
- Agent
- environment
- Actions
- Observations
- RL的應用領域

Reinforcement Learning的關係

強化學習的關係圖，如下:

一共有五個核心概念:
兩個實體:Agent,Environment
三個互動的聯絡通道:Actions,Reward,Observations

Reward

Raward是一個scalar value可以在環境中定期得獲得。為了讓agent變得更可靠，讓它們的行為表現更好,因此，設計一個Reward會直接影響任務的成功與否。同時根據反饋，重新設定獎勵。讓它們更好的服務於環境，並對環境做出指導優化，為特定的環境提供較優的解決方案。[1]
總而言之，獎勵的目的是為了讓agent獲得成功，並且讓他的行為按照某種演算法進行強化（reinforcement）。可以說reward就是RL的核心。
讓大家的直觀感受，舉例如下：

股票交易，買賣股票的收益可以看作是Reward
圍棋比賽，獲得比賽勝利或者輸掉比賽，可以看作是Reward
電腦遊戲，玩dota2等電子競技，殺了多少敵人亦或者贏了比賽，可以看作是Reward

Agent

Agent是用於和environment互動的實體，它可以是人亦或者某個事物(電腦，某個機器等)。如何互動？發出一個具體的指令行動，對當前的環境進行觀察，獲取一個確定的獎勵值等。

舉例如下:

股票交易，一個交易者或者電子交易系統做出買賣股票的決定
圍棋比賽，參賽的人員或者AI電腦
電腦遊戲，玩遊戲的人或者AI電腦

environment

可以說是Agent以外的世界。就像人類一樣，我們所經歷的這個世界。而Agent和他自己世界互動的行為只有:執行動作，觀察當前的情況，獲得獎勵。

Actions

Action就是Agent在自己的Environment中做出的具體行為。例如：學生在學校裡面根據老師的要求，做家庭作業一般。
我們可以把行為分成兩種型別:discrete和continuous（其實就是概率中的離散型和連續型）。

discrete 就是相互獨立的有限集合。
continuous 一個動作之下它有著不同的程度。例如:你開車打方向盤和踩油門的時候，這個有程度之分。踩油門踩得重點和輕點。開車的速度是不一樣的。

Observations

Observations對於agent來說也是非常重要的。就像人類一樣，它會觀察它自己的這個世界。那如何判別呢？根據獲得的獎勵。例如：你受到了工資的簡訊，發現漲工資了，你就會露出喜悅的反饋。因此，如果獎勵是消極的，沒有用的，讓人迷惑的。那麼對於agent的訓練就非常的糟糕。最後，也達不到你要的成功行為。

對於Observations的直觀感受:

股票交易，整個交易市場，可以影響它的東西就很多了.例如：國家的政策，當前全球的經濟情況，包括最近我們知道的新冠肺炎疫情也會直接股票的收益。還有其他的炒股人員，他們的心態。現在最新的市場心理學，也會直接影響股票市場等。所以，如果Observations只是對於股票價格做分析的話，那麼它們得出的行為效果也不大。
圍棋比賽，它的整個環境是棋盤和他的對手，如果更廣義的去分析的話：還有他們的圍棋技術水平，他們的比賽心態，他們腦子裡面的邏輯思緒等。而Observations只能看到它目前的位置。
電腦遊戲，它的環境是一個電腦目前的狀態，玩遊戲的場景。如果是網路遊戲，還有和其他電腦互動的操作。而Observations就是一些螢幕的畫素點(pixels)和聲音。

RL的應用領域

[1]A. Y. Ng, D. Harada, and S. Russell. Policy invariance under reward transformations: Theory and
application to reward shaping. In International Conference on Machine Learning, volume 99,
pages 278–287, 19

【強化學習】強化學習的一些基礎理念【一】

Reinforcement Learning的關係

Reward

Agent

environment

Actions

Observations

RL的應用領域

【強化學習】強化學習的一些基礎理念【一】

【PHP常見面試題 PHP框架基礎-常見框架特性】PHP框架有哪些？你用過哪些？各自的優缺點是什麼？

【自動化測試技術QTP基礎系列十一】---Action之間的引數傳遞

【基礎知識十六】強化學習

【強化學習篇】--強化學習案例詳解一

【轉】強化學習（一）Deep Q-Network

【轉】強化學習（二）

第三章必須知道的一些基礎知識[DDT書本學習小甲魚]【3】

【習題集四】無監督學習和強化學習

【七月線上】強化學習 [一舉解開AlphaGo Zero的百勝奧祕] 完整版附課堂資料

【備忘】深度學習實戰決勝AI-強化學習實戰系列視訊課程

【dubbo基礎】dubbo學習過程、使用經驗分享及實現原理簡單介紹

【轉】深度學習基礎概念理解

【安全牛學習筆記】上傳漏洞基礎知識

【java】java學習之路-01-Linux基礎（一）

Linux學習之路--http-2基礎設置及訪問限制【15】---20180108

【學習筆記：計算幾何基礎3】 Convex Hull

【學習筆記：計算幾何基礎4】 Geometric Intersection

【學習筆記：計算幾何基礎5】 Triangulation

【面試題】Java面試題--基礎總結--個人學習記錄

【強化學習】強化學習的一些基礎理念【一】

Reinforcement Learning的關係

Reward

Agent

environment

Actions

Observations

RL的應用領域

相關推薦