【強化學習】強化學習的一些基礎理念【一】
目錄
- Reinforcement Learning的關係
- Reward
- Agent
- environment
- Actions
- Observations
- RL的應用領域
Reinforcement Learning的關係
強化學習的關係圖,如下:
一共有五個核心概念:
兩個實體:Agent
,Environment
三個互動的聯絡通道:Actions
,Reward
,Observations
Reward
Raward是一個scalar value可以在環境中定期得獲得。為了讓agent變得更可靠,讓它們的行為表現更好,因此,設計一個Reward會直接影響任務的成功與否。同時根據反饋,重新設定獎勵。讓它們更好的服務於環境,並對環境做出指導優化,為特定的環境提供較優的解決方案。[1]
總而言之,獎勵的目的是為了讓agent獲得成功,並且讓他的行為按照某種演算法進行強化(reinforcement)。可以說reward就是RL的核心。
讓大家的直觀感受,舉例如下:
- 股票交易,買賣股票的收益可以看作是
Reward
- 圍棋比賽,獲得比賽勝利或者輸掉比賽,可以看作是
Reward
- 電腦遊戲,玩dota2等電子競技,殺了多少敵人亦或者贏了比賽,可以看作是
Reward
Agent
Agent是用於和environment互動的實體,它可以是人亦或者某個事物(電腦,某個機器等)。如何互動?發出一個具體的指令行動,對當前的環境進行觀察,獲取一個確定的獎勵值等。
舉例如下:
- 股票交易,一個交易者或者電子交易系統做出買賣股票的決定
- 圍棋比賽,參賽的人員或者AI電腦
- 電腦遊戲,玩遊戲的人或者AI電腦
environment
可以說是Agent以外的世界。就像人類一樣,我們所經歷的這個世界。而Agent和他自己世界互動的行為只有:執行動作,觀察當前的情況,獲得獎勵。
Actions
Action就是Agent在自己的Environment中做出的具體行為。例如:學生在學校裡面根據老師的要求,做家庭作業一般。
我們可以把行為分成兩種型別:discrete
和continuous
(其實就是概率中的離散型和連續型)。
discrete
就是相互獨立的有限集合。continuous
一個動作之下它有著不同的程度。例如:你開車打方向盤和踩油門的時候,這個有程度之分。踩油門踩得重點和輕點。開車的速度是不一樣的。
Observations
Observations
對於agent來說也是非常重要的。就像人類一樣,它會觀察它自己的這個世界。那如何判別呢?根據獲得的獎勵。例如:你受到了工資的簡訊,發現漲工資了,你就會露出喜悅的反饋。因此,如果獎勵是消極的,沒有用的,讓人迷惑的。那麼對於agent的訓練就非常的糟糕。最後,也達不到你要的成功行為。
對於Observations
的直觀感受:
- 股票交易,整個交易市場,可以影響它的東西就很多了.例如:國家的政策,當前全球的經濟情況,包括最近我們知道的新冠肺炎疫情也會直接股票的收益。還有其他的炒股人員,他們的心態。現在最新的市場心理學,也會直接影響股票市場等。所以,如果
Observations
只是對於股票價格做分析的話,那麼它們得出的行為效果也不大。 - 圍棋比賽,它的整個環境是棋盤和他的對手,如果更廣義的去分析的話:還有他們的圍棋技術水平,他們的比賽心態,他們腦子裡面的邏輯思緒等。而
Observations
只能看到它目前的位置。 - 電腦遊戲,它的環境是一個電腦目前的狀態,玩遊戲的場景。如果是網路遊戲,還有和其他電腦互動的操作。而
Observations
就是一些螢幕的畫素點(pixels)和聲音。
RL的應用領域
[1]A. Y. Ng, D. Harada, and S. Russell. Policy invariance under reward transformations: Theory and
application to reward shaping. In International Conference on Machine Learning, volume 99,
pages 278–287, 19