1. 程式人生 > >【強化學習】強化學習的一些基礎理念【一】

【強化學習】強化學習的一些基礎理念【一】

目錄

  • Reinforcement Learning的關係
    • Reward
    • Agent
    • environment
    • Actions
    • Observations
    • RL的應用領域

Reinforcement Learning的關係

強化學習的關係圖,如下:

一共有五個核心概念:
兩個實體:Agent,Environment
三個互動的聯絡通道:Actions,Reward,Observations

Reward

Raward是一個scalar value可以在環境中定期得獲得。為了讓agent變得更可靠,讓它們的行為表現更好,因此,設計一個Reward會直接影響任務的成功與否。同時根據反饋,重新設定獎勵。讓它們更好的服務於環境,並對環境做出指導優化,為特定的環境提供較優的解決方案。[1]
總而言之,獎勵的目的是為了讓agent獲得成功,並且讓他的行為按照某種演算法進行強化(reinforcement)。可以說reward就是RL的核心。
讓大家的直觀感受,舉例如下:

  1. 股票交易,買賣股票的收益可以看作是Reward
  2. 圍棋比賽,獲得比賽勝利或者輸掉比賽,可以看作是Reward
  3. 電腦遊戲,玩dota2等電子競技,殺了多少敵人亦或者贏了比賽,可以看作是Reward

Agent

Agent是用於和environment互動的實體,它可以是人亦或者某個事物(電腦,某個機器等)。如何互動?發出一個具體的指令行動,對當前的環境進行觀察,獲取一個確定的獎勵值等。

舉例如下:

  1. 股票交易,一個交易者或者電子交易系統做出買賣股票的決定
  2. 圍棋比賽,參賽的人員或者AI電腦
  3. 電腦遊戲,玩遊戲的人或者AI電腦

environment

可以說是Agent以外的世界。就像人類一樣,我們所經歷的這個世界。而Agent和他自己世界互動的行為只有:執行動作,觀察當前的情況,獲得獎勵。

Actions

Action就是Agent在自己的Environment中做出的具體行為。例如:學生在學校裡面根據老師的要求,做家庭作業一般。
我們可以把行為分成兩種型別:discretecontinuous(其實就是概率中的離散型和連續型)。

  • discrete 就是相互獨立的有限集合。
  • continuous 一個動作之下它有著不同的程度。例如:你開車打方向盤和踩油門的時候,這個有程度之分。踩油門踩得重點和輕點。開車的速度是不一樣的。

Observations

Observations對於agent來說也是非常重要的。就像人類一樣,它會觀察它自己的這個世界。那如何判別呢?根據獲得的獎勵。例如:你受到了工資的簡訊,發現漲工資了,你就會露出喜悅的反饋。因此,如果獎勵是消極的,沒有用的,讓人迷惑的。那麼對於agent的訓練就非常的糟糕。最後,也達不到你要的成功行為。

對於Observations的直觀感受:

  1. 股票交易,整個交易市場,可以影響它的東西就很多了.例如:國家的政策,當前全球的經濟情況,包括最近我們知道的新冠肺炎疫情也會直接股票的收益。還有其他的炒股人員,他們的心態。現在最新的市場心理學,也會直接影響股票市場等。所以,如果Observations只是對於股票價格做分析的話,那麼它們得出的行為效果也不大。
  2. 圍棋比賽,它的整個環境是棋盤和他的對手,如果更廣義的去分析的話:還有他們的圍棋技術水平,他們的比賽心態,他們腦子裡面的邏輯思緒等。而Observations只能看到它目前的位置。
  3. 電腦遊戲,它的環境是一個電腦目前的狀態,玩遊戲的場景。如果是網路遊戲,還有和其他電腦互動的操作。而Observations就是一些螢幕的畫素點(pixels)和聲音。

RL的應用領域

[1]A. Y. Ng, D. Harada, and S. Russell. Policy invariance under reward transformations: Theory and
application to reward shaping. In International Conference on Machine Learning, volume 99,
pages 278–287, 19