1. 程式人生 > >簡述馬爾科夫決策過程(下)

簡述馬爾科夫決策過程(下)

都是 自己 人工智能 直接 enter 知識 一次 自己的 初步

技術分享圖片

在上一篇文章中我們給大家介紹了很多關於馬爾科夫決策知識,具體來說就是馬爾科夫決策過程的特點、要求以及定義,這些內容都是能夠幫助大家初步了解馬爾科夫決策過程的。我們在這篇文章中詳細為大家介紹關於馬爾科夫決策過程的深度知識。希望這篇文章能夠更好地幫助大家理解馬爾科夫決策過程知識。

馬爾科夫決策過程的定義我們已經給大家講過了,但是定義是不容易理解的,下面我們就給大家簡單的講述馬爾科夫決策過程的知識,其實也就是一個人的選擇有兩種,每一種選擇都能夠導致不同的後果,而且持續的選擇也能夠使得結果不同。長期的選擇一種選擇就能夠做到更好的結果。馬爾科夫決策過程的動態過程就是智能體(agent)初始狀態S0,然後從A中挑選一個動作a0執行,agent按照概率Pa隨機轉移到下一個狀態S1,然後再執行動作a1,就轉移到了S2,以此類推,知道得到最後的結果。

於是問題來了,那麽大家知道不知道怎麽使得自己的獎勵最大化呢?這就需要做一個決策,這個決策的目的就是能夠讓agent盡可能的得到最大化獎勵。這就引出來,馬爾科夫決策的關鍵目的就在於尋找一個最好的策略(一般用π表示):對每個狀態s,選擇一個動作a,組成π中的一個<s,a> 。這個策略可以累積化最大收益R(T),這裏T代表了整個過程持續的時間。

那麽怎麽就選擇最優的策略呢?其實馬爾科夫決策過程就是一個與時間序列有關的過程,除非到達最終狀態停止,不然每一次動作的執行,都會作為一個新的樣本加入到訓練數據中,為當前狀態選擇最優策略,且每一次動作的執行不能更改。到達終止狀態後,就再重新開始,不管結局是什麽樣的。一般情況下都會根據一定數量的數據集先進行訓練,而不是直接拿過來就開始選擇的。有一個栗子那就是AlphaGo,都是提前和大師以及和自己訓練很多次下棋之後,摸清了規律,發現贏下一盤棋的最優的策略,才能在與世界圍棋冠軍下的時候不害怕,每一步都根據當前狀態找最好的落子。馬爾科夫決策過程就是一個狀態到動作的選擇的過程。

我們在這篇文章中給大家詳細介紹了關於馬爾科夫決策過程的知識,對於非專業人士來說,很多人是不了解馬爾科夫決策這個概念的。馬爾科夫決策是人工智能技術相關的一環,學習、了解馬爾科夫決策這個知識點,可以有效地幫助我們更好地運用人工智能技術。

簡述馬爾科夫決策過程(下)