1. 程式人生 > >【RL系列】Multi-Armed Bandit筆記補充(二)

【RL系列】Multi-Armed Bandit筆記補充(二)

one 不等式 pdf bili 其實在 直接 最好 ppr 分享圖片

本篇的主題是對Upper Conference Bound(UCB)策略進行一個理論上的解釋補充,主要探討UCB方法的由來與相關公式的推導。

UCB是一種動作選擇策略,主要用來解決epsilon-greedy在選擇時的低效率問題。對於解釋UCB的使用機理上,我認為下面這篇文章寫的還不錯,深入淺出,只不過在公式推導上有一點點問題:

Multi-Armed Bandit: UCB (Upper Bound Confidence)

我們先來說一說epsilon-greedy策略在選擇動作時有什麽問題。如果epsilon值較小,例如epsilon = 0.1,那麽每次實驗都有10%的概率是隨機選擇動作,如果K值(選擇較多)較大的話,這樣的選擇效率是較低的。為什麽說這樣的選擇效率是較低的,因為在一定的實驗次數內,epsilon-greedy只能大概率判斷出最優動作,而對於其它動作的收益如何是沒辦法判斷的。舉個例子吧,如果說epsilon-greedy策略可以幫你找到最好吃的那家餐廳,那麽UCB就可以幫你給餐廳的好吃程度排個序。

為什麽epsilon-greedy策略不能做出排序呢?實際上在實驗次數不變的情況下,很有可能某些動作的實驗次數不夠多,這樣很難保證我們由實驗統計出的各個動作收益均值與實際的收益均值相吻合。其實在概率統計上,由均值產生的統計概率與真實期望總是會產生一定的差值,這個差值小於一個較小值delta的概率就可以稱之為置信度。舉個例子,如若置信度為95%時,我們就可以說,有大於95%的可能性,估計的均值與實際的期望之差小於delta,用數學語言描述出來就是,alpha為置信度:

技術分享圖片

我們將式子稍稍變換一下形式:

技術分享圖片

依據中心極限定理,可知:

技術分享圖片

所以有:

技術分享圖片

這裏的delta與n皆為大於0的數,依據不等式[1], 技術分享圖片

技術分享圖片

這裏我們可以令置信度 技術分享圖片,即可計算出delta關於alpha的等式:

技術分享圖片

為了讓置信度盡可能的高,在實際運用中,直接令 技術分享圖片,N為實驗次數。

所以UCB策略才有如下的形式:

技術分享圖片

參考文獻:

[1] New Exponential Bounds and Approximations for the Computation of Error Probability in Fading Channels, Marco Chiani, Senior Member, IEEE, Davide Dardari, Member, IEEE, and Marvin K. Simon, Fellow, IEEE.

【RL系列】Multi-Armed Bandit筆記補充(二)