1. 程式人生 > >A Comprehensive survey of machine learning for Internet (2018) via Boutaba,Mohammed et al【sec 5】

A Comprehensive survey of machine learning for Internet (2018) via Boutaba,Mohammed et al【sec 5】

5 Traffic routing

  網路流量路由是網路中的基礎,並且需要選擇用於分組傳輸的路徑。 選擇標準是多種多樣的,主要取決於操作策略和目標,例如成本最小化,鏈路利用率最大化和QoS配置。 流量路由需要具有強能力的ML模型能力,例如能夠應對和擴充套件複雜和動態網路拓撲,學習所選路徑與所接受的QoS之間的相關性的能力,以及預測路由決策後果的能力。
  在現有文獻中,一系列ML技術主導了交通路由,強化學習的研究。

關於RL的review

RL僱用學習代理人在沒有監督的情況下探索周圍環境,通常表示為具有有限狀態的 MDP ,並從試錯中學習最大化累積獎勵的最優行動政策。RL模型是基於一組狀態S,每個狀態A( s

t s_t )的一組動作以及相應的獎勵(或成本) r t r_t 定義的。
  當S與網路相關聯時,狀態 s
t s_t
表示狀態在網路中所有節點和鏈路的狀態。然而,當它與被路由的分組相關聯時, s t s_t 表示在時間t擁有分組的節點的狀態。<在這種情況下,A( s
t s_t
)表示所有可能的下一跳鄰居節點。
.對於每個鏈路或轉發,路由內的動作may be根據單個或多個獎勵(成本另外考慮)的度量指標(例如排隊延遲,可用頻寬,擁塞級別,分組丟失。速率,能耗水平,鏈路可靠性,重傳次數等),與一個immediate static or fynamic reward(分別為成本) r t r_t 相關聯。
  在路由時,累積獎勵,即在分組到達其目的地時累積的總獎勵,通常是未知的。

Q-learning在network的發展歷史

  雖然RL現在受到了很多關注,但它在網路流量路由中的應用可以追溯到

  • 20世紀90年代初:
    Boyan和Littman的[71,280]開創性工作介紹了Q-routing,這是Q-learning演算法在資料包路由中的直接應用。
    • 20世紀90年代末和21世紀初
      一些研究工作建立在Q學習的基礎上並提出了改進,從而產生了三個主要的研究方向:
      • 提高Q路由的效能,以提高學習和收斂速度[ 96,254],
      • 利用Q學習的低複雜性和設計適應網路特性的Q學習啟發演算法(例如能量約束網路)和/或路由範例(例如組播路由[ 430]
      • 在路由學習代理之間進行進一步的協作以實現複雜的全域性效能要求[424,479]
  • 1996年
    提出了一種基於記憶的Q學習演算法,稱為預測Q路由(PQ-routing),保持過去的經驗以提高學習速度。
  • 1997年
    Kumar等人,應用雙重加強Q路由(DRQ路由)以最小化分組傳送時間[254]。
  • 1998年
    Stone和Veloso為RoboCup-1998(機器人足球世界盃II)[425]提出的團隊劃分的不透明過渡強化學習(TPOT-RL)是第一個應用於分組路由的全協同MARL技術[424] ]。

5.1 Routing as a decentralized operation function

  • 當以完全分佈的方式應用時,RL將每個路由節點轉變為學習代理,該學習代理根據從環境中學習的資訊做出本地路由決策。路由節點可以獨立地或通過多代理系統方式的協作來做出決策。

5.2 Routing as a partially decentralized operation function

  • 在[461] Wang等人。提出了AdaR,一種基於無模型最小二乘策略迭代(LSPI)RL技術[258]的集中實現的無線感測器網路路由機制。

5.3 Routing as a centralized control function

  • 最近,Lin等人已經應用了具有softmax策略選擇演算法的集中式SARSA。 [276]在SDN中實現QoS感知自適應路由(QAR)

5.4 Summary

  • 傳統RL演算法的低計算和通訊要求,特別是Q學習,以及它們在尋找最佳解決方案和適應環境變化方面表現良好的能力,已經促使他們報告成功應用於流量路由。各種網路設定
  • 在將RL應用於流量路由問題時考慮了不同的方法。這些方法在以下方面有所不同:
    • 學習能力的分佈水平
    • 多學習者之間的合作水平
        顯然,不同的方法更適合不同的網路拓撲和實用功能。
  • 同樣重要的是要注意到學習者在最近採用的分散式RL方法中非常鬆散地耦合,其中路由器傾向於以非同步,獨立,非常軟的MARL(multi-agent reinforcement learning)方式(fashion譯為方法,方式)選擇路由策略。
    • 顯然,MARL旨在協調學習代理,以實現最佳的網路效能。這應該進一步增強路由效能。
    • 然而,MARL出現了一些挑戰。實際上,在將MARL應用於實際問題大小時:
      • 定義良好的全域性學習目標的難度,代理與其他學習代理一致地協調的開銷以及較長的收斂時間可能是令人望而卻步的
    • 應用MARL時需要理解利益和開銷之間的權衡,特別是在資源受限和動態無線網路中,協調這方面還可以改進很多(have a lot to offer)。

Background Information

MDP( Markov Decision Process )馬爾可夫決策過程

  深度學習如影象識別和語音識別解決的是感知的問題,強化學習解決的是決策的問題。無數學者們通過幾十年不斷地努力和探索,提出了一套可以解決大部分強化學習問題的框架,這個框架就是馬爾科夫決策過程,簡稱MDP。

  • 馬爾可夫性
    * 所謂馬爾科夫性是指系統的下一個狀態僅與當前狀態有關,而與以前的狀態無關
    * 定義
    * 狀態 s t s_t 時馬爾可夫的,當且僅當 P [ s ( t + 1 ) s t ] = P [ s ( t + 1 ) s 1 , . . . , s t ] P[s_(t+1)|s_t]= P[s_(t+1)|s_1,...,s_t]
    * 定義中可以看到,當前狀態 s t s_t 其實是蘊含了所有相關的歷史資訊,一旦當前狀態已知,歷史資訊將會被拋棄
     馬爾科夫性描述的是每個狀態的性質,但真正有用的是如何描述一個狀態序列。

  • 馬爾科夫過程

    • 數學中用來描述隨機變數序列的學科叫隨機過程所謂隨機過程就是指隨機變數序列若隨機變數序列中的每個狀態都是馬爾科夫的則稱此隨機過程為馬爾科夫隨機過程。
    • 定義 :
        馬爾科夫過程是一個二元組(S,P),且滿足:S是有限狀態集合, P是狀態轉移概率。狀態轉移概率矩陣為:
      P =   [ P 11 . . . P 1 n . . . . . . . . . P n 1 . . . P n n ] P=  \left[ \begin{matrix} P11 &amp;&amp; ... &amp;&amp; P1n\\ ... &amp;&amp; ... &amp;&amp; ...\\ Pn1 &amp;&amp; ... &amp;&amp; Pnn \end{matrix} \right]
  • 馬爾科夫決策過程

    • 馬爾科夫決策過程由元組描述(S,A,P,R, γ \gamma ),其中:S為有限的狀態集, A為有限的動作集, P為狀態轉移概率,R為回報函式, γ \gamma ∈ [0, 1]為折扣因子(衰減係數 Discount Factor)【衰減係數的含義:體現了未來的獎勵在當前時刻的價值比例。在t+k+1時刻獲得的獎勵R在t時刻的體現出的價值是 γ k R \gamma^kR ,γ接近0,則表明趨向於“近視”性評估;γ接近1則表明偏重考慮遠期的利益。】,用來計算累積回報。注意,跟馬爾科夫過程不同的是,馬爾科夫決策過程的狀態轉移概率是包含動作的,即:
        P s s a = P [ S ( T + 1 ) = s S t = s , A t = a ] P_{ss&#x27;}^a=P[S_(T+1)=s&#x27;|S_t=s,A_t=a]
  • 強化學習的目標是給定一個馬爾科夫決策過程,尋找最優策略。

  • 連線內容實在太長,重新打一遍有點費時間,在這裡就寫寫一些note好了:

    • 收穫(也有翻譯成“收益”或"回報",累積回報):
      G t = R ( t + 1 ) + γ R ( t + 2 ) + . . . = k = 0 γ k R t + k + 1 G_t=R_(t+1)+\gamma R_(t+2)+...=\sum_{k=0}^{\infty}\gamma ^kR_{t+k+1}
      • 收穫時震度i馬爾可夫鏈種的某一個狀態來說的
    • 價值函式Value FUnction(狀態-值函式V),定義為從該狀態s開始的累計回報的期望值 (公式的注意點:
      • 每一步都要在上一步的回報的折扣因子上再乘上一個 γ \gamma
      • 狀態值函式是與策略 π \pi 相對應的,這是因為策略 π \pi 決定了累積回報G的狀態分佈。
      • 這裡的策略指的是在每個狀態下,下一步的行動概率轉換矩陣P
        )