A Comprehensive survey of machine learning for Internet （2018） via Boutaba，Mohammed et al【sec 5】

阿新 • • 發佈：2018-12-15

5 Traffic routing

網路流量路由是網路中的基礎，並且需要選擇用於分組傳輸的路徑。選擇標準是多種多樣的，主要取決於操作策略和目標，例如成本最小化，鏈路利用率最大化和QoS配置。流量路由需要具有強能力的ML模型能力，例如能夠應對和擴充套件複雜和動態網路拓撲，學習所選路徑與所接受的QoS之間的相關性的能力，以及預測路由決策後果的能力。
　　在現有文獻中，一系列ML技術主導了交通路由，強化學習的研究。

關於RL的review

RL僱用學習代理人在沒有監督的情況下探索周圍環境，通常表示為具有有限狀態的 MDP ，並從試錯中學習最大化累積獎勵的最優行動政策。RL模型是基於一組狀態S，每個狀態A（ $s$

t s_t

s_{t}

）的一組動作以及相應的獎勵（或成本）

r_t

定義的。
　　當S與網路相關聯時，狀態

s_t

表示狀態在網路中所有節點和鏈路的狀態。然而，當它與被路由的分組相關聯時，

s_t

表示在時間t擁有分組的節點的狀態。<在這種情況下，A（ $s_t$ ）表示所有可能的下一跳鄰居節點。.對於每個鏈路或轉發，路由內的動作may be根據單個或多個獎勵（成本另外考慮）的度量指標(例如排隊延遲，可用頻寬，擁塞級別，分組丟失。速率，能耗水平，鏈路可靠性，重傳次數等)，與一個immediate static or fynamic reward（分別為成本）

r_t

相關聯。
　　在路由時，累積獎勵，即在分組到達其目的地時累積的總獎勵，通常是未知的。

Q-learning在network的發展歷史

雖然RL現在受到了很多關注，但它在網路流量路由中的應用可以追溯到

20世紀90年代初：
Boyan和Littman的[71,280]開創性工作介紹了Q-routing，這是Q-learning演算法在資料包路由中的直接應用。
- 20世紀90年代末和21世紀初
  一些研究工作建立在Q學習的基礎上並提出了改進，從而產生了三個主要的研究方向：
  - 提高Q路由的效能，以提高學習和收斂速度[ 96,254]，
  - 利用Q學習的低複雜性和設計適應網路特性的Q學習啟發演算法（例如能量約束網路）和/或路由範例（例如組播路由[ 430]
  - 在路由學習代理之間進行進一步的協作以實現複雜的全域性效能要求[424,479]
1996年
提出了一種基於記憶的Q學習演算法，稱為預測Q路由（PQ-routing），保持過去的經驗以提高學習速度。
1997年
Kumar等人，應用雙重加強Q路由（DRQ路由）以最小化分組傳送時間[254]。
1998年
Stone和Veloso為RoboCup-1998（機器人足球世界盃II）[425]提出的團隊劃分的不透明過渡強化學習（TPOT-RL）是第一個應用於分組路由的全協同MARL技術[424] ]。

5.1 Routing as a decentralized operation function

當以完全分佈的方式應用時，RL將每個路由節點轉變為學習代理，該學習代理根據從環境中學習的資訊做出本地路由決策。路由節點可以獨立地或通過多代理系統方式的協作來做出決策。

5.2 Routing as a partially decentralized operation function

在[461] Wang等人。提出了AdaR，一種基於無模型最小二乘策略迭代（LSPI）RL技術[258]的集中實現的無線感測器網路路由機制。

5.3 Routing as a centralized control function

最近，Lin等人已經應用了具有softmax策略選擇演算法的集中式SARSA。 [276]在SDN中實現QoS感知自適應路由（QAR）

5.4 Summary

傳統RL演算法的低計算和通訊要求，特別是Q學習，以及它們在尋找最佳解決方案和適應環境變化方面表現良好的能力，已經促使他們報告成功應用於流量路由。各種網路設定
在將RL應用於流量路由問題時考慮了不同的方法。這些方法在以下方面有所不同:
- 學習能力的分佈水平
- 多學習者之間的合作水平
  　　顯然，不同的方法更適合不同的網路拓撲和實用功能。
同樣重要的是要注意到學習者在最近採用的分散式RL方法中非常鬆散地耦合，其中路由器傾向於以非同步，獨立，非常軟的MARL(multi-agent reinforcement learning)方式(fashion譯為方法，方式)選擇路由策略。
- 顯然，MARL旨在協調學習代理，以實現最佳的網路效能。這應該進一步增強路由效能。
- 然而，MARL出現了一些挑戰。實際上，在將MARL應用於實際問題大小時：
  - 定義良好的全域性學習目標的難度，代理與其他學習代理一致地協調的開銷以及較長的收斂時間可能是令人望而卻步的
- 應用MARL時需要理解利益和開銷之間的權衡，特別是在資源受限和動態無線網路中，協調這方面還可以改進很多(have a lot to offer)。

Background Information

MDP( Markov Decision Process )馬爾可夫決策過程

深度學習如影象識別和語音識別解決的是感知的問題，強化學習解決的是決策的問題。無數學者們通過幾十年不斷地努力和探索，提出了一套可以解決大部分強化學習問題的框架，這個框架就是馬爾科夫決策過程，簡稱MDP。

馬爾可夫性
*　所謂馬爾科夫性是指系統的下一個狀態僅與當前狀態有關，而與以前的狀態無關
*　定義
*　狀態 $s_t$ 時馬爾可夫的，當且僅當 $P[s_(t+1)|s_t]= P[s_(t+1)|s_1,...,s_t]$
*　定義中可以看到，當前狀態 $s_t$ 其實是蘊含了所有相關的歷史資訊，一旦當前狀態已知，歷史資訊將會被拋棄
　馬爾科夫性描述的是每個狀態的性質，但真正有用的是如何描述一個狀態序列。
馬爾科夫過程
- 數學中用來描述隨機變數序列的學科叫隨機過程所謂隨機過程就是指隨機變數序列若隨機變數序列中的每個狀態都是馬爾科夫的則稱此隨機過程為馬爾科夫隨機過程。
- 定義：
  　　馬爾科夫過程是一個二元組（S,P），且滿足：S是有限狀態集合， P是狀態轉移概率。狀態轉移概率矩陣為：
  $P=　 \left[ \begin{matrix} P11 && ... && P1n\\ ... && ... && ...\\ Pn1 && ... && Pnn \end{matrix} \right]$
馬爾科夫決策過程
- 馬爾科夫決策過程由元組描述(S,A,P,R, $\gamma$ )，其中：S為有限的狀態集, A為有限的動作集, P為狀態轉移概率,R為回報函式, $\gamma$ ∈ [0, 1]為折扣因子(衰減係數 Discount Factor)【衰減係數的含義：體現了未來的獎勵在當前時刻的價值比例。在t+k+1時刻獲得的獎勵R在t時刻的體現出的價值是 $\gamma^kR$ ,γ接近0，則表明趨向於“近視”性評估；γ接近1則表明偏重考慮遠期的利益。】，用來計算累積回報。注意，跟馬爾科夫過程不同的是，馬爾科夫決策過程的狀態轉移概率是包含動作的，即：
  　 $P_{ss'}^a=P[S_(T+1)=s'|S_t=s,A_t=a]$
強化學習的目標是給定一個馬爾科夫決策過程，尋找最優策略。
連線內容實在太長，重新打一遍有點費時間，在這裡就寫寫一些note好了：
- 收穫(也有翻譯成“收益”或"回報"，累積回報)：
  $G_t=R_(t+1)+\gamma R_(t+2)+...=\sum_{k=0}^{\infty}\gamma ^kR_{t+k+1}$
  - 收穫時震度i馬爾可夫鏈種的某一個狀態來說的
- 價值函式Value FUnction(狀態-值函式V)，定義為從該狀態s開始的累計回報的期望值 (公式的注意點：
  - 每一步都要在上一步的回報的折扣因子上再乘上一個 $\gamma$
  - 狀態值函式是與策略 $\pi$ 相對應的，這是因為策略 $\pi$ 決定了累積回報G的狀態分佈。
  - 這裡的策略指的是在每個狀態下，下一步的行動概率轉換矩陣P
    )

A Comprehensive survey of machine learning for Internet （2018） via Boutaba，Mohammed et al【sec 5】

5 Traffic routing 網路流量路由是網路中的基礎，並且需要選擇用於分組傳輸的路徑。選擇標準是多種多樣的，主要取決於操作策略和目標，例如成本最小化，鏈路利用率最大化和QoS配置。流量路由需要具有強能力的ML模型能力，例如能夠應對和擴充套件複雜和動態網路拓撲，學習所選路

A Comprehensive survey of machine learning for Internet （2018） via Boutaba，Mohammed et al【Sec 2】

這是AI for Net的一篇survey。文章目錄 Section 2 A primer of AI for net 2.1 learning paradigm 2.2 Data c

A Survey of Machine Learning Techniques Applied to Software Defined Networking (SDN): Research Issues and Challenges

文章名稱：A Survey of Machine Learning Techniques Applied to Software Defined Networking (SDN): Research Issues and Challenges 文章名稱：應用於SDN的機器學習技術綜述：研究問題與挑戰

The Chairman of Nokia on Ensuring Every Employee Has a Basic Understanding of Machine Learning

I've long been both paranoid and optimistic about the promise and potential of artificial intelligence to disrupt -- well, almost everything. Last year, I

Build a Deep Understanding of Machine Learning Tools Using Small Targeted Projects

Tweet Share Share Google Plus Once you have chosen a machine learning tool you need to improve y

Kaggle Machine Learning 教程學習（五）

rfi 方法目標然而發生 googl gin learn bag 　四、算法選擇　　這一步驟讓我很興奮，終於談到算法了，雖然沒代碼、沒公式。因為教程君表示並不想過深的去探討算法細節，於是著重於從算法的應用場景、算法的缺點、如何選擇算法來縱向展開。　　我們的訓練

吳恩達Machine Learning學習筆記（三）--邏輯回歸

多分類 nbsp 可用 bubuko 邏輯回歸泛化能力筆記 ima 學習分類任務　　原始方法：通過將線性回歸的輸出映射到0～1，設定閾值來實現分類任務　　改進方法：原始方法的效果在實際應用中表現不好，因為分類任務通常不是線性函數，因此提出了邏輯回歸邏輯回歸假設

Machine Learning筆記整理 ------ （一）基本概念

機器學習的定義：假設用P來評估計算機程式在某任務類T上的效能，若一個程式通過利用經驗E，使其在T中任務獲得了效能改善，我們則說關於任務類T和P，該程式對經驗E進行了學習（Mitchell, 1997）。機器學習的研究內容：關於在計算機上從資料中產生模型的演算法，即學習演算法（learning algori

Machine Learning筆記整理 ------ （二）訓練集與測試集的劃分

1. 留出法 (Hold-out) 將資料集D劃分為2個互斥子集，其中一個作為訓練集S，另一個作為測試集T，即有： D = S ∪ T， S ∩ T = ∅ 用訓練集S訓練模型，再用測試集T評估誤差，作為泛化誤差估計。特點：單次使用留出法得到的估計結果往往不夠穩定可靠，故如果要使用留出法，一般採用若

Machine Learning筆記整理 ------ （三）基本效能度量

1. 均方誤差，錯誤率，精度給定樣例集 (Example set)： D = {(x1, y1), (x2, y2), (x3, y3), ......, (xm, ym)} 其中xi是對應屬性的值，yi是xi的真實標記，評估模型效能，即將預測結果f(x)與真實標記y進行比較。對於迴歸任務：均方誤

Naftali Tishby——Information Theory of Deep Learning演講翻譯（二）

要想聽懂這一段，先準備一點基礎知識： Tishby另一個視訊，介紹的更詳細一點。 1.PAC學習：Probably Approximately Correct，PAC框架主要確定資料是否可分，確定訓練樣本個數，判斷時間空間複雜度等。 2. 假設空間：Hypoth

Machine Learning學習筆記（十三）隨機森林（RandomForest)

隨機森林（RandomForest) 一、知識鋪墊 1.1 決策樹決策樹是機器學習最基本的模型，在不考慮其他複雜情況下，我們可以用一句話來描述決策樹：如果得分大於等於60分，那麼你及格了。(if-then語句）這是一個最最簡單的決策樹的模型，我們把及格和沒及格分別附上標

轉錄組分析綜述A survey of best practices for RNA-seq data analysis

轉錄組分析綜述轉錄組文獻解讀 Trinity cufflinks 轉錄組研究綜述文章解讀今天介紹下小編最近閱讀的關於RNA-seq分析的文章，文章發在Genome Biology 上的A survey of

A Tour of Machine Learning Algorithms

Tweet Share Share Google Plus In this post, we take a tour of the most popular machine learning

A Comprehensive Evaluation of Approaches for Built-Up Area Extraction from Landsat OLI Images Using Massive Samples（landsat8建城區提取不同方法比較）

生成 boost 特征工程隨機生成 alua strong eva 拉伸 1-n 感覺主要是數據的創新，方法就是比較了傳統方法（RF,SVM,Adaboost）和CNN，輸入比較了單像素輸入和像素周圍3,5,7大小的範圍。也不是語義分割，最基本的CNN，單像素時還用的1*

A Comprehensive survey of machine learning for Internet （2018） via Boutaba，Mohammed et al【sec 5】

5 Traffic routing

關於RL的review

Q-learning在network的發展歷史

5.1 Routing as a decentralized operation function

5.2 Routing as a partially decentralized operation function

5.3 Routing as a centralized control function

5.4 Summary

Background Information

MDP( Markov Decision Process )馬爾可夫決策過程

A Comprehensive survey of machine learning for Internet （2018） via Boutaba，Mohammed et al【sec 5】

A Comprehensive survey of machine learning for Internet （2018） via Boutaba，Mohammed et al【Sec 2】

A Survey of Machine Learning Techniques Applied to Software Defined Networking (SDN): Research Issues and Challenges

The Chairman of Nokia on Ensuring Every Employee Has a Basic Understanding of Machine Learning

Build a Deep Understanding of Machine Learning Tools Using Small Targeted Projects

Kaggle Machine Learning 教程學習（五）

吳恩達Machine Learning學習筆記（三）--邏輯回歸

Machine Learning筆記整理 ------ （一）基本概念

Machine Learning筆記整理 ------ （二）訓練集與測試集的劃分

Machine Learning筆記整理 ------ （三）基本效能度量

Naftali Tishby——Information Theory of Deep Learning演講翻譯（二）

Machine Learning學習筆記（十三）隨機森林（RandomForest)

轉錄組分析綜述A survey of best practices for RNA-seq data analysis

A Tour of Machine Learning Algorithms

A Comprehensive Evaluation of Approaches for Built-Up Area Extraction from Landsat OLI Images Using Massive Samples（landsat8建城區提取不同方法比較）

AUTOML --- Machine Learning for Automated Algorithm Design.

Machine learning for improved image-based wavefront sensing

kafka-rest：A Comprehensive, Open Source REST Proxy for Kafka

Software-Defined Networking A Comprehensive Survey --閱讀_day1

The Best Way To Have A Quality Concrete Pump Machine Available For Sale

A Comprehensive survey of machine learning for Internet （2018） via Boutaba，Mohammed et al【sec 5】

5 Traffic routing

關於RL的review

Q-learning在network的發展歷史

5.1 Routing as a decentralized operation function

5.2 Routing as a partially decentralized operation function

5.3 Routing as a centralized control function

5.4 Summary

Background Information

相關推薦