強化學習：邁向通用型人工智慧的重要途徑

阿新 • • 發佈：2018-12-26

如何賦予機器自主學習的能力，一直是人工智慧領域的研究熱點。在越來越多的複雜現實場景任務中，需要利用深度學習、寬度學習來自動學習大規模輸入資料的抽象表徵，並以此表徵為依據進行自我激勵的強化學習，優化解決問題的策略。深度與寬度強化學習技術在遊戲、機器人控制、引數優化、機器視覺等領域中的成功應用，使其被認為是邁向通用人工智慧的重要途徑。

中國自動化學會將於 2018年5月31日 - 6月1日在北京中國科學院自動化研究所舉辦第五期智慧自動化學科前沿講習班，本期講習班主題為『深度與寬度強化學習』。此次講習班由中國自動化學會副理事長、澳門大學講座教授陳俊龍與清華大學教授宋士吉共同擔任學術主任，邀請多位業界知名專家作主題報告，分享交流深度與寬度強化學習的學術前沿、應用實現及產業發展等。

內容安排

學術報告一：

從深度強化學習到寬度強化學習：結構，演算法，機遇及挑戰

陳俊龍

澳門大學講座教授，中國自動化學會副理事長

國家千人學者，IEEE Fellow、AAAS Fellow、IAPR Fellow

內容簡介：本座談討論強化學習的結構及理論，包括馬爾科夫決策過程、強化學習的數學表示式、策略的構建、估計及預測未來的回報。也會討論如何用深度神經網路學習來穩定學習過程及特徵提取、如何利用寬度學習結構跟強化學習結合。最後會討論深度、寬度強化學習帶來的機遇與挑戰。

學術報告二：

基於強化學習的深海機器人智慧搜尋與運動控制方法

宋士吉

清華大學教授、博導

國家CIMS工程技術研究中心研究員

內容簡介：闡述強化學習在深海機器人智慧搜尋與運動控制領域的演算法研究及其應用，從熱液羽狀流智慧搜尋與深海機器人運動控制兩個方面開展工作。在熱液羽狀流智慧搜尋方面，研究基於強化學習和遞迴網路的羽狀流追蹤演算法。利用感測器採集到的流場與熱液訊號資訊，將機器人搜尋熱液噴口的過程建模為狀態行為域連續的馬爾科夫決策過程，通過強化學習演算法得到機器人艏向的最優控制策略。在深海機器人運動控制方面，研究基於強化學習的軌跡跟蹤與最優深度控制演算法。在機器人系統模型未知的情況下，將控制問題建模成連續狀態動作空間的馬爾可夫決策過程，並構建評價網路與策略網路，通過確定性策略和神經網路學習得到最優控制策略。

學術報告三：

資料驅動的自適應學習控制

侯忠生

北京交通大學教授、博導

北京交通大學自動控制系主任

內容簡介：本報告分為以下4部分：第1部分主要介紹迭代軸上的學習控制；第2部分主要介紹時間軸上的學習控制，既無模型自適應控制；第3部分主要介紹學習控制的統一框架；第4部分是結論。

學術報告四：

核自適應濾波與寬度學習

陳霸東

西安交通大學教授、博導

陝西省“百人計劃”特聘教授

內容摘要：核自適應濾波器（Kernel Adaptive Filters）是近年來興起的在可再生核希爾伯特空間（RKHS）中實現的一類非線性自適應濾波器，其拓撲結構為線性增長的單隱層神經元網路。其基本思想是：首先，將輸入訊號對映到高維核空間；然後，在核空間中推導線性濾波演算法；最後，利用核技巧（Kernel Trick）得到原訊號空間中非線性濾波演算法。與傳統非線性濾波器比較，核自適應濾波器具有以下優點：（a）如果選取嚴格正定的Mercer核函式，具有萬能逼近能力；（b）效能曲面在高維核空間中具有凸性，因此理論上不具區域性極值；（c）隱節點由資料驅動生成，減少了人工參與；（d）具有自正則性（Self-regularization），可有效防止過擬合。因此，核自適應濾波概念提出以後引起了國內外研究者廣泛興趣，越來越多的相關演算法被提出，並被應用到諸多領域。核自適應濾波與最近興起的寬度學習（Broad Learning）關係密切，可以認為是一類基於核方法的寬度學習演算法。本報告將深入系統地闡述核自適應濾波的基本思想、主要演算法、效能分析、典型應用，以及如何將其與寬度學習納入統一框架。

學術報告五：

深度強化學習演算法及應用

趙冬斌

中科院自動化所研究員、博導

中國科學院大學崗位教授

內容摘要：將具有“決策”能力的強化學習(RL: Reinforcement Learning)和具有“感知”能力的深度學習(DL: Deep Learning)相結合，形成深度強化學習(DRL: Deep RL)方法，成為人工智慧(AI: Artificial Intelligence)的主要方法之一。2013年，谷歌DeepMind團隊提出了一類DRL方法，在視訊遊戲上的效果接近或超過人類遊戲玩家，成果發表在2015年的《Nature》上。2016年，相繼發表了所開發的基於DRL的圍棋演算法AlphaGo，以5:0戰勝了歐洲圍棋冠軍和超一流圍棋選手李世石，使圍棋AI水平達到了一個前所未有的高度。2017年初，AlphaGo的升級程式Master，與60名人類頂級圍棋選手比賽獲得不敗的戰績。2017年10月，DeepMind團隊提出了AlphaGo Zero，完全不用人類圍棋棋譜而完勝最高水平的AlphaGo，再次重新整理了人們的認識。並進一步形成通用的Alpha Zero演算法，超過最頂級的國際象棋和日本將棋AI。DRL在視訊遊戲、棋類博弈、自動駕駛、醫療等領域的應用日益增多。本報告將介紹強化學習、深度學習和深度強化學習演算法，以及在各個領域的典型應用。

學術報告六：

正則化深度學習及其在機器人環境感知中的應用

劉勇

浙江大學教授、博導

浙江大學求是青年學者

內容簡介：近年來，隨著人工智慧技術的飛速發展，深度神經網路技術在影象分析、語音識別、自然語言理解等難點問題中都取得了十分顯著的應用成果。然而該技術在機器人感知領域的應用相對而言仍然不夠成熟，主要源於深度學習往往需要大量的訓練樣本來避免過擬合、提升泛化能力，從而降低其在測試樣本上的泛化誤差，而機器人環境感知中涉及的任務與環境具有多樣化特性，且嚴重依賴於機器人硬體平臺，因而難以針對機器人各感知任務提供大量標註樣本；其次，對於解不唯一的病態問題，即使提供大量的訓練資料，深度學習方法也難以在測試資料上提供理想的估計，而機器人感知任務中所涉及的距離估計、模型重構等問題就是典型的病態問題，其輸入中沒有包含對應到唯一輸出的足夠資訊。針對上述問題，本報告以提升深度學習泛化能力為目標、以嵌入先驗知識的正則化方法為手段、以機器人環境感知為應用背景展開介紹。

學術報告七：

自評價學習控制中的特徵表示與滾動優化

徐昕

國防科技大學教授、博導

國防科技卓越青年人才

報告人簡介：徐昕，國防科技大學智慧科學學院教授，博士生導師，國防科技卓越青年人才基金獲得者。主要研究領域是機器人和智慧無人系統的機器學習、自主感知與優化控制。任中國人工智慧學會理事， IEEE高階會員。獲國家自然科學二等獎、湖南省自然科學一等獎、國防科技進步二等獎、湖南省自然科學優秀論文一等獎各1項，入選新世紀優秀人才支援計劃，獲霍英東青年教師基金資助。主持國家自然科學基金重點專案2項、面上專案3項、973課題等國家和省部級專案10餘項。出版專著2部，發表論文150餘篇，SCI收錄60餘篇，EI收錄100餘篇，他引4000餘次，SCI他引1000餘次。任Information Sciences (IF=4.03, Elsevier), IEEE Transactions on System, Man, and Cybernetics: Systems, International Journal of Social Robotics等6個國際SCI期刊的Associate Editor或者Guest Editor，以及《自動化學報》編委。

學術報告八：

軌道交通車輛預測與健康管理（PHM）技術應用

楊穎

中國中車首席專家，教授級高階工程師

中車株機電力機車有限公司副總工程師

報告人簡介：楊穎，中國中車首席專家，中車株洲電力機車有限公司副總工程師，教授級高階工程師。1988年畢業於中國科技大學獲理學學士，2002年畢業於湖南大學獲碩士學位，主要從事城市軌道交通車輛研發工作，享受國務院特殊貢獻津貼，中國城市軌道交通協會技術裝備委員會委員，中國軌道交通CRCC認證委員會委員，曾擔任國家863計劃專案，湖南省重大專項課題牽頭人，目前擔任十三五國家重點研發計劃200km/h中速磁浮交通系統關鍵技術研究課題牽頭人。獲省部級科技進步獎一等獎二項，二等獎二項，獲授權發明專利六項（獨自或第一人）。

學術報告九：

強化學習及智慧控制與決策

季向陽

清華大學教授、博導

國家傑出青年基金獲得者

報告人簡介：季向陽，清華大學自動化系教授，資訊科學與技術國家研究中心智慧科學部主任，研究方向為機器學習與影象處理。國家傑出青年科學基金與“萬人計劃”領軍人才。擔任中國人工智慧學會深度學習專委會主任、中國電子學會人工智慧與無人系統青年專委會主任。近年來發表SCI/EI論文100餘篇；申請國家發明專利49項（授權33項），申請國際發明專利16項（授權8項）；獲國家科技進步二等獎與國家技術發明一等獎各1項（排名2）。

學術報告十：

分散式優化演算法與學習

遊科友

清華大學副教授、博導

國家優青，國家青年千人

報告人簡介：遊科友，清華大學自動化系副教授、博士生導師。2007年獲中山大學統計科學學士學位，2007年8月至2012年6月在新加坡南洋理工大學電氣與電子工程學院攻讀博士學位和從事博士後研究。自2012年7月起任教於清華大學自動化系。曾受邀訪問義大利都靈理工大學、澳大利亞墨爾本大學、香港科技大學等院校。從事網路化系統系統、分散式優化、強化學習及其應用等方面的研究。在控制系統領域兩大權威期刊《Automatica》和《IEEE Trans. Automatic Control》發表論文19篇，其中長文9篇。2010年獲中國控制會議關肇直獎，2014年入選第十批“千人計劃”青年千人專案和獲 IBM 中國優秀教師獎教金， 2017年獲國家自然科學基金優秀青年基金專案資助。

強化學習：邁向通用型人工智慧的重要途徑

內容安排

強化學習：邁向通用型人工智慧的重要途徑

深度增強學習：走向通用人工智慧之路

強化學習：函式逼近思想

分享《深入淺出強化學習：原理入門》高清PDF+原始碼

分享《深入淺出強化學習：原理入門》高清PDF+源代碼

《深入淺出強化學習：原理入門_郭憲方勇純》高清PDF+原始碼

《深入淺出強化學習：原理入門_郭憲方勇純》高清PDF+源代碼

分享《深入淺出強化學習：原理入門》高清PDF+原始碼免費下載

C++學習：一個通用ini配置檔案操作類

深度強化學習：從畫素玩Pong!

【深度學習介紹系列之二】——深度強化學習：卷積神經網路

深度強化學習：入門(Deep Reinforcement Learning: Scratching the surface)

強化學習：Markov Decision Process (基於南大俞揚博士演講的修改和補充）

強化學習： Experience Replay

菜鳥的C#學習之旅——多型的實現途徑

人工智慧：什麼是強化學習？

Swift學習筆記（5）：集合類型

Python學習：基本數據類型與變量（中）與基礎之條件及循環（上）

強化學習(David Silver)4：免模型學習

強化學習(David Silver)4：免模型控制

強化學習：邁向通用型人工智慧的重要途徑

內容安排

相關推薦