1. 程式人生 > >AI強化學習正滲入“更高階學科”,比如心理學!

AI強化學習正滲入“更高階學科”,比如心理學!

全文共2359字,預計學習時長5分鐘

圖片來源:pexels.com/@pixabay

最近,拉斯維加斯舉行了AWSre: MARS大會,會議的主題是機器學習、自動化和機器人技術(包括太空中的)將如何改變未來。很多人的關注點都放到了小羅伯特·唐尼身上,但其實,幾乎每一個主題演講會議上都出現的模擬和強化學習才是最矚目的:

第一天:通過強化學習,Boston Dynamics公司的機器人已經掌握了後空翻、跳上窗臺和託舉的資料。而迪斯尼幻想工程已經把這一點帶到了一個新的層面——讓人形機器人來執行玩命的特技。

第二天:亞馬遜通過模擬在Go商店中的困難場景來訓練模型機。亞馬遜配送中心的機器人在接受過強化學習的培訓後還可以對包裹進行分類。Alexa使用模擬互動自動學習對話流。亞馬遜無人機快遞使用模擬資料來訓練如何檢測無人機下方的人。而像Insitro這樣的公司已經開始通過生成生物互動資料來解決生物醫學問題。

第三天:吳恩達呼籲元學習。成百上千的不同的模擬器被用來建立更通用的強化學習代理,這可以說是AI的“下一件大事”。自動駕駛汽車公司Zoox和Aurora就在利用RL和元學習以解決城市環境中駕駛的複雜性的問題。而Dexnet試圖通過模擬建造一個龐大的3D模型資料庫,以更好的掌握問題所在。Jeff Bezos對Daphne Koller關於RL生物工程將在10年內發展壯大的觀點表示贊同。

總而言之:

如若一個領域的相關事務可以被準確地模擬,強化學習將能夠在未來的幾年急劇地擡升此領域的技術水平。

 

那麼又關物理什麼事呢?

一個4歲的孩子,進入了人生中的“為什麼”階段,這個時候她的大腦開始從簡單的認知事物轉移成了想要理解這個世界的所有東西。這就是大人和孩子之間典型的交流:

繪製使用http://cmx.io

 

那這些又和資料科學有什麼關係呢?

Jeff Dean在今年穀歌I/O會議上發表關於深度學習的演講時提到,神經網路已經被訓練得近似物理模擬器所能生成的結果,並且速度是物理模擬器的30萬倍,也就是說,研究人員甚至可能一頓午餐的時間就測試了100M的分子。

圖片來源: Jeff Dean在谷歌 I/O 2019的演講

這是一個巨大的進步,因為它允許我們使用re: MARS上引人矚目的強化學習來解決新的各種問題。在這些進步之前,為每個潛在的結果完整執行一個物理模擬器所需的迴圈時間太長,以至於RL很難達成一個有回報的結果。但現在,RL可以學習分子的物理特性,從而優化化學工程師的預期收穫。

圖片來源:https://xkcd.com/435/

鑑於一切都可以被簡化為物理學,我們甚至可以想象一個能以最基礎的原理建立更多方案的世界。在這個會議之前,很多人都以為模擬生物學相關的研究是遙不可及的,但事實上,Insitro這樣的公司已經著手應對這些問題。

那時RL將可用於“更高級別的”科學,如心理學:

 

1. 原始計算能力:谷歌釋出了T3 TPU Pods的私有資料,擁有超過100的每秒浮點運算次數的處理能力,為執行神經網路訓練構架而造。擁有這樣的計算能力後,像材質分析這類的任務就變得十分易學。另外,谷歌開始使用RL設計他們自己的晶片,隨著時間的推移也預期能夠帶來更多的進展。

2. 更優良的可重用性:DeepMind被用於多層網路構架中,而RL負責根據任務需要選擇合適的下游網路。這類的RL代理通過訓練就可以把高難的任務通過分解的方式簡單化,並運用遷移學習解決多工。

3. 更好的歸納:上述的元學習技術正被用於提高RL代理應對未遇到過的情景的能力。

4. 更好的優化:麻省理工學院的彩票假設論文展示了神經網路可以通過尋找“優勝票”的路徑來進行進一步壓縮,隨後僅使用這些路徑來進行訓練。

5. 更好的訓練資料生成:類似AutoCad的生成設計的介面可以幫助設計師/工程師找到所需的規格,以使RL代理正確執行。每次新的人接管時,自動駕駛汽車公司都會生成新的訓練情景。

你又該做些什麼呢?

圖片來源:

https://en.wikipedia.org/wiki/Reinforcement_learning#/media/File:Reinforcement_learning_diagram.svg

首先,你需要去了解強化學習,這裡簡明扼要地介紹了RL代理獲取情景狀態,選擇一個行動影響環境,觀察新的情景,重複步驟。如果行動得到了積極的結果,代理得到獎勵,它就傾向於在將來類似的情景中給出相同的一系列動作。

這些步驟被大量重複,最終,它變得十分擅長獲得獎勵(我們也為此訓練它)。豐富經驗的最好辦法就是使用AWS Deep Racer,這是一個可以提供模擬環境的縮小版的賽車、一個RL訓練裝置,以及一塊與模擬相對應的物理硬體。你只需要調控獎勵機制來訓練你的賽車代理。

圖片來源:

https://www.semanticscholar.org/paper/OpenAI-Gym-Brockman-Cheung/2b10281297ee001a9f3f4ea1aa9bea6b638c27df/figure/0

其次,你需要積極尋找可以更好模擬業務系統的方法。任何現有的模擬器都是很好的起點,但更新的模擬器更可能帶來顯著的影響。AWS在這類領域中提供名為“RoboMaker”的服務,但還有許多其他的備選方案,而其中大多數都基於開放式API Gym。

最後,應當密切關注那些駕馭這股技術潮流的新公司。很可能最終會發展出一系列互相構建的開放資源模擬器,附帶壓縮每層可學習的資訊的神經網路。在此之前,有眾多領域可能會有許多專有的解決方案超越當前最先進的水平。隨著時間推移,這項技術終將給以科學為基礎的領域帶來可觀的收益,例如藥物、材料科學、醫學、石油與天然氣,及各種各樣的其他領域。

AI未來說*青年學術論壇 火熱報名中

留言 點贊 關注

我們一起分享AI學習與發展的乾貨
歡迎關注全平臺AI垂類自媒體 “讀芯術”

(新增小編微信:dxsxbb,加入讀者圈,一起討論最新鮮的人工