1. 程式人生 > >人工智慧:什麼是強化學習?

人工智慧:什麼是強化學習?

強化學習是人工智慧(AI)中討論最多、關注最多和考慮最多的話題之一,因為它有可能改變大多數企業。什麼是強化學習?強化學習的核心是一個概念,即最佳的行為或行動是由積極的回報來強化的。機器和軟體代理使用強化學習演算法,通過以環境的反饋為基礎來確定理想行為,這是機器學習的一種形式,也是人工智慧的一個分支。

根據問題的複雜性,強化學習演算法可以在必要時隨時間保持適應環境,以便長期獲得最大的回報。一個通過強化學習來學會行走的機器人將通過嘗試不同的方法實現目標,獲得有關這些方式成功的反饋,然後進行調整直到達到行走的目標。大步伐會讓機器人摔倒,通過調整步距來判斷這是否是保持直立的原因,通過不同的變化持續學習,最終能夠行走。以上說明,獎勵是保持直立,懲罰就是摔倒,機器人基於對其動作的反饋資訊進而優化並強化。強化學習需要大量的資料,這就是為什麼這項技術的第一個應用領域是模擬資料,如遊戲和機器人。

儘管處於強化學習的早期階段,但仍有一些應用和產品開始依賴這種技術。公司開始使用強化學習解決連續性決策問題,同時強化學習支援專家決策或自動化決策處理。

機器人。強化學習為機器人學提供了“框架和一套工具”,用於處理難以設計的行為。由於強化學習可以在沒有監督的情況下進行,這可以幫助機器人倍速增長。

工業自動化。得益於DeepMind(深度思維公司)的強化學習能力,谷歌能夠顯著降低其資料中心的能源消耗。近期被微軟收購的Bonsai公司提供了一種強化學習解決方案,可以在能源、暖通空調、製造、汽車和供應鏈中實現自動化和“將智慧構建到複雜的動態系統中”。

加強預見性維護。機器學習已經在製造業中使用了一段時間,但強化學習可以使預測性維護比現在更好。

博弈。事實上,強化學習的第一個應用是當機器學習演算法AlphaGo在圍棋中戰勝世界上最好的人類棋手之一時一戰成名,現在強化學習被用於各種遊戲的競爭。

醫學。強化學習非常適合於為健康狀況和藥物治療找出最佳的治療方法,還被用於臨床試驗以及醫療保健的其他應用。

對話系統。由於公司以客戶諮詢、合同、聊天機器人等形式接收大量的抽象文字,因此,將強化學習用於文字摘要的解決方案備受推崇。這些工具的內在特性是,隨著時間的推移會變得更好。

個性化。無論是你使用的媒體、針對你展現的廣告,還是你計劃購物平臺上購買的商品,都有強化學習演算法在幕後發揮作用,以創造一流的客戶體驗。

自動駕駛。大多數自動駕駛汽車、卡車、無人駕駛飛機和船隻的核心都有強化演算法。英國Wayve公司設計了一款自動駕駛汽車,通過強化學習能在20分鐘內學會駕駛。

由於強化學習執行需要大量的資料集,因此大多數公司想要利用強化學習的能力需要獲取更多的資料,並且隨著強化學習的價值不斷上生,公司將繼續對資源進行投資,以便找出在其運營、服務和產品中實現該技術的最佳方式。