人工智慧：什麼是強化學習？

阿新 • • 發佈：2018-11-02

強化學習是人工智慧（AI）中討論最多、關注最多和考慮最多的話題之一，因為它有可能改變大多數企業。什麼是強化學習？強化學習的核心是一個概念，即最佳的行為或行動是由積極的回報來強化的。機器和軟體代理使用強化學習演算法，通過以環境的反饋為基礎來確定理想行為，這是機器學習的一種形式，也是人工智慧的一個分支。

根據問題的複雜性，強化學習演算法可以在必要時隨時間保持適應環境，以便長期獲得最大的回報。一個通過強化學習來學會行走的機器人將通過嘗試不同的方法實現目標，獲得有關這些方式成功的反饋，然後進行調整直到達到行走的目標。大步伐會讓機器人摔倒，通過調整步距來判斷這是否是保持直立的原因，通過不同的變化持續學習，最終能夠行走。以上說明，獎勵是保持直立，懲罰就是摔倒，機器人基於對其動作的反饋資訊進而優化並強化。強化學習需要大量的資料，這就是為什麼這項技術的第一個應用領域是模擬資料，如遊戲和機器人。

儘管處於強化學習的早期階段，但仍有一些應用和產品開始依賴這種技術。公司開始使用強化學習解決連續性決策問題，同時強化學習支援專家決策或自動化決策處理。

機器人。強化學習為機器人學提供了“框架和一套工具”，用於處理難以設計的行為。由於強化學習可以在沒有監督的情況下進行，這可以幫助機器人倍速增長。

工業自動化。得益於DeepMind（深度思維公司）的強化學習能力，谷歌能夠顯著降低其資料中心的能源消耗。近期被微軟收購的Bonsai公司提供了一種強化學習解決方案，可以在能源、暖通空調、製造、汽車和供應鏈中實現自動化和“將智慧構建到複雜的動態系統中”。

加強預見性維護。機器學習已經在製造業中使用了一段時間，但強化學習可以使預測性維護比現在更好。

博弈。事實上，強化學習的第一個應用是當機器學習演算法AlphaGo在圍棋中戰勝世界上最好的人類棋手之一時一戰成名，現在強化學習被用於各種遊戲的競爭。

醫學。強化學習非常適合於為健康狀況和藥物治療找出最佳的治療方法，還被用於臨床試驗以及醫療保健的其他應用。

對話系統。由於公司以客戶諮詢、合同、聊天機器人等形式接收大量的抽象文字，因此，將強化學習用於文字摘要的解決方案備受推崇。這些工具的內在特性是，隨著時間的推移會變得更好。

個性化。無論是你使用的媒體、針對你展現的廣告，還是你計劃購物平臺上購買的商品，都有強化學習演算法在幕後發揮作用，以創造一流的客戶體驗。

自動駕駛。大多數自動駕駛汽車、卡車、無人駕駛飛機和船隻的核心都有強化演算法。英國Wayve公司設計了一款自動駕駛汽車，通過強化學習能在20分鐘內學會駕駛。

由於強化學習執行需要大量的資料集，因此大多數公司想要利用強化學習的能力需要獲取更多的資料，並且隨著強化學習的價值不斷上生，公司將繼續對資源進行投資，以便找出在其運營、服務和產品中實現該技術的最佳方式。

人工智慧：什麼是強化學習？

王權富貴：強化學習Q-learning

【機器學習系列文章】第5部分：強化學習

Deeplearning4j 實戰（9）：強化學習 -- Cartpole任務的訓練和效果測試

學習筆記：強化學習之A3C程式碼詳解

機器學習筆記（八）：強化學習

[強化學習]OpenAI官方釋出：強化學習中的關鍵論文

強化學習系列1：強化學習簡介

強化學習系列（一）：強化學習簡介

強化學習導論(Reinforcement Learning: An Introduction)讀書筆記(一)：強化學習介紹

DeepMind背後的人工智慧：深度學習原理初探

David Silver強化學習Lecture1：強化學習簡介

人工智慧：什麼是強化學習？

強化學習：邁向通用型人工智慧的重要途徑

強化學習(David Silver)4：免模型學習

強化學習(David Silver)4：免模型控制

強化學習(David Silver)6：值函數近似

Seq2SQL ：使用強化學習通過自然語言生成SQL

強化學習(David Silver)2：MDP(馬爾科夫決策過程)

強化學習(David Silver)3：動態規劃

AI+遊戲：高效利用樣本的強化學習 | 騰訊AI Lab學術論壇演講

人工智慧：什麼是強化學習？

相關推薦