獨家 | 一文了解強化學習的商業應用

阿新 • • 發佈：2019-02-06

640?wx_fmt=png

作者：Aishwarya Srinivasan

翻譯：Cream

校對：王雨桐

本文約4000字，建議閱讀10分鐘。

本文介紹了強化學習的應用場景、基本概念和數學模型。

DeepMind開發的AlphaGo（用於下圍棋的AI系統）的出現引起了強化學習的熱潮。從那之後，許多公司開始投入大量的時間、精力來研究強化學習。目前，強化學習是深度學習領域中的熱點問題之一。大多數企業都在努力尋找強化學習的應用例項或者將其應用在商業中的方法。目前來說，此類研究只在零風險、可觀測並且易模擬的領域展開。所以，類似金融業、健康行業、保險業、科技諮詢公司這樣的行業不願冒險去探索強化學習的應用。此外，強化學習中的“風險管理”部分給研究帶來了很大壓力。Coursera的創始人Andrew Ng曾表示：“強化學習在機器學習中，對資料的依賴遠超過有監督學習。我們很難獲得足夠多的資料來應用強化學習演算法。因此，將強化學習應用到商業實踐中仍有許多工作要完成。”

基於這樣有些悲觀的想法，本文的第1部分將從技術層面深入地探討強化學習。在第2部分，我們將介紹一些潛在的商業應用。基本上，強化學習是一種複雜的演算法，用於將觀察到的實際情況和度量（累計獎勵）對映到動作集合中，以實現短期或長期的獎勵最優化。強化學習的智慧體（agent）通過和環境的互動不斷學習策略，策略一個動作（以獎勵為導向的）序列。事實上，強化學習關注的是即時獎勵和隨後步驟的獎勵（延遲的獎勵），因為獎勵值是決定智慧體改變策略的主要依據。

強化學習的模型包含一個智慧體（agent），該智慧體在每個環境狀態下，通過執行一個動作，改變其狀態，這個動作產生的影響用獎勵函式來表示。該智慧體的目標是要實現長期累計的獎勵最大化，在每一個動作執行後，將反饋傳遞給智慧體，智慧體可以評估在當前環境最優的下一個動作。通過歷史相似情況下的最佳行動，系統會從中學習經驗。

640?wx_fmt=png

圖 1 強化學習模型

從數學的角度，我們可以把強化學習看作一個狀態模型，特別是一個完全可觀測的馬爾可夫決策過程（MDP）。為了理解MDP背後的概率理論，我們首先要了解馬爾可夫的性質，如下：

“未來只依賴於當前，與過去無關。”

此性質用於這樣的環境：不同行為產生的結果的概率與歷史狀態無關，只依賴於當前狀態。有人用“無記憶性”來描述這個性質。在需要用過去狀態來推測未來結果的情形下，馬爾可夫性質不適用。

這個模型的環境是有限的隨機過程，輸入智慧體的動作，以產生的獎勵為輸出。總獎勵函式（長期累積獎勵函式）包含即時獎勵和長期折扣的獎勵兩部分。即時獎勵是在智慧體執行了一個動作到達某種狀態所得到的量化的獎勵。長期折扣獎勵表示的是這個動作對未來狀態的影響。

長期折扣獎勵採用折扣因子γ，0<γ<1。折扣因子越大，這個系統越傾向於長期獎勵；折扣因子越小，這個系統傾向於即時獎勵。Χt表示t時刻的狀態，At表示t時刻智慧體的動作。

狀態轉移概率函式：智慧體在當前狀態Χt-1，執行動作A，產生的狀態之間的轉移概率：

640?wx_fmt=png

智慧體是模擬為一個隨機過程的有限狀態的機器，輸入當前狀態，輸出下一步執行的動作。St是t時刻的狀態，是t-1時刻執行了At動作後達到的狀態。At是在長期累計獎勵最大化的策略模型下t時刻的策略。

640?wx_fmt=png

狀態轉換函式：智慧體向一個狀態的轉變是與環境互動的結果。也就是說智慧體某一時刻的狀態是關於上一時刻狀態、獎勵、動作的函式。

640?wx_fmt=png

策略函式：策略是在狀態St下，以獎勵最優化為目標，要執行的動作。

640?wx_fmt=png

智慧體的目標是找到滿足長期累計折扣獎勵最大化的策略Ppi

640?wx_fmt=png

智慧體在馬爾可夫決策過程中試圖從當前狀態出發，獲得最大的總獎勵期望。因此，需要得到最優值函式。Bellman方程用於值函式，分解為當前獎勵和下一個狀態值的貼現值。

640?wx_fmt=png

希望你們能夠從本文中獲得關於強化學習的技術知識！！

原文標題：
Reinforcement Learning: The Business Use Case, Part 1
原文連結：
https://www.kdnuggets.com/2018/08/reinforcement-learning-business-use-case-part-1.html

譯者簡介

王power，求職狗，在香港科技大學學習大資料科技。感覺資料科學很有難度，也很有意思，還在學（tu）習（tou）中。一個人肝不動的文獻，來資料派follow大佬一起肝。

翻譯組招募資訊

工作內容：需要一顆細緻的心，將選取好的外文文章翻譯成流暢的中文。如果你是資料科學/統計學/計算機類的留學生，或在海外從事相關工作，或對自己外語水平有信心的朋友歡迎加入翻譯小組。

你能得到：定期的翻譯培訓提高志願者的翻譯水平，提高對於資料科學前沿的認知，海外的朋友可以和國內技術應用發展保持聯絡，THU資料派產學研的背景為志願者帶來好的發展機遇。

其他福利：來自於名企的資料科學工作者，北大清華以及海外等名校學生他們都將成為你在翻譯小組的夥伴。

點選文末“閱讀原文”加入資料派團隊~

轉載須知

如需轉載，請在開篇顯著位置註明作者和出處（轉自：資料派ID：datapi），並在文章結尾放置資料派醒目二維碼。有原創標識文章，請傳送【文章名稱-待授權公眾號名稱及ID】至聯絡郵箱，申請白名單授權並按要求編輯。

釋出後請將連結反饋至聯絡郵箱（見下方）。未經許可的轉載以及改編者，我們將依法追究其法律責任。

640?wx_fmt=jpeg

點選“閱讀原文”擁抱組織

獨家 | 一文了解強化學習的商業應用

獨家 | 一文了解強化學習的商業應用

一文了解強化學習

一文了解線性代數--深度學習入門之數學基礎

一文了解sun.misc.Unsafe

一文了解網絡安全數字化轉型，Gartner的這些數字驚呆你！

一文了解安卓APP逆向分析與保護機制

一文了解c/c++、java、JavaScript、php、Python的用途

一文了解“Service Mesh（服務網格）”的歷史與現在

一文了解，大資料就業薪資怎麼樣？

一文了解前端、後端、全棧都學什麼？薪資前景如何？

一文了解Android中路由(Router)的實現

一文了解JVM全部垃圾回收器，從Serial到ZGC

一文了解自然語言處理神經史

一文了解Java虛擬機器的重要組成

一文詳解深度學習在命名實體識別(NER)中的應用

一文了解福運來時_時彩原始碼下載JVM全部垃圾回收器，從Serial到ZGC

一文了解前端與全棧工程師！

獨家 | 一文讀懂整合學習（附學習資源）

卷積為什麼如此強大？一文全解深度學習中的卷積

一文了解分散式鎖

獨家 | 一文了解強化學習的商業應用

相關推薦