1. 程式人生 > >郭律: 論機器學習平臺與人工智能的關系

郭律: 論機器學習平臺與人工智能的關系

相對 數據分析 能力 可以轉化 個人 賬戶 很大的 course 做的

歡迎大家前往騰訊雲+社區,獲取更多騰訊海量技術實踐幹貨哦~

本文由騰訊雲AI中心發表於雲+社區專欄

郭律,騰訊高級產品經理,騰訊雲AI基礎產品中心高級產品經理、解決方案架構師。主導騰訊智能鈦TI-ONE(可視化機器學習平臺)和TI-S(自動機器學習平臺)兩個產品的設計工作。從上海交通大學模式識別與智能系統專業博士畢業後,先後就職於IBM、普華永道從事IT架構、咨詢方面的工作,對機器學習與金融、零售等業務場景的結合具有深刻理解,幫助學員掌握如何利用工具解決實際業務中面臨的機器學習問題。

眾所周知,現階段的人工智能特別熱門,研究人員也都想進入到這一領域,人工智能究竟是什麽?我們有一個形象的比喻來說明什麽叫做人工智能。

技術分享圖片

人工智能是這樣,把米煮熟成飯的過程就是機器學習的過程,米是大數據,而飯就是人工智能。概括為一句話就是,將海量數據通過機器學習的手段來進行處理最後形成模型的過程就是人工智能。說到具體的例子,阿爾法狗的海量數據來自於各種各樣的棋譜,通過機器學習成為一個下棋的人工智能。

機器學習說起來是一個詞,其實背後有很多的事情要做,比如預處理、特征抽取、數據建模、模型評估等等。在建模過程中,除了調參選算法之外還有很多重要環節。在這個過程當中比較重要的一環是特征工程,一個模型好不好取決於特征工程做的好不好。

技術分享圖片

人工智能為什麽這麽火?相比於傳統的商業智能(BI),人工智能更加精準。,以往的商業智能實現了對大數據的分析和處理,不同之處在於BI主要是通過人對數據的規則進行發現,AI是通過機器對數據的規則進行發現。我們同行裏面有一個專家曾經說過,當規則超過1千萬條,機器是可以超過專家的。這句話就是講機器學習的特點就是精準。

技術分享圖片

AI通過機器學習挖掘數據裏面的規則,效果比人做的更精準,而想用AI解決問題有4個約束條件。

第一個條件是業務場景。我們現階段的人工智能不是強人工智能,並不能像科幻電影裏一樣可以解決任何問題。能夠用機器學習解決問題的前提之一,是把業務問題轉化為機器學習的建模問題,這樣的問題可以用AI解決,所以業務場景是特別重要的一點。

第二個條件是海量數據。我們現在的機器學習,其原理是基於統計來學習數據中的規則。我們根據數據歷史,基於統計發現其中規律,然後再將這些規律用於未來的數據預測。在歷史數據裏發現規則,需要海量的數據,這些海量數據應該是特征豐富、不重復,高質量的數據。

第三個條件是人才。這涉及到做算法人才、把算法在工程中實現的人才、產品化的人才以及將AI和業務系統集成的人才,這些人都屬於AI人才。

第四個條件是技術能力。包含了計算資源、存儲、網絡以及和業務系統的集成。AI如果不能跟企業業務系統集成在一起是沒有業務價值的。

技術分享圖片

剛才說的是機器學習的4個要素,接下來舉例說明這4個要素在不同場景當中的體現。

在風控領域,海量數據包括客戶交易數據、黑名單數據、客戶數據、客戶賬戶數據等等。這些數據都為我們提供各種維度的特征。我們用AI做風控,例如用AI判斷信用卡交易是不是欺詐交易,或者信用卡催收時,判斷一個客戶的還款意願是否強烈,這些問題可以轉化為回歸或者是分類問題。用這樣的方式,把金融風控領域裏的一些業務場景轉化為一個系列具體的、可以通過機器學習建模來解決的技術問題。

技術分享圖片

在營銷領域,海量數據包括客戶畫像、客戶行為,商品目錄,營銷活動數據、營銷成果數據(如歷史上把某一類商品推銷給某些客戶,成功或者沒有成功)等等,我們把這些數據送給機器去學習,哪種商品推給哪類客戶比較容易成功,哪種不容易成功,這是我們要做的事情。具體到業務問題,例如說沈睡喚醒,在銀行和電商有很多客戶都存在開戶後可能兩三年再也沒有業務的情況,就屬於沈睡客戶,如果通過一些推銷手段,如給你發短信或者推薦促銷活動,看能不能讓客戶重新在銀行或電商活躍起來;又如商品個性化推薦,很多人在京東買手機以後,京東會推薦手機膜、耳機、儲存卡等商品,這些推薦會根據其他用戶選擇或該用戶購買歷史以及跟該商品有關聯的其他商品做推薦。

技術分享圖片

在健康領域,海量數據包括患者的行為數據、處方數據、病史數據等等,用這些數據做疾病預測,例如糖尿病預測,根據病人的數據預測兩年或三年以後得糖尿病的概率,就是AI的一個應用場景。

技術分享圖片

最後一個場景AI加制造,在很多工廠裏面也需要,用AI改善工藝流程或者降低成本,在這裏海量數據會包含機臺參數(每一個不同的設備加工時的輸出參數)、工藝流程數據,場景包括通過機器學習做一些智能測量以解決在某些人到不了的情況下需要做檢測的問題。

技術分享圖片

在不同的業務場景裏面,AI數據和AI業務問題具有多樣性。但是相對而言AI人才(包括建模和工程人才)和AI的計算資源和計算能力是通用的,各場景的建模過程大體上也差不多。

技術分享圖片

同時AI人才和計算能力又是有層次的,AI從理論研究到能夠應用到工程中需要經歷4個層面,最貼近業務的一層是模型,然後是算法,業務問題提出後在算法層面調試獲得模型,模型不不能直接使用,如何打造數據閉環,需要在工程層面或者產品層面去實現。至於計算框架和計算資源層,模型訓練還有很多工程方面的問題需要解決,包括算法與數據源集成、訓練的日誌和錯誤監控、任務調度等等。這些問題和業務相關度較小,但技術難度又很大,實施周期長,給傳統企業使用AI、擁有AI能力造成了一定的困難。

技術分享圖片

我們把AI的人才按照成熟度的不同分成4類:第一種是AI Geek,從底層計算資源搭建到計算框架的引入,一直到上面的算法編寫,包括模型的調優,一個人可以做完,這種人非常的稀缺,效率不一定高,因為所有工作都要重頭做。

第二種是AI研究者,他們對某類算法很熟,他們自己會寫比較高級的算法。但是他們可能對底層的計算框架,比如說GPU怎麽管理,不是很清楚,只要把算法寫好就可以了,底層交給工程人員,這屬於AI的研究者。

第三種是AI的從業者,在座的同學大部分在這個層級上面,這一塊的特點是:知道整個建模的流程;也能夠用一些開源的算法做模型訓練,希望能夠有一個比較好的機器學習UI,不需要從框架上或者每一個交互都需要一個命令行來建模。

最後一種是AI的應用人員,希望直接拿到發揮作用的模型,不關心模型的原理,希望的是能夠從業務數據直接獲取一個模型來解決業務問題。

技術分享圖片

根據以上這麽多用戶層次的差異性,我們需要針對不同用戶訴求提供差異化的方案、產品和服務。

先從最底層說起,針對AI研究人員需要提供計算資源、任務的調度、計算資源的管理,他自己寫算法。

第二類是AI從業者,AI從業者需要自己建模,對算法做少量改動。另外他們關心模型建好以後,如何與業務系統集成,數據閉環如何實現。數據閉環是為了防止模型衰減,保證模型上線後能夠叠代訓練以保持效果,這也是這個層級的用戶會關心的事情。

再往上一個層級就是AI應用者,AI應用者需要模型自動訓練、自動數據分析、自動特征工程,模型訓練完成後自動布署為服務。最好還能夠對模型微調,就是加一些數據,可以適應新的場景。

技術分享圖片

我們針對不同層次的客戶提供差異化的產品,最左邊的TI-A是深度學習加速器,主要是做模型訓練加速,我們的速度很快,在雲上面使用TI-A平臺,可以幫助用戶實現深度學習訓練的加速。而且這個模型訓練完以後,它可以一鍵部署,這也解決了模型訓練完以後怎樣可以應用到業務場景裏,怎樣做預測的問題。

中間的產品TI-ONE,是智能鈦一站式機器學習平臺,它有一個可視化的UI,用戶可以一目了然看到整個建模的工作流,可以看到數據的流轉關系和各環節的依賴關系,這個產品可以讓用戶方便地建模,而且裏面有很多內置的算法。

最右邊是TI-S,它的特點是全自動、黑科技,不需要用戶建模,只需要給它數據,就可以反饋給你一個可用的模型,真正一鍵建模,模型訓練完後能夠部署成一個應用。

技術分享圖片

接下來我們仔細來看一下智能鈦產品具體都有哪些功能。在TI-ONE裏面支持機器學習、深度學習和模型推理,機器學習裏面包含了數據加載、預處理、特征工程、特征選擇的工具,後面還有一些具體的算法。深度學習裏面包含了一些已經寫好的神經網絡的算法,針對一些業務的場景也有一些封裝好的、針對這個業務場景的算法,例如機器視覺的算法,自然語言處理等等。

在模型推理部分,對於機器學習訓練出的模型,後續處理包括模型部署、模型管理、模型監控、模型驗證等等。

TI-A相對比較簡單,含有一些深度學習的神經網絡庫和模型推理的功能,UI采用輕量化的客戶端,用控制臺支持模型和任務的監控。

TI-S的模型訓練、部署都是自動化在後臺運行,用戶只需要把數據傳上去,TI-S自動完成數據處理,特征工程,算法選擇和參數優化。

技術分享圖片

智能鈦平臺降低企業獲得AI能力的門檻:框架方面,智能鈦平臺內置眾多主流框架,省去用戶自己集成框架的工作;算法方面,由於有內置算法,省去用戶很多寫算法的工作;模型調優方面,智能鈦平臺的圖形界面可以幫助用戶做算法調優,有比較靈活的調度和調參方式;在模型管理方面,智能鈦平臺可以幫助用戶搭建數據閉環,數據閉環只有在自己搭建的算法訓練出的模型上才能實現,直接購買的AI應用通常不支持數據閉環;協作方面,智能鈦平臺支持團隊的模型分享、算法分享。

技術分享圖片

以智能鈦為核心,企業還能打造開發者生態,在這個平臺上面開發應用,開發者可以省去很多底層比較辛苦的工作,而且能通過這個平臺來實現模型的閉環。另外,騰訊有比較強大的技術能力和算法服務,也有比較豐富的數據服務,可以幫助開發者做出更好的AI應用。雲平臺底層有比較豐富的計算資源,AI開發和運轉需要大量計算資源。

技術分享圖片

這個圖是模型自更新的框架圖,自建AI模型很難,所以很多企業願意直接購買AI應用,但當出現以下幾種情況的時候,就必須自建模型。第一,如果你需要解決的問題場景比較獨特,而不是一個簡單的人臉識別、語音識別,例如在很多制造型的企業中,生產流程中需要測量的值比較獨特,這種情況下只能自己建模型。第二,數據比較獨特,而且你也不願意把數據公開。建模需要大量數據,例如剛剛講的AI語音識別中,因為沒有方言的語料,就沒有很好的方言識別模型。那麽如果你需要一個AI模型,而這個模型需要廠商來幫你訓練,那你至少得把相應的數據給他。但是有一些你自己公司內部的應用數據,別人買不著,你又不願意拿出去,這個時候就得自己建模。第三,模型需要不斷自更新,自更新在很多場景下都是很重要的,因為模型會衰減,所以需要增加新的數據以適應新的情況,自己建的模型,首先這個數據是自己的,通過一個標註平臺進入訓練平臺,平臺都在你自己的機房裏面,這邊的模型全部都是在平臺計算出來的。通過平臺和業務系統數據總線打通以後,實際上可以形成一個模型的閉環和數據的閉環,就滿足一個模型自更新的要求。

關於平臺的應用案例:我們這個平臺目前的案例包括:金融領域的風控,營銷以及基於NLP、OCR實現運營優化等等;教育領域和高校或賽事舉辦方合作,以平臺為基礎來提供比賽的環境以及教學環節等等;商業領域方面,幫物業公司實現物業管理的服務水平優化;工業領域方面,幫地鐵公司對軌道、車輛設備做異常檢測。以上這些場景大多比較特殊,只能通過機器學習平臺自己訓練這樣的模型。

Q&A

Q1:騰訊的AI定義是什麽?從最早的AI識別,到大數據系統,建模放在AI當中,現在更多的是講深度學習和機器學習,我不太清楚。

A1:語音包括小微都屬於AI應用層面,AI應用底下靠什麽來承載,就是AI的平臺和框架,以及再往下的計算資源。我們這個平臺定位的是AI基礎平臺,它就是一個建模的工具,可以提供的是機器學習和深度學習的建模所需要的工具。

Q2:機器學習在原理上沒有變化?用matlab能不能訓練機器學習和深度學習模型?

A2:機器學習在原理上沒有變,深度學習是神經網絡演化出來的,神經網絡層數變大以後變成了深度學習學習,用matlab訓練模型從原理上和算法上來講是沒有問題的,但是從思路上來說,現在機器學習的思路跟以前不一樣的地方,以前是降維,因為計算能力有限,現在都是升維。現在隨隨便便一個神經網絡幾十層,計算量都是很大的,這就是為什麽深度學習需要用GPU的原因,用matlab訓練的話計算能力會有問題,訓練不出來。

問答
機器學習和人工智能在工業4.0時代有什麽具體應用?
相關閱讀
王珺:智能音箱語音技術分享
人工智能、機器學習、深度學習,三者之間的同心圓關系
易圖秒懂の人工智能誕生
【每日課程推薦】機器學習實戰!快速入門在線廣告業務及CTR相應知識

此文已由作者授權騰訊雲+社區發布,更多原文請點擊

搜索關註公眾號「雲加社區」,第一時間獲取技術幹貨,關註後回復1024 送你一份技術課程大禮包!

海量技術實踐經驗,盡在雲加社區!

郭律: 論機器學習平臺與人工智能的關系