AutoML如何讓業務分析師BA掌握AI的力量?
將人工智慧和機器學習融入業務應用程式並非易事。特別是,當涉及到處理關鍵任務型的企業應用時,將ML與現有應用程式整合成為一項具有挑戰性的工作。
從組織決定將機器學習納入完全訓練模型的實際部署開始,有多個階段涉及不同的團隊和具有不同技能的個人。它必須通過下圖中描述的工作流程。
機器學習管道
1. 資料採集涉及從各種資料來源(如RDBMS,NoSQL資料庫,資料倉庫,第三方源等)中識別和提取資料。企業依靠高階ETL(提取,轉換,載入)工具來聚合來自異構資料來源的資料。
2. 資料探索將提供對採集資料集的深入瞭解,並幫助資料工程團隊評估資料質量。此階段將幫助團隊在聚合資料集中查詢隱藏模式,相關性,缺失資料點。
3. 資料準備階段涉及清理資料集。缺少資料點可能會被丟棄,現有列可能會被拆分,多列可能會合並,最後,資料集將變為有價值的輸入源。
4. 特徵工程是資料科學家從資料集中識別相關(標籤)和獨立變數(特徵)的關鍵步驟。會執行編碼,縮放和規範化等技術,以使資料保持一致和同質。特徵工程對ML專案的成功至關重要。
5. 下一階段,即模型選擇,就是從眾多可用的統計模型中選擇正確的演算法。可能存在多個演算法(有時甚至是十幾個)來解決相同的問題。經驗豐富的資料科學家將應用直覺與對業務問題的深入理解相結合,以精選一組演算法。
6. 在訓練階段,完全準備好的特徵工程資料集用於訓練和測試模型的準確性。輸入資料被分成訓練和測試資料集,這有助於評估模型的準確性和精確度。
7. 超引數調整涉及調整訓練作業的各種引數以演化準確的模型。對於用於訓練的所有入圍演算法都進行了這種優化。此階段是工作流程中所有步驟中最複雜的。
上面三個階段 - 模型選擇,模型訓練和超引數調整 - 被多次迭代,直到結果令人滿意。對於選擇用於訓練的每個模型,迭代地應用超引數調整。
最後,選擇並部署最佳模型用於實時預測。開發人員可以像任何其他API一樣呼叫REST端點來生成預測。
使用AutoML
AutoML嘗試通過自動執行大多數步驟來加速培養訓練模型的過程。期望使用者上傳資料集並等待預測變得可用。從特徵工程到超引數調整,AutML可自動執行管道中最複雜的步驟。
AutoML建立了一類新的“公民資料科學家”,將高階ML的力量直接交給商業使用者。這並不意味著使用AutoML平臺的組織不需要資料科學家。他們在提供經驗和領域知識方面仍然可以發揮作用。但是,AutoML使資料科學家的工作效率更高,因為模型構建過程中的重複步驟是自動化的,允許他們使用他們獨特的專業知識來優化模型。
在處理AutoML平臺時,業務分析師會專注於業務問題,而不是迷失在流程和工作流程中。大多數平臺會提示使用者上傳資料集,然後標記類別。之後,在幕後處理準備資料,選擇正確的演算法,優化和超引數調整所涉及的大多數步驟。一段時間後,平臺公開了一個可用於預測的REST端點。這種方法顯著改變了培訓機器學習模型所涉及的傳統工作流程。
AutoML入門
AutoML是AI和ML領域不斷髮展的趨勢。IBM,Google和Microsoft等公共雲提供商通過提供自定義認知平臺開創了AutoML革命。ofollow,noindex" target="_blank">DataRobot 等企業級企業正在為企業帶來AutoML 的強大功能。包括Scikit-learn和Keras在內的主流框架正在採用AutoML來簡化工作流程。
AutoML完全適用於認知API和自定義ML平臺之間。它提供了正確的自定義級別,而無需強迫開發人員完成精心設計的工作流程。與通常被視為黑盒子的認知API不同,AutoML具有相同程度的靈活性,但自定義資料與可移植性相結合。
某些AutoML平臺(如Microsoft Azure)還支援匯出與執行Android和iOS的移動裝置相容的完全訓練的模型。開發人員可以快速將模型與移動應用程式整合,而無需學習機器學習的細節。
微軟最近宣佈 可以在容器中執行認知服務。當AutoML模型匯出到Docker容器中時,DevOps團隊將能夠大規模部署它們,以便在生產環境中進行推理。他們可以將容器託管在由Kubernetes和DC / OS管理的可擴充套件叢集中。
隨著每個平臺供應商都試圖使機器學習民主化,AutoML正在發展成為人工智慧的未來。它將AI的力量交給了業務分析師和技術決策者。