1. 程式人生 > >【SQL Server】機器學習的生命週期和角色

【SQL Server】機器學習的生命週期和角色

機器學習專案十分複雜,因為它們需要不同組專業人員的技能協作。本文旨在介紹的機器學習的生命週期、參與機器學習的專業人員角色介紹以及SQL Server如何支援主體的需求任務。


機器學習生命週期

機器學習是一個複雜的過程,許多方面花費的時間比預期更復雜。下面是一些機器學習要求企業中的資料專業人員支援的方式:

  • 機器學習開頭的目標和業務規則的標識。
  • 機器學習專業人員必須要注意的儲存、提取和稽核資料。
  • 必須標識資料來源,並從感測器和業務應用程式中提取相應的資料。
  • 機器學習工作的質量不僅高度依賴於有價值的資料型別,還有提取、儲存和處理資料的程序型別。
  • 機器學習專案都是在報告和分析的幫助下完成,不過客戶的參與及反饋的不完整有可能造成影響。

SQL Server在許多企業資料專業人員和機器學習專家之間搭建橋樑,體現在:

  • 資料可以是儲存在本地或雲中
  • SQL Server整合的企業資料處理功能,包括reporting和ETL的每個階段
  • SQL Server支援資料安全性、資料冗餘和稽核
  • 提供了資源調控

資料科學家

資料科學家使用不同的工具用於資料分析和機器學習,範圍從免費的開源平臺到需要深厚技術知識的昂貴統計套件。但是使用SQL Server RPython較這些傳統的工具提供了獨一無二的好處:

  • 你可以通過使用所選的開發環境開發和測試解決方案,然後用T-SQL程式碼的一部分部署R
    Python程式碼。
  • 從資料科研人員的行動式計算機上移動複雜計算到伺服器上,避免資料移動對企業的安全策略造成影響。
  • 通過特殊的R包和Api改進了效能和可擴充套件性。不再忍受R的單執行緒、記憶體密集型體系結構,可以處理大型資料集和多執行緒、多核、多程序計算。
  • 程式碼可移植性:在SQL ServerHadoopLinux上利用機器學習伺服器可以執行解決方案。

應用程式和資料庫開發人員

資料庫開發者肩負整合多種技術並將結果整合在一起的任務,以便在整個企業中共享這些結果。資料庫開發人員與應用程式開發人員、SQL開發人員以及資料科學家一起設計解決方案,推薦資料管理方法,並設計或部署解決方案。

SQL Server的整合為資料開發人員提供許多好處:

  • 在資料開發人員使用SQL Server Management Studio部署解決方案時,資料科研人員仍可在R Studio工作。並且沒有更多RPython解決方案重新編碼的工作量。
  • 使用T-SQLRPython優化解決方案,可以更有效地利用資料庫專業人員在SQL伺服器的知識。
  • 輕鬆自動處理大量資料,例如根據生產資料生成必須反覆執行任務的預測評分。
  • 利用Transact-SQL從任何應用程式訪問RPython的指令碼。
  • 得益於在資料庫中計算多執行緒,API可以處理大型流式資料集

資料庫管理員

資料庫管理員必須將存在競爭的專案和優先順序整合到資料庫伺服器中,他們不僅需要為資料科學家提供資料訪問許可權,還需要為各類報表開發者、業務分析人員和業務資料使用者提供資料訪問許可權,同時還負責維護操作和報告資料儲存的執行狀況。在企業中,DBA是構建和部署有效的資料科學基礎結構的重要組成部分。

  • SQL server的安全體系結構R Services(資料庫內)使資料庫保持安全,並將執行其隔離的外部指令碼資料庫的例項操作。你可以指定誰有權執行機器學習指令碼,並使用資料庫角色來管理包。
  • 在單獨的程序裡確保你的伺服器繼續按常規方式執行。
  • 使用SQL Server資源調控可讓你在控制的記憶體和程序分配給外部執行時,防止海量計算降低伺服器的整體效能。

架構師和資料工程師

架構師設計整合機器學習生命週期的所有方面的工作流,資料工程師設計並構建ETL解決方案以及確定如何優化工程機器學習任務。整體的資料平臺必須用於平衡競爭的業務需求。

由於R Services(資料庫內)緊密集成了其他Microsoft工具,例如商業智慧、資料倉庫堆疊、企業雲、移動工具和Hadoop等,因此它為想要提升高階分析功能的資料工程師或系統架構師提供了一系列好處:

  • 通過使用系統儲存過程來填充資料集、生成圖形。
  • 呼叫PythonR指令碼獲取預測結果。
  • 在沒有多個並行工作流資料中,Azure 資料工廠和Azure SQL Database的支援可以容易地使用機器學習處理工作流中的雲資料來源。

檢視轉載原文點選這裡