1. 程式人生 > >微軟開源大規模數據處理項目 Data Accelerator

微軟開源大規模數據處理項目 Data Accelerator

和數 代碼 接收器 監控 開源 github 使用 blank -o

微軟開源了一個原為內部使用的大規模數據處理項目 Data Accelerator。自 2017 年開發以來,該項目已經大規模應用在各種微軟產品工作管道上。

據微軟官方開源博客介紹,Data Accelerator 的一些方法可以更容易地在 Apache Spark 上構建流式傳輸管道:

  • 即插即用:輕松設置輸入源和輸出接收器,以便在幾分鐘內建立管道。Data Accelerator 支持從 Eventhub 和 IoThub 取數據,並支持將數據下載到 Azure blob、CosmosDB、Eventhub 等。
  • 無代碼體驗:無需編寫任何代碼即可設置警報和數據處理。通過規則設計器體驗,您可以指定簡單和聚合的數據處理,標記和警報。
  • SQL 查詢:在 SQL 中編寫復雜的處理——無需在 Scala 中工作。內置的可擴展性模型還支持用戶定義的函數並利用 Azure 功能,例如,用於 ML 中流。
  • 實時查詢:通過針對傳入數據樣本運行,在幾秒鐘內驗證您的查詢,從而節省設置和測試管道處理的工作時間。

Data Accelerator 不僅僅是 EventHub 和數據庫之間的管道。它允許用戶在繼續流式傳輸的同時重塑傳入的事件,然後將同一事件的不同部分路由到不同的數據存儲,同時提供健康監控和整個管道狀態的警報。

Data Accelerator 還提供配置 UI 和規則/查詢設計器體驗,使用戶無需編寫任何代碼即可啟動和運行。

此外,任何進行流數據處理的人通常都需要使用滑動窗口處理數據,或處理延遲到達數據,或者隨時間累積數據。Data Accelerator 支持並簡化了這些高級功能的使用。

最後,微軟提到,Data Accelerator 支援 dev-test 循環的快速驗證周期,其中查詢針對本地采樣的事件運行在部署之前就能叠代修正到可用,這可以節省大量測試工作管道處理的時間。

GitHub地址:https://github.com/microsoft/data-accelerator

轉至:https://www.oschina.net/news/106154/microsoft-open-sources-data-accelerator

微軟開源大規模數據處理項目 Data Accelerator