1. 程式人生 > >Spark 2.3新版釋出,開始支援原生 Kubernetes_Kubernetes中文社群

Spark 2.3新版釋出,開始支援原生 Kubernetes_Kubernetes中文社群

開源社群越來越多人使用Kubernetes來進行資料處理、資料分析和處理機器學習計算,Kubernetes也增加了不少擴充功能,資源定製化、控制器定製化,以便對更深度整合這類專屬應用程式。

現在熱門的大資料分析平臺Spark在2.3新版中,開始原生支援Kubernetes。可以直接在一個現成Kubernetes 1.7以上版本部署的容器叢集中,執行Spark運算工作,而且還可以利用Spark自身功能,來管理分散的資料處理或分析任務。Spark可以接使用Kubernetes叢集的名稱空間或儲存空間,例如整合到外掛式驗證機制或Log追蹤上。

Spark原生支援Kubernetes最大的好處是,不用重新安裝Kubernetes叢集,或改變現有Kubernetes叢集的配置,只要建立一個新的容器映象,並指派合適的RBAC許可權角色,給所要執行的Spark應用程式,就可以開始使用這個Spark程式了。

在2.3新版中還有不少重要更新,例如增加了新的DataSource機制、Structured Streaming API第二版,也強化了PySpark的效能。

Hadoop工具商MapR強化Kubernetes支援,在K8S分析大資料更穩定

知名Hadoop分析工具之一的MapR,最近在Strata Data大會上宣佈,要提供進行容器整合機制,推出MapR Data Fabric的Kubernetes支援,可以讓MapR的Converged Data Platform大資料分析平臺可以提供容器上可用的永久儲存空間,也可供用來部署一個Stateful型別的容器應用。

MapR Data Fabric現在可以原生整合到Kubernetes的儲存空間,來提供永久儲存空間,可用來存資料庫、檔案或串流資料等。