容器開啟數據服務之旅系列（二）：Kubernetes如何助力Spark大數據分析

阿新 • • 發佈：2018-04-17

容器控制臺

摘要：容器開啟數據服務之旅系列（二）：Kubernetes如何助力Spark大數據分析（二）：Kubernetes如何助力Spark大數據分析概述本文為大家介紹一種容器化的數據服務Spark + OSS on ACK，允許Spark分布式計算節點對阿裏雲OSS對象存儲的直接訪問。

容器開啟數據服務之旅系列（二）：Kubernetes如何助力Spark大數據分析

（二）：Kubernetes如何助力Spark大數據分析

概述

本文為大家介紹一種容器化的數據服務Spark + OSS on ACK，允許Spark分布式計算節點對阿裏雲OSS對象存儲的直接訪問。借助阿裏雲Kubernetes容器服務與阿裏雲OSS存儲資源的深度整合，允許Spark分布式內存計算，機器學習集群對雲上的大數據直接進行分析和保存結果。

先決條件

你已經通過阿裏雲容器服務創建了一個Kubernetes集群，詳細步驟參見創建Kubernetes集群

從容器服務控制臺創建一個Spark OSS實例

使用三次點擊來創建一個1 master + 3 worker 的Spark OSS的實例

1 登錄 https://cs.console.aliyun.com/
2 點擊 “應用目錄”
3 選擇 "spark-oss", 點擊 “參數”
?
技術分享圖片

給你的應用一個名字， e.g. spark-oss-online2
（必選）填寫你的oss_access_key_id和oss_access_key_secret

Worker:

 # set OSS access keyID and secret
  oss_access_key_id: <Your sub-account>
  oss_access_key_secret: <your key_secret of sub-account>

3.（可選）修改工作節點數目 Worker.Replicas: 3
?
技術分享圖片

4 點擊 “部署”
5 點擊 “Kubernetes 控制臺”，查看部署實例

技術分享圖片

6 點擊服務，查看外部端點, 點擊URL訪問Spark集群
技術分享圖片

? 技術分享圖片

7 測試Spark集群

1.打開一個spark-shell

kubectl get pod | grep worker

spark-oss-online2-worker-57894f65d8-fmzjs 1/1 Running 0 44m

spark-oss-online2-worker-57894f65d8-mbsc4 1/1 Running 0 44m
spark-oss-online2-worker-57894f65d8-zhwr4 1/1 Running 0 44m

kubectl exec -it spark-oss-online2-worker-57894f65d8-fmzjs --  /opt/spark/bin/spark-shell --master spark://spark-oss-online2-master:7077

粘貼下列代碼，使用Spark測試OSS的讀寫性

// Save RDD to OSS bucket
val stringRdd = sc.parallelize(Seq("Test Strings\n Test String2"))
stringRdd.saveAsTextFile("oss://eric-new/testwrite12")

// Read data from OSS bucket
val lines = sc.textFile("oss://eric-new/testwrite12")
lines.take(10).foreach(println)

Test Strings
Test String2

CLI 命令行操作

Setup keys and deploy spark cluster in one command

export OSS_ID=<your oss id>
export OSS_SECRET=<your oss secrets>

helm install -n myspark-oss --set "Worker.oss_access_key_id="$OSS_ID",Worker.oss_access_key_secret="$OSS_SECRET incubator/spark-oss

kubectl get svc| grep oss
myspark-oss-master   ClusterIP      172.19.9.111    <none>          7077/TCP         2m
myspark-oss-webui    LoadBalancer   172.19.13.1     120.55.104.27   8080:30477/TCP   2m

原文鏈接

閱讀更多幹貨好文，請關註掃描以下二維碼：
技術分享圖片

容器開啟數據服務之旅系列（二）：Kubernetes如何助力Spark大數據分析

容器控制臺摘要：容器開啟數據服務之旅系列（二）：Kubernetes如何助力Spark大數據分析（二）：Kubernetes如何助力Spark大數據分析概述本文為大家介紹一種容器化的數據服務Spark + OSS on ACK，允許Spark分布式計算節點對阿裏雲OSS對象存儲的直接訪問。

容器開啟數據服務之旅系列（二）：Kubernetes如何助力Spark大數據分析

容器開啟數據服務之旅系列（二）：Kubernetes如何助力Spark大數據分析

容器開啟資料服務之旅系列（一）：Kubernetes如何解自建PostgreSQL運維之痛

eShopOnContainers學習系列（二）：數據庫連接健康檢查

Scrum敏捷實踐之旅系列（一）使用者故事概念

.Net Core 商城微服務項目系列（一）：使用IdentityServer4構建基礎登錄驗證

.Net Core 商城微服務項目系列（三）：Ocelot網關接入Grafana監控

PaaS服務之路漫談（二）

Windows Service 學習系列（二）：C# windows服務：安裝、解除安裝、啟動和停止Windows Service

微服務之SpringCloud乾貨（一）：SpringCloud簡介

機器學習之數學系列（二）邏輯迴歸反向傳播數學推導

【笨木頭Unity】入門之旅010（完結）：Demo之四處找死（五）_UI

Android之基礎系列（二）

V-rep遠端API控制之Python系列（1）：位置控制模式

程式設計師之網路安全系列（二）：如何安全儲存使用者密碼及雜湊演算法

Netty4.x 原始碼實戰系列（二）：服務端bind流程詳解

乾貨實操：微服務Spring Cloud 系列（二） Eureka服務發現與服務註冊(strand alone)

.Net Core 商城微服務項目系列（十）：使用SkyWalking構建調用鏈監控（2019-02-13 13:25）

Redis服務之常用配置（二）

Java設計模式之工廠模式（二）：抽象工廠模式

JavaScript夯實基礎系列（二）：閉包

容器開啟數據服務之旅系列（二）：Kubernetes如何助力Spark大數據分析

相關推薦