AWS 神器為資料科學家輕鬆打造機器學習全流程 –– EMR Spark + SageMaker 黃金搭檔

阿新 • • 發佈：2019-01-13

工欲善其事，必先利其器。在機器學習的世界裡，要想成為一名出色的資料科學家，必須要善於使用機器學習的工具。

資料科學家經常使用 Apache Spark 來做資料的預處理，Apache Spark 提供的 MLlib 庫不但包含很多常用的機器學習演算法（如 K-Means，分類，迴歸等）及資料特徵抽取，特徵轉換的預處理方法（如 Word2Vec，Tokenizer，Normalizer，PCA 等），而且還能借助 Spark 叢集的多工作節點平行計算的能力，對資料進行快速預處理。資料科學家還喜歡使用 IPython，Jupyter Notebook 等互動式工具來檢查，分析機器學習任務的各個階段。當然還需要使用來搭建模型訓練和部署的機器叢集。

這些不同的機器學習工具或框架有著各自的安裝配置方法，串聯整合起來到整個機器學習流程中更是複雜，資料科學家們往往要耗費大量精力用於整個流程的搭建上。那有沒有高效的工具來幫助資料科學家事半功倍完成機器學習的任務呢？那是當然的！ AWS 的明星服務 EMR 和 SageMaker 就是把廣大資料科學家從枯燥重複性勞動中解救出來的神器。利用兩個服務組合不但能快速預處理資料，一鍵訓練和部署模型，同時還提供 Jupyter Notebook 給資料科學家互動式環境，以方便檢跟蹤查機器學習每個階段。

今天我們就來講述一下如何利用 AWS 的 EMR Spark + SageMaker 服務快速打造一套識別 MNIST 手寫數字圖片的機器學習流程。MNIST 是一個手寫數字資料庫,它有 60000 個訓練樣本集和 10000個測試樣本集，我們把這個 MNIST 儲存到 AWS 的 S3 上，利用 EMR Spark 的 PCA 演算法對訓練樣本（28*28圖片）進行特徵抽取，然後再借助 SageMaker 自帶的 K-Means 演算法進行模型訓練並自動部署模型。

Amazon EMR 和 SageMaker 是什麼？

Amazon EMR服務是一個託管的 Hadoop 服務，現支援最新的 Apache Spark 2.3.0，能夠幾分鐘內快速搭建起來一個 Spark 叢集，同時 EMR 還能支援 Spot 例項能夠大大節約資料預處理的成本。

Amazon SageMaker 是一個託管的模型訓練和部署服務，不僅能夠快速搭建構建起機器叢集進行模型訓練，並且能自動部署訓練好的模型。SageMaker 不但內建了 10 餘種常用的機器學習演算法（如 K-Means，分類，迴歸），還支援 MXNet 和 TensorFlow 深度學習框。

Amazon SageMaker 提供了一個 SageMaker Spark 庫（Scala&Python），能把機器學習 pipeline 中的 Spark 資料預處理階段和 SageMaker 模型訓練和部署階段自動連線起來。

Amazon SageMaker 還提供了預安裝 Anaconda 環境的 Jupyter Notebook 例項，能夠方便資料科學家進行互動式處理機器學習任務。在今天的例子中，我們將使用 Jupyter Notebook 來對接 EMR Saprk 叢集，在 Notebook 中給 EMR Spark 傳送指令，互動式地觀察對 MNIST 資料集進行機器學習的過程。

前提條件

Spark 叢集和 SageMaker Jupyter 例項需要在同一個 VPC 內
Spark 的 master 節點的安全組需要對SageMaker Jupyter 例項開放 8998 埠。

具體步驟

首先建立 EMR Spark 叢集（請使用高階模式），選擇 Hadoop, Livy（Spark 和 Jupyter Notebook 通訊元件）, Spark 元件。從 EMR 5.11 版本後，Spark 節點上已經預安裝好 SageMaker 的 Spark 庫。

配置 EMR 節點的型別和數量，可以選擇 spot 例項型別幫助節約成本。在這裡我配置了一個 master節點，兩個 core 節點，都是 M4.large 機型。

建立好了 Spark 集群后，記下 Spark master 節點的 ip 地址，後面在 Sagemaker notebook instance 中需要配置。

修改 EMR Spark master EC2 節點安全組，新增 Livy 埠，source 選擇 Jupyter Notebook 所在的安全組。

因為需要在 EMR 的 master 節點中呼叫 SageMaker 服務，所以還需要對 EMR 中的 EC2 Role 賦予 SageMakerFullAccess 的許可權。

在 SageMaker 中建立 Notebook Instance：

在 notebook 控制檯中選擇 new -> Terminal：

開啟終端後執行以下命令：

cd .sparkmagic wget https://raw.githubusercontent.com/jupyter-incubator/sparkmagic/master/sparkmagic/example_config.json mv example_config.json config.json