1. 程式人生 > >為Spark叢集配置jupyter notebook的Spark kernel

為Spark叢集配置jupyter notebook的Spark kernel

在Jupyter的官方github的kernel list裡有一個sparkmagic,安裝之後就可以直接在jupyter 中建立Spark、PySpark、PySpark3和SparkR這幾種kernel的notebook了。

下面介紹一下安裝過程。

安裝Livy

sparkmagic是基於Livy的,必須先在叢集的master上安裝好Livy。

Livy的安裝很簡單(在master機器上操作):
- 從https://livy.incubator.apache.org/下載livy
- 將下載的檔案解壓到你想安裝的目錄下,假設為/home/livy
- 將/home/livy/bin 追加到環境變數path中

安裝sparkmagic

在master機器上執行:
- pip install sparkmagic
- jupyter nbextension enable –py –sys-prefix widgetsnbextension
- 進入你剛剛用pip安裝的sparkmagic包的目錄下,執行以下幾個命令

 jupyter-kernelspec install sparkmagic/kernels/sparkkernel
 jupyter-kernelspec install sparkmagic/kernels/pysparkkernel
 jupyter-kernelspec install sparkmagic/kernels/pyspark3kernel
 jupyter-kernelspec install sparkmagic/kernels/sparkrkernel

- jupyter serverextension enable –py sparkmagic

如何使用

  1. 啟動spark叢集: 終端執行$SPARK_HOME/sbin/start-all.sh
  2. 啟動Livy服務:終端執行/home/livy/bin/livy-server
  3. 啟動jupyter notebook: 終端執行jupyter notebook
  4. 然後就可以在瀏覽器中訪問到基於master的ip的notebook,並在notebook中建立spark等四種kernel的筆記了