Python技術棧與Spark大資料資料平臺整合實戰--大資料ML樣本集案例實戰

Python Spark 大資料 · 發表 2018-12-13 23:20:10

摘要：版權宣告：本套技術專欄是作者（秦凱新）平時工作的總結和昇華，通過從真實商業環境抽取案例進行總結和分享，並給出商業應用的調優建議和叢集環境容量規劃等內容，請持續關注本套部落格。QQ郵箱地址：[email protected]，如有任何學術交流，可隨時聯絡。 1 Python技術棧與Spark...

版權宣告：本套技術專欄是作者（秦凱新）平時工作的總結和昇華，通過從真實商業環境抽取案例進行總結和分享，並給出商業應用的調優建議和叢集環境容量規劃等內容，請持續關注本套部落格。QQ郵箱地址：[email protected]，如有任何學術交流，可隨時聯絡。

1 Python技術棧與Spark 大資料資料平臺整合

下載Anaconda3 Linux版本

Anaconda3-5.3.1-Linux-x86_64.sh
複製程式碼

安裝Anaconda3

bash Anaconda3-5.3.1-Linux-x86_64.sh -b 
複製程式碼

環境變數配置PYSPARK_DRIVER_PYTHON以及PYSPARK_PYTHON配置

export SCALA_HOME=/usr/local/install/scala-2.11.8
export JAVA_HOME=/usr/lib/java/jdk1.8.0_45
export HADOOP_HOME=/usr/local/install/hadoop-2.7.3
export SPARK_HOME=/usr/local/install/spark-2.3.0-bin-hadoop2.7
export FLINK_HOME=/usr/local/install/flink-1.6.1

export ANACONDA_PATH=/root/anaconda3
export PYSPARK_DRIVER_PYTHON=$ANACONDA_PATH/bin/ipython
export PYSPARK_PYTHON=$ANACONDA_PATH/bin/python


export JRE_HOME=${JAVA_HOME}/jre
export CLASS_PATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=:${JAVA_HOME}/bin:${SCALA_HOME}/bin:${HADOOP_HOME}/bin:${SPARK_HOME}/bin:$PATH
export PATH=/root/anaconda3/bin:$PATH
複製程式碼

啟動Saprk

啟動jupyter notebook

老版本
PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook --allow-root" pyspark

未來版本
PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS=`jupyter notebook --allow-root` pyspark
複製程式碼

jupyter遠端訪問

vi ~/.jupyter/jupyter_notebook_config.py
c.NotebookApp.ip = '*' # 允許訪問此伺服器的 IP，星號表示任意 IP
c.NotebookApp.open_browser = False # 執行時不開啟本機瀏覽器
c.NotebookApp.port = 12035 # 使用的埠，隨意設定
c.NotebookApp.enable_mathjax = True # 啟用 MathJax
複製程式碼

jupyter NoteBook開發介面

spark程式除錯

lines=sc.textFile("/LICENSE")
pairs = lines.map(lambda s: (s, 1))
counts = pairs.reduceByKey(lambda a, b: a + b)

counts.count()
243

counts.first()
('Apache License', 1)
複製程式碼

Standalone模式啟動

PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook --allow-root" MASTER=spark://SparkMaster:7077 pyspark
複製程式碼

2 總結

通過Python技術棧與Spark大資料資料平臺整合，我們將實現python生態最完善的計算和視覺化體系。

秦凱新於深圳 201812132319

Python技術棧與Spark大資料資料平臺整合實戰--大資料ML樣本集案例實戰

1 Python技術棧與Spark大資料資料平臺整合

2 總結

您可能也會喜歡…

1 Python技術棧與Spark 大資料資料平臺整合