Python技術棧與Spark大資料資料平臺整合實戰--大資料ML樣本集案例實戰
版權宣告:本套技術專欄是作者(秦凱新)平時工作的總結和昇華,通過從真實商業環境抽取案例進行總結和分享,並給出商業應用的調優建議和叢集環境容量規劃等內容,請持續關注本套部落格。QQ郵箱地址:[email protected],如有任何學術交流,可隨時聯絡。
1 Python技術棧與Spark大資料資料平臺整合
-
下載Anaconda3 Linux版本
Anaconda3-5.3.1-Linux-x86_64.sh 複製程式碼
-
安裝Anaconda3
bash Anaconda3-5.3.1-Linux-x86_64.sh -b 複製程式碼
-
環境變數配置PYSPARK_DRIVER_PYTHON以及PYSPARK_PYTHON配置
export SCALA_HOME=/usr/local/install/scala-2.11.8 export JAVA_HOME=/usr/lib/java/jdk1.8.0_45 export HADOOP_HOME=/usr/local/install/hadoop-2.7.3 export SPARK_HOME=/usr/local/install/spark-2.3.0-bin-hadoop2.7 export FLINK_HOME=/usr/local/install/flink-1.6.1 export ANACONDA_PATH=/root/anaconda3 export PYSPARK_DRIVER_PYTHON=$ANACONDA_PATH/bin/ipython export PYSPARK_PYTHON=$ANACONDA_PATH/bin/python export JRE_HOME=${JAVA_HOME}/jre export CLASS_PATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib export PATH=:${JAVA_HOME}/bin:${SCALA_HOME}/bin:${HADOOP_HOME}/bin:${SPARK_HOME}/bin:$PATH export PATH=/root/anaconda3/bin:$PATH 複製程式碼
-
啟動Saprk
-
啟動jupyter notebook
老版本 PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook --allow-root" pyspark 未來版本 PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS=`jupyter notebook --allow-root` pyspark 複製程式碼
-
jupyter遠端訪問
vi ~/.jupyter/jupyter_notebook_config.py c.NotebookApp.ip = '*' # 允許訪問此伺服器的 IP,星號表示任意 IP c.NotebookApp.open_browser = False # 執行時不開啟本機瀏覽器 c.NotebookApp.port = 12035 # 使用的埠,隨意設定 c.NotebookApp.enable_mathjax = True # 啟用 MathJax 複製程式碼
-
jupyter NoteBook開發介面

- spark程式除錯

lines=sc.textFile("/LICENSE") pairs = lines.map(lambda s: (s, 1)) counts = pairs.reduceByKey(lambda a, b: a + b) counts.count() 243 counts.first() ('Apache License', 1) 複製程式碼
-
Standalone模式啟動
PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook --allow-root" MASTER=spark://SparkMaster:7077 pyspark 複製程式碼


2 總結
通過Python技術棧與Spark大資料資料平臺整合,我們將實現python生態最完善的計算和視覺化體系。
秦凱新 於深圳 201812132319
版權宣告:本套技術專欄是作者(秦凱新)平時工作的總結和昇華,通過從真實商業環境抽取案例進行總結和分享,並給出商業應用的調優建議和叢集環境容量規劃等內容,請持續關注本套部落格。QQ郵箱地址:[email protected],如有任何學術交流,可隨時聯絡。