1. 程式人生 > >pyspark 程式頭與程式提交叢集命令

pyspark 程式頭與程式提交叢集命令

這裡介紹使用SparkContext的pyspark註冊頭,通過SparkConf對SparkContext進行配置,SparkConf可以設定各種配置引數,如下面所示:

from pyspark.context import SparkContext
from pyspark.sql import SQLContext
from pyspark.context import SparkConf
from pyspark.sql import HiveContext
from pyspark.sql.functions import *
import pandas as pd

conf=SparkConf().setAppName("nettest_yp").setMaster("yarn").set("deploy-mode","client")
sc=SparkContext(conf=conf)
sqlContext = SQLContext(sc)

其次,對於寫好的pyspark程式,可以使用spark-submit來提交到叢集上,命令示例如下:

spark-submit --master yarn --deploy-mode client --num-executors 6 --driver-memory 1g --executor-memory 5g -- executor-cores 2 demo.py

這裡提交的同時配置的引數有使用的節點數,驅動記憶體大小,執行記憶體大小,核數等。

如有任何問題可以加群R語言&大資料分析456726635或者Python & Spark大數636866908與我聯絡。