spark-執行 jar 包
spark jar 本非方式執行
首先我們通過幫助命令來看spark 如何提交執行jar包
spark-submit --help

image.png
spark-submit 詳細引數說明
--mastermaster 的地址,提交任務到哪裡執行,例如 spark://host:port,yarn,local --deploy-mode在本地 (client) 啟動 driver 或在 cluster 上啟動,預設是 client --class應用程式的主類,僅針對 java 或 scala 應用 --name應用程式的名稱 --jars用逗號分隔的本地 jar 包,設定後,這些 jar 將包含在 driver 和 executor 的 classpath 下 --packages包含在driver 和executor 的 classpath 中的 jar 的 maven 座標 --exclude-packages為了避免衝突 而指定不包含的 package --repositories遠端 repository --conf PROP=VALUE指定 spark 配置屬性的值,例如 -conf spark.executor.extraJavaOptions="-XX:MaxPermSize=256m" --properties-file載入的配置檔案,預設為 conf/spark-defaults.conf --driver-memoryDriver記憶體,預設 1G --driver-java-options傳給 driver 的額外的 Java 選項 --driver-library-path傳給 driver 的額外的庫路徑 --driver-class-path傳給 driver 的額外的類路徑 --driver-coresDriver 的核數,預設是1。在 yarn 或者 standalone 下使用 --executor-memory每個 executor 的記憶體,預設是1G --total-executor-cores所有 executor 總共的核數。僅僅在 mesos 或者 standalone 下使用 --num-executors啟動的 executor 數量。預設為2。在 yarn 下使用 --executor-core每個 executor 的核數。在yarn或者standalone下使用
通過幫助文件我們可以知道啟動 spark java jar 包的命令如下
spark-submit --master local --name MyWordCount --class com.river.WordCountDemon ~/Downloads/spark-demon-1.0-SNAPSHOT.jar ~/hadoop/spark/wordcount/text.txt
文件內容
hello frankhello lucydo you know that I miss you so muchlong long age I know you , you know me
看到結果
(long,2)(you,4)(that,1)(do,1)(I,2)(know,3)(hello,2)(age,1)(so,1)(frank,1)(,,1)(lucy,1)(much,1)(miss,1)(me,1)