Spark local/standalone/yarn/遠端除錯-執行WordCount

阿新 • • 發佈：2019-01-26

local

直接啟動spark-shell

./spark-shell --master local[*]

編寫scala程式碼

sc.textFile("/input/file01.txt")
res0.cache()
res0.count
val wd=res0.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_)
wd.collect.foreach(println)

在輸出日誌中檢視WordCount結果

在spark監控頁面檢視看，綠色的圓圈代表快取在記憶體中
這裡寫圖片描述

standalone

在spark-env.sh中新增

export 
 SPARK_MASTER_IP  master
export SPARK_MASTER_PORT 7077
export SPARK_WORKER_CORES=2
export SPARK_WORK_INSTANCES=1
export SPARK_WORKER_MEMORY=3g
export JAVA_HOME=/usr/local/java/jdk1.7.0_75

在slaves中新增

master
slave1
slave2

啟動spark叢集，在sbin目錄下

./start-all.sh

檢視7077埠已經啟動
這裡寫圖片描述

然後啟動spark-shell編寫之前的程式碼檢視處理過程，可以多寫幾句看看效果，例如
這裡寫圖片描述

這裡寫圖片描述

yarn

使用yarn-client模式提交jar包到yarn

./spark-submit --master yarn-client /usr/local/spark/examples/spark1-1.0-SNAPSHOT.jar

yarn監控頁面檢視
這裡寫圖片描述

使用debug監聽埠的方式除錯程式

當資料量很大時，用這種方式在叢集中執行程式，在本地設定斷點進行debug
run.sh

/usr/local/spark/bin/spark-submit \
--master yarn-client \
--driver-cores 8 \
--driver-memory 1G \
--num-executors 2 
 \
--executor-memory 1G \
--executor-cores 4 \
--driver-java-options '-Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=9887' \
/usr/local/spark/examples/spark1-1.0-SNAPSHOT.jar

執行run.sh

這裡寫圖片描述

在idea中新增remote設定debug主機名和埠號(run.sh中配置的，如上9887)，啟動debug

這裡寫圖片描述

spark上wordcount的java實現

SparkUtil工具類提供獲取JavaSparkContext與外部儲存方式讀取RDD，檔案讀取

public class SparkUtil {
    /**
     * 獲取JavaSparkContext
     */
    public static JavaSparkContext getJavaSparkContext(String appName, String logLeverl){
        SparkConf conf=new SparkConf().setAppName(appName);
//        conf.setMaster("local[*]");
        SparkContext sc=new SparkContext(conf);//這步是否可以省略
        JavaSparkContext jsc =new JavaSparkContext(sc);
        return jsc;
    }
    /**
     * 外部儲存方式讀取RDD，檔案讀取
     */
    public static JavaRDD getRddExternal(JavaSparkContext jsc ,String filePath){
        if (null==jsc)
            return null;
        return jsc.textFile(filePath);
    }
}

建立JavaSparkContext，對Rdd進行操作實現word count

public class WordCount {

    private static org.slf4j.Logger logger = LoggerFactory.getLogger(WordCount.class);

    public static void main(String[] args){
        JavaSparkContext jsc =SparkUtil.getJavaSparkContext("WordCount","WARN");
        JavaRDD<String> wordData=SparkUtil.getRddExternal(jsc,"/input/file01.txt");
        wordCount(wordData);
    }

    public static void wordCount(JavaRDD wordData){
        JavaRDD<String> wordRdd=wordData.flatMap(new FlatMapFunction<String,String>() {
            public Iterable call(String s) throws Exception {
                return Arrays.asList(s.split(" "));
            }
        });

        JavaPairRDD<String,Integer> wordMapToPair=wordRdd.mapToPair(new PairFunction<String, String, Integer>() {
            public Tuple2<String, Integer> call(String s) throws Exception {
                return new Tuple2<String, Integer>(s,1);
            }
        });

        JavaPairRDD<String ,Integer> wordReduceByKey=wordMapToPair.reduceByKey(new Function2<Integer, Integer, Integer>() {
            public Integer call(Integer integer1, Integer integer2) throws Exception {
                return integer1.intValue()+integer1.intValue();
            }
        });

        wordReduceByKey.sortByKey().foreach(new VoidFunction<Tuple2<String, Integer>>() {
            public void call(Tuple2<String, Integer> stringIntegerTuple2) throws Exception {
                System.out.println(stringIntegerTuple2._1+"="+stringIntegerTuple2._2);
                logger.info(stringIntegerTuple2._1+"="+stringIntegerTuple2._2);
            }
        });
    }
}

Spark local/standalone/yarn/遠端除錯-執行WordCount

local 直接啟動spark-shell ./spark-shell --master local[*] 編寫scala程式碼 sc.textFile("/input/file01.txt") res0.cache() res0.count val

Spark on YARN簡介與執行wordcount（master、slave1和slave2）（博主推薦）

前期部落格 Spark On YARN模式　　這是一種很有前景的部署模式。但限於YARN自身的發展，目前僅支援粗粒度模式（Coarse-grained Mode）。這是由於YARN上的Container資源是不可以動態伸縮的，一旦Container啟動之後，可使用

提交Spark程式到YARN叢集上面執行

在YARN群集上執行示例wordcount.py程式以計算知識資料集中單詞的頻率： $ spark-submit --master yarn-client wordcount.py /loudacre/kb/*

spark叢集搭建與叢集上執行wordcount程式

Spark 配置 1、master 機器 Spark 配置進入 Spark 安裝目錄下的 conf 目錄，拷貝 spark-env.sh.template 到 spark-env.sh。 cp spark-env.sh.template spark-e

Spark本地開發與遠端除錯環境搭建

先決條件遠端除錯環境搭建過程詳述開啟Intellij IDEA，File->New ->Project 選擇Scala，然後next 配置好JDK、Scala版本，填入專案名稱，然後Finish 4.匯入spark-assembly-1.5.0

利用pycharm遠端除錯執行程式碼

最近課程要求做一個在Linux系統上的flask專案，但是我的Linux是裝在虛擬機器中的，開發工具我選擇的是pycharm，我的只給我的Linux分配了兩個G的記憶體，這樣稍微大一點的開發工具在裡面跑起來都是非常吃力的，於是我便去水群，說我需要在Linux下用

如何用Visual Studio Code遠端除錯執行在伺服器上的nodejs應用

假設我有一個nodejs應用，執行在AWS - 亞馬遜雲平臺上(Amazone Web Service)。我想用本地的Visual

Spark standalone簡介與執行wordcount（master、slave1和slave2）

前期部落格 1. Standalone模式即獨立模式，自帶完整的服務，可單獨部署到一個叢集中，無需依賴任何其他資源管理系統。從一定程度上說，該模式是其他兩種的基礎。借鑑Spark開發模式，我們可以得到一種開發新型計算框架的一般思路：先設計出它的s

使用IDEA遠端除錯位於Yarn-Client模式下的Spark叢集相關配置

環境介紹我使用的是基於Ambari 的 HDP-2.6.1.0-129的Hadoop環境 1.Spark 1.6.3 2.Scala 2.10.6(可以使用2.11以後的版本) 開發環境是IDEA 2017.2版本，使用sbt進行編譯。新建工

spark JAVA 開發環境搭建及遠端除錯

spark JAVA 開發環境搭建及遠端除錯以後要在專案中使用Spark 使用者暱稱文字做一下聚類分析，找出一些違規的暱稱資訊。以前折騰過Hadoop，於是看了下Spark官網的文件以及 github 上官方提供的examples，看完了之後決定動手跑一個文字聚類的demo，於是有了下文。 1. 環境

PyCharm 配置遠端伺服器執行除錯python

使用場景先說說自己的使用場景，我是在什麼情況下，需要將IDE配置成這樣的環境來方便我的工作。首先，我需要在本地機子上寫python程式碼，但是因為是機器學習相關的一些程式碼，有時候本機跑可能會很慢，或者根本跑不下來。而此時，我還有一臺可用的伺服器，上面配置了相應的pyt

idea遠端除錯spark任務

1.在idea 新建Remote 2.spark任務提交，監聽啟動 spark2-submit --master yarn --deploy-mode client --class com.my.ba

再探spark之一（複習之前）加spark如何實現遠端除錯程式碼

Scala的練習https://blog.csdn.net/yewakui2253/article/details/80022403alt+p可以用來上傳東西僅限於secureCRT然後put F:\Users\Administrator\WorkspacesIDEA\sc

記2018最後一次問題診斷-Spark on Yarn所有任務執行失敗

　　2018的最後一個工作日，是在調式和診斷問題的過程中度過，原本可以按時下班，畢竟最後一天了，然鵝，確是一直苦苦掙扎。　　廢話不多說，先描述一下問題：有一套大資料環境，是CDH版本的，總共4臺機子，我們的應用程式與大資料叢集之前已經整合完畢，除錯沒有問題，可以執行Spark任務。而與這個叢集整合是17年

Spark遠端除錯配置，在IDEA中的配置

一、Spark遠端除錯配置： #除錯Master，在master節點的spark-env.sh中新增SPARK_MASTER_OPTS變數 export SPARK_MASTER_OPTS="-X

HDP2.5.0 + Spark1.6.2 通過IDEA(Win64)遠端提交spark jobs On YARN

更新日：2018-08-17 本文利用Apache Ambari搭建了一個HDP2.5.0的叢集，安裝了HDP下最新的Spark1.6.2，通過spark-submit提交任務模式local、standalone、yarn-client均可。但程式設計環境往往在Win下

eclipse遠端除錯命令列執行的maven執行程式

有的時候，我們需要除錯命令列執行的maven執行程式。該怎麼辦呢？我們知道eclipse本身可以執行遠端除錯，具體做法網上都有不少文章，這裡不再多說。現在的問題就是在maven在執行時，如何能讓eclipse遠端除錯正在執行的maven程式 maven在本身也是java程式，所以只

Spark應用遠端除錯

修改spark-class指令碼，這個指令碼在spark安裝目錄下的bin目錄中。修改最後兩行： done < <("$RUNNER" -cp "$LAUNCH_CLASSPATH" org.apache.spark.launcher.Main "[email protected

Spark on Yarn解密及執行流程

一、Hadoop Yarn解析 1，Yarn是Hadoop推出整個分散式（大資料）叢集的資源管理器，負責資源的管理和分配，基於Yarn我們可以在同一個大資料叢集上同時執行多個計算框架，例如Spark、MapReduce、Storm等； 2，Yarn基本工作

如何在IDEA中遠端除錯Jar包（可執行的jar包）

如何遠端除錯Jar包（可執行的jar包） 1.啟動jar包 java -Xdebug -Xrunjdwp:transport=dt_socket,address=5005,server=y,suspend=y -jar xxxxxx.jar 2.配

Spark local/standalone/yarn/遠端除錯-執行WordCount

local

standalone

yarn

使用debug監聽埠的方式除錯程式

spark上wordcount的java實現

相關推薦