spark (java API) 在Intellij IDEA中開發並執行

阿新 • • 發佈：2019-01-22

概述：Spark 程式開發，除錯和執行，intellij idea開發Spark java程式。
分兩部分，第一部分基於intellij idea開發Spark例項程式並在intellij IDEA中執行Spark程式.第二部分，將開發程式提交到Spark local或者hadoop YARN叢集執行。Github專案原始碼

圖1，直接在intellij IDEA(社群版)中開發除錯，直接run。

spark hadoop intellij idea java 程式開發

圖2，直接在intellij IDEA(社群版)中用hadoop YARN模式。

這裡寫圖片描述

1.(第一部分)使用intellij IDEA建立一個Java的Maven專案。Github專案原始碼

初始化的MAVEN專案如下

這裡寫圖片描述

2.1.建立SimpleApp.java檔案 `SimpleApp.java`

/**
 * MIT.
 * Author: wangxiaolei(王小雷).
 * Date:17-2-7.
 * Project:SparkJavaIdea.
 */
import org.apache.spark.api.java.*;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.function.Function;

public class SimpleApp {
    public 
 static void main(String[] args) {
        String logFile = "file:///opt/spark-2.1.0-bin-hadoop2.7/README.md"; // Should be some file on your system
        SparkConf conf = new SparkConf().setAppName("Simple Application");
        JavaSparkContext sc = new JavaSparkContext(conf);
        JavaRDD<String> logData = sc.textFile(logFile).cache();

        long 
 numAs = logData.filter(new Function<String, Boolean>() {
            public Boolean call(String s) { return s.contains("a"); }
        }).count();

        long numBs = logData.filter(new Function<String, Boolean>() {
            public Boolean call(String s) { return s.contains("b"); }
        }).count();

        System.out.println("Lines with a: " + numAs + ", lines with b: " + numBs);

        sc.stop();
    }
}

2.2.修改pom.xml檔案 `pom.xml`

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>wangxiaolei</groupId>
    <artifactId>SparkJavaIdea</artifactId>
    <version>1.0-SNAPSHOT</version>

    <dependencies>
        <dependency> <!-- Spark dependency -->
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>2.1.0</version>
        </dependency>
    </dependencies>

</project>

3.在intellij IDEA中執行Spark程式

3.1 設定IDEA執行項的Configuration中的VM opthion 增加`-Dspark.master=local`

這裡寫圖片描述

3.2.右鍵SimpleApp.java 點選執行，稍等片刻看到執行成功。

已經將Readme.md中的單詞a和b統計出來了Lines with a: 62, lines with b: 30

這裡寫圖片描述

至此，Spark在intellij IDEA中開發，並在IDEA中執行成功！

4.(第二部分)將intellij IDEA中的Spark java程式打包成jarGithub專案原始碼

這裡寫圖片描述

5.spark local模式執行

5.1.使用intellij IDEA的Terminal或者是系統（博主是Ubuntu）的Terminal，在當前專案路徑（/home/xiaolei/Data/GS/Spark/SparkJavaIdea）執行如下程式碼。

/opt/spark-2.1.0-bin-hadoop2.7/bin/spark-submit \
  --class "SimpleApp" \
  --master local[4] \
  target/SparkJavaIdea-1.0-SNAPSHOT.jar

這裡寫圖片描述

至此，Spark local模式程式開發和執行成功！

6.YARN叢集模式（或偽分散式）執行.——需要有叢集環境或者提前配置好了偽分散式環境，偽分散式環境搭建參考另一篇博文Ubuntu16.04安裝Hadoop2.6+Spark1.6+開發例項

6.1.開啟hadoop叢集，開啟Spark。

# 初次搭建叢集需要格式化namenode（已經初始化過可省略）
/opt/hadoop-2.7.3/bin/hdfs namenode -format
#開啟hadoop叢集（偽分散式）
/opt/hadoop-2.7.3/sbin/start-all.sh
#開啟Spark
/opt/spark-2.1.0-bin-hadoop2.7/sbin/start-all.sh
#檢視開啟狀態
jps

這裡寫圖片描述

6.2 使用intellij IDEA的Terminal或者是系統（博主是Ubuntu）的Terminal，在當前專案路徑（/home/xiaolei/Data/GS/Spark/SparkJavaIdea）執行如下程式碼。

/opt/spark-2.1.0-bin-hadoop2.7/bin/spark-submit   --class SimpleApp   --master yarn --deploy-mode cluster   target/SparkJavaIdea-1.0-SNAPSHOT.jar

這裡寫圖片描述

至此，Spark在intellij IDEA中開發，並在hadoop YARN模式下執行成功！

http://localhost:8088/cluster/apps

這裡寫圖片描述

至此，Spark在intellij IDEA中開發，並在hadoop YARN模式下執行成功！

spark (java API) 在Intellij IDEA中開發並執行

概述：Spark 程式開發，除錯和執行，intellij idea開發Spark java程式。分兩部分，第一部分基於intellij idea開發Spark例項程式並在intellij IDEA中執行Spark程式.第二部分，將開發程式提交到Spark l

Spark在Intellij IDEA中開發並執行

word count demo 引入jar <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifa

IntelliJ IDEA 中右鍵執行時沒有run；新建時，選項沒有Java class的解決方法和具體解釋

問題我就不贅述了，就是執行不了java程式，而且也不能建java檔案這個時候我們要理解這幾個東西的意思，這個知識點非常非常重要，必須會。 Sources 一般用於標註類似 src 這種可

在IntelliJ IDEA中配置Spark(Java API)運行環境

appname java api ont lib with dep ava cat net 1. 新建Maven項目初始Maven項目完成後，初始的配置（pom.xml）如下： 2. 配置Maven 向項目裏新建Spark Core庫 <?xml versi

IntelliJ IDEA中Warning:java:源值1.5已過時, 將在未來所有發行版中刪除

Maven專案解決方法：在 apache-maven-3.6.0\conf\settings.xml 新增 <profile> <id>jdk-1.8</id> <activation> <acti

IntelliJ IDEA中Java類註釋

pla file desc java類 info Edito tor image .com 打開Idea，依次選擇File-->Settings-->Editor-->File and CodeTemplates ，右側tab選項卡點擊Includes，選

在IntelliJ IDEA 中建立普通web工程並執行（非maven工程）

安裝工具 1、JDK7+ 2、IntelliJ Idea 工具（下載安裝後，網上找註冊碼破解即可） 3、tomcat7+ 解壓縮版明確兩個概念： 1、Project：類似於eclipse的workspace概念 2、Module：類似於eclipse的工

使用jRebel在IntelliJ IDEA 中進行 Java 熱部署

原文地址：https://blog.csdn.net/liuzhigang828/article/details/72875190 在IntelliJ IDEA中安裝jRebel外掛（好處是不用重新啟動程式，所有的更改便可以生效，很神奇的東東） 1、開啟IntelliJ IDEA，點選Fil

IntelliJ IDEA 中右鍵新建（new）時，選項沒有scala(java) class的解決方法和具體解釋

首先註明：本文不是原創，我也是在網上找了好久，找到這篇博文（連結），解決了我的問題，順便在這裡總結一下，給有需要的人。專案是用Maven 建立的，具體的建立過程就不做解釋了。出現的問題如下：具體問題的圖，如下：開啟設定介面的路徑如下: 主介面File——&

IntelliJ IDEA 中Java 9 模組化實戰

右鍵-New-Module，輸入模組基本資訊新建module-info.java檔案輸入module-info.java內容如下： module helloworld { exports

IDEA 中開發第一個Spark 程式

1. 建立一個Maven 專案 2. 新增SCALA依賴庫 ****注意scala 的版本相對於spark2.4 ,scala 的版本必須是2.11.x 修改POM.xml 檔案加入 hadoop-client 和spark-core_2.11 的庫依賴

Intellij IDEA中常用的編寫Java程式碼快的快捷方式總結（持續更新）

1. main函式快捷鍵 —— psvm 特別好記：public static void main的縮寫 2. System.out.println();輸出快捷鍵 —— sout3. for(int i=0;i<;i++)for迴圈遍歷快捷鍵 —— fori

如何在Intellij IDEA中管理svn並進行分支的合併

本文重點：1.在svn服務中建立分支主幹專案；2.從主幹中拉出分支；3.將分支合併到主幹中，分支與分支之間的合併；注意：這裡的主幹和分支都是相對而言的也可以在分支上在建立分支，原來的分支就可以理解為主幹，建立的分支就時分支前言：由於近期開發的專案需要在現有產品上進行更新新增新

1、在 IntelliJ IDEA 中新建一個專案並提交到 GitHub

一、在 IntelliJ IDEA 中新建一個專案並提交到 GitHub 1. 執行 IDEA，點選【Create New Project】，在 IDEA 中新建一個專案。 2. 在選擇專案型別對話方塊，直接點選【Next】 3. 在選擇專案模板對話方塊，直接點選【

Intellij Idea中maven專案程式碼報錯：Usage of API documented as @since 1.8+

這個錯出現的原因是因為今天閒來無事便看了下jdk8的一些時間操作結果在操作的時候在 iead中報錯 Usage of API documented as @since 1.8+ 查閱資料後

如何在Intellij IDEA中拉svn分支?

class upload check ide 簡單如果 tags 報錯 jpg 由於用IDEA時間也不是特別長，對操作svn的一些東西，不是特別熟悉，特此記錄一下，以做備忘。先說下流程：在IDEA裏面對trunk代碼拉分支熟悉了，其實很容易，（1）你tr

2017.5.24 在intelliJ IDEA 中生成war包

ctu artifact art *** tell pil tel src com 1.勾選Build on make file -> project structure -> Artifacts 2.compile module "***" 選

Intellij IDEA 中如何查看maven項目中所有jar包的依賴關系圖

alt 為我表示都是小技巧看到了我們輸入框理論 Maven 組件界面介紹如上圖標註 1 所示，為常用的 Maven 工具欄，其中最常用的有：第一個按鈕：Reimport All Maven Projects 表示根據 pom.xm

將eclipse的maven項目導入到intellij idea中

自動 ins 目錄結構導入目錄 .com 5% 接下來 java 最近項目中需要用到idea，需要將原來的eclipse項目進行轉移。搗鼓了半天終於成功了，在這裏和大家分享下，希望對大家有所幫助，如有錯誤，歡迎指正。 idea的確是一款很智能的開發工具，真

SpringBoot項目在IntelliJ IDEA中實現熱部署

span 修改配置文件必須 net 保存 work ssl -- 修改 spring-boot-devtools是一個為開發者服務的一個模塊，其中最重要的功能就是自動應用代碼更改到最新的App上面去。原理是在發現代碼有更改之後，重新啟動應用，但是速度比手動停止後再啟動更快

spark (java API) 在Intellij IDEA中開發並執行

1.(第一部分)使用intellij IDEA建立一個Java的Maven專案。Github專案原始碼

2.1.建立SimpleApp.java檔案 SimpleApp.java

2.2.修改pom.xml檔案 pom.xml

3.在intellij IDEA中執行Spark程式

3.1 設定IDEA執行項的Configuration中的VM opthion 增加-Dspark.master=local

3.2.右鍵SimpleApp.java 點選執行，稍等片刻看到執行成功。

4.(第二部分)將intellij IDEA中的Spark java程式打包成jarGithub專案原始碼

5.spark local模式執行

5.1.使用intellij IDEA的Terminal或者是系統（博主是Ubuntu）的Terminal，在當前專案路徑（/home/xiaolei/Data/GS/Spark/SparkJavaIdea）執行如下程式碼。

6.YARN叢集模式（或偽分散式）執行.——需要有叢集環境或者提前配置好了偽分散式環境，偽分散式環境搭建參考另一篇博文Ubuntu16.04安裝Hadoop2.6+Spark1.6+開發例項

6.1.開啟hadoop叢集，開啟Spark。

6.2 使用intellij IDEA的Terminal或者是系統（博主是Ubuntu）的Terminal，在當前專案路徑（/home/xiaolei/Data/GS/Spark/SparkJavaIdea）執行如下程式碼。

相關推薦

2.1.建立SimpleApp.java檔案 `SimpleApp.java`

2.2.修改pom.xml檔案 `pom.xml`

3.1 設定IDEA執行項的Configuration中的VM opthion 增加`-Dspark.master=local`