idea開發第一個spark程式---統計文字單詞數

阿新 • • 發佈：2018-12-09

在建立專案之前確保自己本地安裝好了scala環境和java環境，因為spark是scala編寫的，scala和java一樣都是需要編譯成位元組碼，然後在JVM裡面執行。我本地的scala版本是2.11.0版本，hadoop是2.7.6版本

第一步：開啟idea，然後建立一個maven專案

在pom裡面加入如下依賴：

   <properties>
        <spark.version>2.3.1</spark.version>
        <scala.version>2.11</scala.version>
        <geotools.version>20-SNAPSHOT</geotools.version>
    </properties>


    <dependencies>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_${scala.version}</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming_${scala.version}</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-sql_${scala.version}</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-hive_${scala.version}</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-mllib_${scala.version}</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>2.7.6</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming-kafka_${scala.version}</artifactId>
            <version>1.6.3</version>
        </dependency>
        <dependency>
            <groupId>com.esri.geometry</groupId>
            <artifactId>esri-geometry-api</artifactId>
            <version>1.2.1</version>
        </dependency>
        <dependency>
            <groupId>com.googlecode.json-simple</groupId>
            <artifactId>json-simple</artifactId>
            <version>1.1.1</version>
        </dependency>
    </dependencies>

    <build>
        <plugins>

            <plugin>
                <groupId>org.scala-tools</groupId>
                <artifactId>maven-scala-plugin</artifactId>
                <version>2.15.2</version>
                <executions>
                    <execution>
                        <goals>
                            <goal>compile</goal>
                            <goal>testCompile</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>

            <plugin>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.6.0</version>
                <configuration>
                    <source>1.8</source>
                    <target>1.8</target>
                </configuration>
            </plugin>

            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-surefire-plugin</artifactId>
                <version>2.19</version>
                <configuration>
                    <skip>true</skip>
                </configuration>
            </plugin>

        </plugins>
    </build>

第二步：在編輯器點選File-->Project Structure 點選下圖的Scala SDK,瀏覽進入本地的scala安裝位置，匯入scala庫

第三步：書寫java版的類：

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.api.java.function.VoidFunction;
import scala.Tuple2;

import java.util.Arrays;
import java.util.Iterator;

/**
 * Created by zhanglu on 2018/9/7.
 */
public class WordCount {
    public static void main(String[] args) {
//        編寫spark程式
//        第一步：建立sparkConf物件，設定spark的配置資訊
        SparkConf sparkConf=new SparkConf();
        sparkConf.setAppName("WordCount");
        sparkConf.setMaster("local");
//        第二步：建立javaSparkContext物件，初始化spark的各種元件
        JavaSparkContext javaSparkContext=new JavaSparkContext(sparkConf);
//        第三步：針對輸入的資料來源（hdfs，本地檔案）建立一個RDD，輸入資料會分配到RDD的各個分割槽上面
//        形成一個初始的分散式資料集。textFile()通過輸入資料的型別建立RDD,檔案裡面的每一行就相當於RDD裡面的每一個元素
        JavaRDD<String> javaRDD=javaSparkContext.textFile("E://個人/word_count.txt");
//        第四步：對初始的RDD進行transformation,就是計算操作
//        將每一行元素拆成單個單詞，通常操作會通過建立一個function,並配合RDD的map.flatMap等運算元來操作
        JavaRDD<String> counts=javaRDD.flatMap(new FlatMapFunction<String, String>() {
            private static final long serialVersionUID=1L;
            @Override
            public Iterator<String> call(String s) throws Exception {
                return Arrays.asList(s.split("")).iterator();
            }
        });
//        將每個單詞對映成（單詞，1）的tuple形式
        JavaPairRDD<String,Integer> pairs=counts.mapToPair(new PairFunction<String, String, Integer>() {
            private static final long serialVersionUID=1L;
            @Override
            public Tuple2<String, Integer> call(String s) throws Exception {
                return new Tuple2<String,Integer>(s,1);
            }
        });
//        將上面tuple進行reduce操作，迭代計算
        JavaPairRDD<String,Integer> wordCounts=pairs.reduceByKey(new Function2<Integer, Integer, Integer>() {
            private static final long serialVersionUID=1L;
            @Override
            public Integer call(Integer integer, Integer integer2) throws Exception {
                return integer+integer2;
            }
        });

//               以上flatMap和mapToPair和reduceBykey都是transformation操作，spark程式還需要action操作，程式才可以執行
        wordCounts.foreach(new VoidFunction<Tuple2<String, Integer>>() {
            private static final long serialVersionUID=1L;
            @Override
            public void call(Tuple2<String, Integer> stringIntegerTuple2) throws Exception {
                System.out.println(stringIntegerTuple2._1+" appeared "+stringIntegerTuple2._2+" times ");
            }
        });
        javaSparkContext.close();
    }
}

idea開發第一個spark程式---統計文字單詞數

在建立專案之前確保自己本地安裝好了scala環境和java環境，因為spark是scala編寫的，scala和java一樣都是需要編譯成位元組碼，然後在JVM裡面執行。我本地的scala版本是2.11.0版本，hadoop是2.7.6版本第一步：開啟idea，然後建立一個

IDEA 中開發第一個Spark 程式

1. 建立一個Maven 專案 2. 新增SCALA依賴庫 ****注意scala 的版本相對於spark2.4 ,scala 的版本必須是2.11.x 修改POM.xml 檔案加入 hadoop-client 和spark-core_2.11 的庫依賴

Spark視訊王家林第3課：在IDE下開發第一個Scala程式純傻瓜式徹底透徹解析

內容： 1.控制結構 2.Scala的基礎語法 /** * FileName: HelloScala * Author: hadoop * Email: [email protected] * Date: 18-

IDEA+Maven開發第一個Hadoop程式WordCount

IDEA+Maven開發第一個Hadoop程式WordCount 1. 新建一個maven專案選擇JDK版本。 2.設定GroupId和ArtifactId 3.設定專案名稱 &

執行第一個Spark程式

我們這裡使用官方的Spark自帶的一個程式來體驗一下Spark的執行 Spark自帶的例子是利用蒙特·卡羅演算法求PI 在Spark目錄下執行下面命令 bin/spark-submit \ >--master spark://cdh0:7077 \ >--class org.

spark本地環境的搭建到執行第一個spark程式

搭建spark本地環境搭建Java環境 (1)到官網下載JDK 官網連結：https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html (2)解壓縮到指定的目錄 >sudo t

初試Rails：使用Rails開發第一個Web程式

本系列前兩部分已經介紹瞭如何配置Ruby on Rails開發環境,現在終於進入正題啦！ Part1.開發前的準備本次的主要任務是開發第一個Rails程式。需要特別指出的是，本次我選用了一個（PaaS開發平臺），也就是Rails教程中介紹的Cloud 9平臺，該平臺已經

1.跨平臺開發之~ VSCode開發第一個C程式

寫一個簡單的C，然後F5執行，根據提示來配置檔案刪掉前面的內容執行發現還是不行，Ctrl+Shift+B，輸入Task 選擇Others 把command和args配置一下，${file}代表當前開啟檔案 Ctrl+Shift+B生成一下 F5執行除錯

編寫第一個Spark程式WordCount

這裡使用IDEA建立專案，其次，在setting-plugins中查詢並安裝外掛Scala 開始建立專案配置sbt name := "spark01" version := "1.0" scalaVersion := "2

使用XCode開發第一個IOS程式

1、開啟XCode，選擇“File”-“New”-“Project”，如下圖2、在彈出的新建工程模板中，選擇“Single View APP",表示自動建立一個單檢視APP。點選Next,如下圖3、接下來，輸入工程資訊，專案名稱，公司等，最好都用英文。然後點選Next，選擇專

使用IDEA進行Spark開發（二）-第一個scala程式

上面一篇文章博主已經給大家演示好了如何去配置一個本機的scala開發環境，現在我們就一起去寫我們的第一個spark開發的scala程式吧! 開啟IDEA，選擇建立一個新的工程檔案。點選scala，建立一個scala工程輸入我們程式名稱——word

iOS開發：第一個iOS程式分析——AppDelegate.h檔案和檢視View、檢視控制器ViewController

在上一篇文章iOS開發：第一個iOS程式分析——代理，生命週期函式中主要介紹了iOS使用Objective－C開發的兩個主要檔案main.m和AppDelegate.m和控制程式生命週期的函式，接下來將介紹另外兩個檔案：AppDelegate.h檔案、UIViewController.m檔案和i

iOS開發：第一個iOS程式分析——代理，生命週期函式

上一篇文章中我們開發了第一個iOS應用程式，用來計算兩個整數的和，今天我們將介紹其中的兩個檔案： 1.main.m檔案首先展開supporting Files並且開啟其下的main.m檔案，其中main函式就是應用程式的入口，main函式只是標記了一個自動釋放池自動決定何時釋放記憶體，

iOS開發：第一個iOS程式，加法計算器

相信很多學習程式設計的人，不管是學習C，C++，JAVA，還是iOS開發用的Objective－C，入門不久就迫切地想寫點看得見的介面玩玩。當然瞭解諸如iOS架構，系統層次這些是非常必要的，但是作為入門案例，我們不妨從最直觀的地方入手！！下面開始編寫我們的第一個iOS程式： 1.使用的

基於Windows8與Visual Studio11開發第一個USB驅動應用程式

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

後臺開發閱讀筆記——第一個C++程式

#include <>與#include ""的區別：前者常用來包含系統提供的標頭檔案，編譯器會到儲存系統標準標頭檔案的位置查詢標頭檔案；後者常用於包括程式設計師自己編號的標頭檔案，用這種格式時，編譯器先查詢當前目錄是否有指定名稱的標頭檔案，然後從標準頭目錄中進行查詢。

[go-web開發小試驗] 1-第一個demo程式

前言目前的go似乎值得一試。參考參考了網上的go web開發入門之類的文章。步驟在idea上面開一個新專案，然後，嗯。。。我用的是go1.11，有module模組了，然後新增一個檔案，內容如下： package src import ( "fmt"

Java開發環境的安裝配置及在Eclipse上第一個Java程式的執行

首先，我們需要下載IDE開發環境，下面的網址 https://www.eclipse.org/downloads/download.php?file=/oomph/epp/2018-09/Ra/eclipse-inst-win64.exe 下載完成後，執行我們會看到下面的畫面如果預設

MyGUI3.2.0+Ogre1.8.1開發詳解之第一個MyGUI程式

mygui是一款簡單、易用的開源圖形介面開發庫，主要面向物件是遊戲的3D介面，下面是它的官方介紹 MyGUI是為遊戲和3D應用程式建立圖形使用者介面（GUI）的一個庫。 mygui的主要目標是：速度，靈活性和易用性。（出自MyGUI官網）官方網站:http

Spring boot 官網學習筆記 - 開發第一個Spring boot web應用程式

Creating the POM <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http:

idea開發第一個spark程式---統計文字單詞數

相關推薦