Spark實戰----(1)使用Scala開發本地測試的Spark WordCount程式

阿新 • • 發佈：2018-12-25

第一步：JDk的安裝

第二步：Scala的安裝不會的可以看這裡 Scala環境安裝

鑑於以上兩步較為簡單，不再詳細贅述

第三步：去Spark官方網站下載Spark包我下載的檔名是spark-1.6.2-bin-hadoop2.6

點選DownLoad就可以下載了，下載完並解壓

第四步：IDE選擇

我用的是 intellij IDEA ，不過我學習的時候用的是Scala for Eclipse，用法嘛大同小異的，個人推薦IDEA

第五步：建立工程

在eclipse中點選File->New->Scala Project ,填上Project name 然後點選finish

第六步：

更改Scala Library container的版本

第七步：匯入Spark 的jar包

在專案上右鍵，找到Build Path -> Configure Build Path

彈出這個視窗後，點選 Add External JARs ，找到Spark 包的位置，點選lib檔案，找到spark-assembly-1.6.2-hadoop2.6.0.jar

點選ok可以看到專案裡面多了一個Referenced Libraries，點開發現下面就是我們剛剛新增的包

第八步：建立包和scala檔案

在src下右鍵點選Package，新建一個包，我命名的是cn.limbo.spark，至此專案的結構如下所示

其中WordCount是我們需要編寫的檔案，（上面那個別管 = =）

第九步：編寫WordCount.scala，程式碼如下

package cn.limbo.spark

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.rdd.RDD

/**
 * 使用Scala開發本地測試的Spark WordCount程式
 */
object WordCount {
  def main(args: Array[String]): Unit = {
    /**
     * 第一步:建立Spark的配置物件SparkConf，設定Spark程式的執行時的配置資訊
     * 例如說通過setMaster來設定程式要連線的Spark叢集的Master的URL
     * 如果設定為local，則代表Spark程式在本地執行，特別適合於配置條件的較差的人
     * 
     */
    
    val conf = new SparkConf()
    conf.setAppName("MyFirstSparkApplication")  //設定應用程式的名稱，在程式執行的監控介面可以看到名稱
    conf.setMaster("local")   //此時程式在本地執行，無需安裝Spark的任何叢集
    
    /**
     * 第二步:建立SparkContext物件
     * SparkContext是Spark程式所有功能的唯一入口，無論是採用Scala，Java，Python等都必須有一個SparkContext
     * SparkContext核心作用：初始化Spark應用程式執行所需要的核心元件，包括DAGScheduler，TaskScheduler，Scheduler
     * 同時還會負責Spark程式往Master註冊程式等
     * SparkContext是整個Spark應用程式中最為至關重要的一個物件。
     */
    
    val sc = new SparkContext(conf)     //建立SparkContext物件，通過傳入SparkConf例項來定製Spark執行的具體引數和配置資訊
    
    /**
     * 第三步:根據具體的資料來源（HDFS，HBase，Local FS（本地檔案系統） ，DB，S3（雲上）等）通過SparkContext來建立RDD
     * RDD的建立基本有三種方式，根據外部的資料來源（例如HDFS），根據Scala集合，由其他的RDD操作產生
     * 資料會被RDD劃分成為一系列的Partitions，分配到每個Partition的資料屬於一個Task的處理範疇
     */
    
     //檔案的路徑，最小並行度（根據機器數量來決定）
    //val lines:RDD[String]= sc.textFile("F://spark//spark-1.6.2-bin-hadoop2.6//README.md", 1)    //讀取本地檔案，並設定Partition = 1
    val lines= sc.textFile("F://spark//spark-1.6.2-bin-hadoop2.6//README.md", 1)    //讀取本地檔案，並設定Partition = 1   //型別推導得出lines為RDD
    /**
     * 第四步:對初始的RDD進行Transformation級別的處理，例如map，filter等高階函式等的程式設計，來進行具體的資料計算
     *    4.1:將每一行的字串拆分成單個的單詞
     *    4.2:在單詞拆分的基礎上對每個單詞的例項計數為1，也就是word =>(word,1)
     *    4.3:在每個單詞例項計數為1基礎之上統計每個單詞在檔案出現的總次數
     */
    
    //對每一行的字串進行單詞的拆分並把所有行的拆分結果通過flat合併成為一個大的單詞集合
    val words = lines.flatMap { line => line.split(" ") }    //words同樣是RDD型別  
    val pairs = words.map { word => (word,1) }
    val wordCounts = pairs.reduceByKey(_+_)       //對相同的key，進行value的累加（包括Local和Reducer級別同時Reduce）
    
    
    wordCounts.foreach(wordNumberPair => println(wordNumberPair._1 + " : " + wordNumberPair._2))
    
    sc.stop()    //注意一定要將SparkContext的物件停止，因為SparkContext執行時會建立很多的物件
    
    
    /*這個程式執行之後一定會有一個錯誤，因為 沒有hadoop環境，這個不是程式錯誤，也不影響任何功能*/
    
  }
}

之後就可以看到控制檯的列印結果了~

至此，Spark本地的部署就結束了
下一章介紹叢集部署

java使用spark2開發本地測試的wordCount程式

package cn.spark.study.core; import java.util.Arrays; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import org.apache.s

Spark實戰----(1)使用Scala開發本地測試的Spark WordCount程式

第一步：JDk的安裝第二步：Scala的安裝不會的可以看這裡 Scala環境安裝鑑於以上兩步較為簡單，不再詳細贅述第三步：去Spark官方網站下載Spark包我下載的檔名是spark-1.6.2-bin-hadoop2.6 點選Dow

Spark實戰(1) 配置AWS EMR 和Zeppelin Notebook

SparkContext和SparkSession的區別，如何取用？ SparkContext: 在Spark 2.0.0之前使用通過資源管理器例如YARN來連線叢集需要傳入SparkConf來建立SparkContext物件

up7.1-asp.net-本地測試教程

baidu height 數據表 ng- padding mil sql .config -h 1.1. ASP.NET 框架：.NET Framework 4.5 依賴庫：csredis,Newtonsoft.Json 安裝redis 下載 re

vue.js2.0實戰(1):搭建開發環境及構建專案

Vue.js是一套構建使用者介面的漸進式框架。它既集眾多優秀前端框架之大成，又保持了其簡單易用的特點。對vue.js感興趣並且已經通讀官方基礎教程的初學者來說，開始一個實戰專案是進一步深入學習vue.js最好的方式了。在此之前，需要學會如何搭建開發環境。開發

Spark 實戰，第 4 部分: 使用 Spark MLlib 做 K-means 聚類分析

引言提起機器學習 (Machine Learning)，相信很多計算機從業者都會對這個技術方向感到興奮。然而學習並使用機器學習演算法來處理資料卻是一項複雜的工作，需要充足的知識儲備，如概率論，數理統計，數值逼近，最優化理論等。機器學習旨在使計算機具有人類一樣的學習能力和模仿能力，這也是實現人工智慧的核

Spark 實戰，第 3 部分: 使用 Spark SQL 對結構化資料進行統計分析

引言在很多領域，如電信，金融等，每天都會產生大量的結構化資料，當資料量不斷變大，傳統的資料儲存 (DBMS) 和計算方式 (單機程式) 已經不能滿足企業對資料儲存，統計分析以及知識挖掘的需要。在過去的數年裡，傳統的軟體開發和維護人員已經積累了大量的基於 DBMS 的操

spark入門實戰windows本地測試程式

在做Spark開發時，一般會在windows下進行Spark本地模式程式除錯，在本地除錯好了再打包執行在Spark叢集上。因此需要在windows上進行Spark開發配置。本文將給出三種開發工具的配置：1、使用eclipse java api開發；2、使用s

scala & spark實戰

錯誤提示 replace nbsp pan tex stats sql mes int java.lang.Long is not a valid external type for schema of string java.lang.RuntimeException

Spark 2.0視頻|快學Spark 2.0(新特性、含真實項目、純Scala語言開發、CDH5.7)

spark快學Spark 2.0(新特性、含真實項目、純Scala語言開發、CDH5.7)分享網盤下載——https://pan.baidu.com/s/1c2F9zO0 密碼: pzx9Spark進入2.0時代，引入了很多優秀特性，性能上有較大提升，API更易用。在“編程統一”方面非常驚艷，實現了離線計算和

利用KNIME建立Spark Machine learning 模型 1：開發環境搭建

大數據分析 KNIME Machine Learning Spark 建模１、Knime Analytics　安裝從官方網站下載合適的版本　https://www.knime.com/downloads 將下載的安裝包在安裝路徑解壓　https://www.knime.com/insta

IDEA搭建scala開發環境開發spark應用程序

編寫運行程序通過 https apach import input inf 搭建一、idea社區版安裝scala插件因為idea默認不支持scala開發環境，所以當需要使用idea搭建scala開發環境時，首先需要安裝scala插件，具體安裝辦法如下。 1、

Scala實戰高手****第4課：零基礎徹底實戰Scala控制結構及Spark原始碼解析

1.環境搭建基礎環境配置 jdk+idea+maven+scala2.11。以上工具安裝配置此處不再贅述。 2.原始碼匯入官網下載spark原始碼後解壓到合適的專案目錄下，開啟idea，File->open 找到原始碼資料夾，選中spark-parent的pom檔案

Scala實戰高手****第6課：零基礎實戰Scala集合操作及Spark源碼解析

應用程序元素如果掌握說明例如 log 方法線程本課內容1.Spark中Scala集合操作鑒賞2.Scala集合操作實戰 ----------------------------------------------------------------------

使用scala開發spark時，map+case結構使用技巧

scala開發Spark程式時使用map +case結構的一點小技巧 people.txt文字如下 lyzx1,19 lyzx2,20 lyzx3,21 lyzx4,22 lyzx5,23 ly

第67課：Spark SQL下采用Java和Scala實現Join的案例綜合實戰（鞏固前面學習的Spark SQL知識）

內容： 1.SparkSQL案例分析 2.SparkSQL下采用Java和Scala實現案例一、SparkSQL下采用Java和Scala實現案例學生成績： {"name":"Michael","score":98} {"name":"Andy"

【Python3實戰Spark大資料分析及排程】Spark Core 課程筆記（1）

目錄架構注意事項 Spark Core: Spark 核心進階 Spark 核心概念 Application User program built on Spark. Consists of a driver progr

Windows本地搭建Spark開發環境

作者：翁鬆秀 Windows系統下搭建Spark開發環境三步曲，簡單粗暴，走你┏ (゜ω゜)=☞ [TOC] Step1：安裝Spark 到官網http://spark.apache.org/downloads.html選擇相應版本，下載安裝包。我這裡下的是2.1.3

spark sql scala 開發環境搭建以及必要jar包匯入

1. scala 環境安裝及安裝（官網下載） 2.檢驗 scala 是否安裝成功 3.安裝 scala 整合開發環境 IDEA （官網自行下載安裝） 4.在 IDEA 上安裝 scal

Scala 開發Spark 基本模板

一、JDK安裝(略) 二、Scala安裝配置 2.1進入scala官網下載對應版本的scala 安裝包。 2.2 新建目錄 mkdir -p /usr/local/scala 2.2解壓 tar -zxvf scala-2.10.4.tar.gz -C /u

Spark實戰----(1)使用Scala開發本地測試的Spark WordCount程式

相關推薦