Spark 執行第一個Scala程式WordCount

阿新 • • 發佈：2018-12-24

安裝

首先去官網下載Spark。注意Spark和Hadoop之間版本對應關係，我自己裝的Hadoop 2.7.5版本，按照下面方式下載即可。
這裡寫圖片描述
下載完成後，解壓安裝包至路徑/usr/local

tar -zxf ./spark-2.3.0-bin-hadoop2.7.tgz -C /usr/local/
cd /usr/local
sudo mv ./spark-2.3.0-bin-hadoop/ ./spark #更改資料夾名
sudo chown -R hadoop ./spark #此處的hadoop為系統使用者

配置Spark的Classpath

cd /usr/local/spark
cp ./conf/spark-env.sh 
.template ./conf/spark-env.sh

接著編輯該配置檔案，在檔案最後面加上如下一行內容

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

儲存配置檔案後，就可以啟動，若需要使用HDFS中的檔案，則在使用Spark前需要啟動Hadoop。

這裡簡單的單機安裝就可以了，關於叢集安裝可以參考其他資料。

第一個Spark程式

首先在IDEA中新增Scala支援外掛

依次點選File->New->Project，選擇Scala->SBT，SBT是一款Spark用來對scala編寫程式進行打包的工具。下一步，開啟如下視窗：
這裡寫圖片描述

Scala的版本2.11.8，使用./bin/spark-shell進入shell時我們可以看到版本資訊。
這裡寫圖片描述

建立完成後會進行初始化操作，自動下載jar包等。下載時常看具體網路情況。待所有進度條完成後，專案目錄已經出來了，如下：
這裡寫圖片描述
編輯build.sbt檔案

name := "SparkDemo"

version := "1.0"

scalaVersion := "2.11.8"

libraryDependencies += "org.apache.spark" %% "spark-core" % "2.3.0"

這裡添加了依賴的jar包。前面，我們建立專案時已經勾選了自動匯入，編輯完成後，IDEA就會自動下載匯入spark-core相關的jar包。

上面配置完成後，就可以開始程式碼編寫。src->scala右擊新建一個scala的單例物件WordCount，程式碼如下：

object WordCount {
  def main(args: Array[String]): Unit = {
    val wordFile = "file:///usr/local/spark/mycode/wordcount/word.txt"
    val conf = new SparkConf().setAppName("wordcount");
    val sc = new SparkContext(conf)
    val input = sc.textFile(wordFile, 2).cache()
    val lines = input.flatMap(line=>line.split(" "))
    val count = lines.map(word => (word,1)).reduceByKey{case (x,y)=>x+y}
    val output = count.saveAsTextFile("/home/hadoop/hellospark")
  }
}

接著將上面程式碼打成jar包，開啟Project Structure，選擇Artifacts，點選右上角加號，配置jar打包資訊。
這裡寫圖片描述

這裡有兩個選項，第一個會打包依賴，這裡不打包依賴，選下面一個。配置jar包完成後，Build->Build Artifacts,等待build完成。完成後會在專案下生成一個out目錄，out目錄下面會生成很多jar，我們生成的是sparkdemo.jar。

執行程式

在/usr/local/spark/mycode/wordcount目錄下建立word.txt檔案。

hello world
hello spark
my name is scala
This is my first Spark programm.
Spark is good

使用下面的命令

./bin/spark-submit --class "WordCount" /home/hadoop/Desktop/sparkdemo.jar

這裡Spark依賴於Hadoop的分散式檔案系統HDFS，到HDFS中檢視執行結果
這裡寫圖片描述

Spark 執行第一個Scala程式WordCount

安裝首先去官網下載Spark。注意Spark和Hadoop之間版本對應關係，我自己裝的Hadoop 2.7.5版本，按照下面方式下載即可。下載完成後，解壓安裝包至路徑/usr/local tar -zxf ./spark-2.3.0-bin-had

Spark視訊王家林第3課：在IDE下開發第一個Scala程式純傻瓜式徹底透徹解析

內容： 1.控制結構 2.Scala的基礎語法 /** * FileName: HelloScala * Author: hadoop * Email: [email protected] * Date: 18-

使用IDEA進行Spark開發（二）-第一個scala程式

上面一篇文章博主已經給大家演示好了如何去配置一個本機的scala開發環境，現在我們就一起去寫我們的第一個spark開發的scala程式吧! 開啟IDEA，選擇建立一個新的工程檔案。點選scala，建立一個scala工程輸入我們程式名稱——word

java基礎（1）-----編寫並執行第一個java程式

下面是一個簡單的java程式，將在控制檯輸出hello world public class HelloWorld { public static void main(String[] args) { System.out.println("Hello Wor

1-系統方案A(系統方案演示和執行第一個Android程式,ListView顯示資料,刪除資料)

系統教程初步要做到的就是12節和13節所演示的 12節： https://www.cnblogs.com/yangfengwu/p/9966702.html 13節： https://www.cnblogs.com/yangfengwu/p/9966901.html

OpenCV學習筆記 - 安裝及執行第一個OpenCV程式

1、下載及安裝 OpenCV是一套開源免費的圖形庫，主要有C/C++語言編寫，官網： http://opencv.org/ 。在 http://opencv.org/downloads.html 可以找到個版本和各種平臺的程式包。OpenCV的Windows平臺安

IDEA+Maven開發第一個Hadoop程式WordCount

IDEA+Maven開發第一個Hadoop程式WordCount 1. 新建一個maven專案選擇JDK版本。 2.設定GroupId和ArtifactId 3.設定專案名稱 &

Scala基礎入門：使用Eclipse IDE編寫第一個Scala程式

初探Docker及使用Docker執行第一個JavaWeb程式

1 什麼是Docker 1-1 Docker歷史 2010 dotCloud PAAS 2013 Docker開源 2014.6 Docker 1.0 2014.7 C輪 $4000萬 2015.4 D輪 $9500萬 1-2 什麼是Docker？ Doc

第一個Hadoop程式——WordCount

概述：通過前面兩篇部落格的學習，我們學習了Hadoop的偽分散式部署和完全分散式部署。這一篇文章就來介紹一下Hadoop的第一個程式WordCount。以及在執行程式碼的過程中遇到的問題。筆

編寫並執行第一個Lisp程式

我覺得接觸一門新的程式語言的時候第一個程式的編寫至關重要，這能夠讓我快速瞭解到簡單的語法以及執行方法。而執行方法基本上是我更為關注的，因為這將是後期學習過程中不斷打交道的東西。為了能夠彌補工作中那種浪費時間的懊悔感，我決定學習一個新的程式語言，

Scala基礎入門（三）使用Scala IDE編寫第一個Scala程式

Scala 開發環境 Scala 是類Java 語言，可以在命令列執行程式碼； C:\Users\Administrator>scala -version Scala code runner version 2.12.3 -- Copyrigh

在VMware虛擬機器下安裝Android Studio（AS）以及執行第一個HelloWorld程式

1、JDK 1.1下載百度一下“JDK”即可 1.2安裝選擇安裝目錄 C:\java JAVA_HOME→C:\java PATH→C:\java\bin 2、android studio (AS) 2.2安裝遇到的問題： 1.新建

Opencv學習1: 在Linux下編譯執行第一個opencv程式

前一段在安裝Caffe時候把Opencv2.4.11版本安裝在redhat6.4系統上，為了測試在Linux下如何編譯執行opencv程式碼,特意查詢了網上相關資料（主要參考三個網頁）。本文主要給出三種編譯執行的方式：命令列的方式；Makefile（兩種）方式；

建立並執行第一個OSGi程式-HelloWorld

還記得我們在學習Java語言、C語言、或C++語言等各個計算機語言時都寫過的 HelloWorld 嗎？那些 HelloWorld 程式都是在執行後輸出一個“Hello World”，然後就結束了程式，我們今天來看看OSGi中的HelloWorld 程式，該程式

NDK實戰教程（一）在Android Studio執行第一個NDK程式

1、新建一個Android工程，這一步就不多說了； 2、在AndroidStudio中配置NDK路徑，方法是：（1）先下載NDK並安裝（這句基本是廢話）；（2）點選單欄的File->ProjectStructure…->在開啟的視窗中左側選中SDKLocat

執行第一個Spark程式

我們這裡使用官方的Spark自帶的一個程式來體驗一下Spark的執行 Spark自帶的例子是利用蒙特·卡羅演算法求PI 在Spark目錄下執行下面命令 bin/spark-submit \ >--master spark://cdh0:7077 \ >--class org.

spark本地環境的搭建到執行第一個spark程式

搭建spark本地環境搭建Java環境 (1)到官網下載JDK 官網連結：https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html (2)解壓縮到指定的目錄 >sudo t

Hadoop安裝配置、執行第一個WordCount示例程式

作業系統ubuntu。本篇目的是在單機模式下執行成功WordCount示例程式。本篇小結安裝步驟，遇到的問題和解決辦法。疑惑點及其思考。 Hadoop是為linux而開發的，所以開發hadoop程式，包括spark最好在linux環境下。目錄如下：一：Hadoop

Linux下建立並執行第一個HelloWorldC與C++程式

1.執行虛擬機器，啟動Ubuntu，進入終端 2.如果未安裝gcc編譯器及vim文字編輯器，首先在終端下輸入如下指令，並輸入密碼進行下載。 sudo apt install gcc sudo apt install vim 3.使用vim文字編輯器，輸入vim指令分別建立我們需要的c及c

Spark 執行第一個Scala程式WordCount

安裝

第一個Spark程式

執行程式

相關推薦