Apache Spark漸進式學習教程(三): Spark單節點安裝和快速入門Demo

一，下載Spark

使用 Spark 的第一步是下載和解壓縮。我們先從下載預編譯版本的 Spark 開始。訪問 http://spark.apache.org/downloads.html ,進行spark安裝包的下載。本文使用版本為：spark-2.4.3-bin-hadoop2.7.tgz

二，安裝Spark

cd ~
tar -xf spark-2.4.3-bin-hadoop2.7.tgz
cd spark-2.4.3-bin-hadoop2.7
ls

在 tar 命令所在的那一行中，x 標記指定 tar 命令執行解壓縮操作，f 標記則指定壓縮包的檔名。ls 命令列出了 Spark 目錄中的內容。我們先來粗略地看一看 Spark 目錄中的一些比較重要的檔案及目錄的名字和作用。
• README.md
包含用來入門 Spark 的簡單的使用說明。
• bin
包含可以用來和 Spark 進行各種方式的互動的一系列可執行檔案，比如本章稍後會講到的 Spark shell。
• core、streaming、python……
• 包含Spark專案主要元件的原始碼。
• examples
包含一些可以檢視和執行的 Spark 程式，對學習 Spark 的 API 非常有幫助。

三，SparkShell介紹

Spark 帶有互動式的 shell，可以作即時資料分析。如果你使用過類似 R、Python、Scala 所提供的 shell，或作業系統的 shell（例如 Bash 或者 Windows 中的命令提示符），你也會對Spark shell 感到很熟悉。然而和其他 shell 工具不一樣的是，在其他 shell 工具中你只能使用單機的硬碟和記憶體來操作資料，而 Spark shell 可用來與分散式儲存在許多機器的記憶體或者硬碟上的資料進行互動，並且處理過程的分發由 Spark 自動控制完成。

bin/spark-shell

當啟動一個Spark shell時，Spark shell已經預先建立好一個SparkContext物件，其變數名為“sc”。如果你再新建一個SparkContext物件，那麼它將不會執行下去。我們可以使用–master標記來指定以何種方式連線叢集，也可以使用–jars標記新增JAR包到classpath中，多個JAR包之間以逗號分隔；還可以使用–packages標記新增Maven依賴到shell會話中，多個依賴間用逗號隔開。另外通過–repositories標記新增外部的repository。下面語句在本地模式下，使用四核執行spark-shell：

./bin/spark-shell --master local[4]

四，快速入門Demo

本教程將進行wordCount的demo快速入門，首先需要建立maven工程並引入scala語言的支援。

scala版本的wordcount

package com.t9vg

import org.apache.spark.{SparkConf, SparkContext}

object WordCount {

  def main(args:Array[String]):Unit={
    val conf = new SparkConf().setMaster("local").setAppName("WordCount")
    val sc = new SparkContext(conf)
    val text = sc.textFile("quickStart/src/main/resources/1.txt")
    val words = text.flatMap(line =>line.split(","))//？
    val pairs = words.map(word =>(word,1))//?
    val result = pairs.reduceByKey(_+_)
    val sorted = result.sortByKey(false);
    sorted.foreach(x => println(x));
  }
}

Java版本的wordCount

package com.t9vg.rdd;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import scala.Tuple2;

import java.util.Arrays;

public class WordCount {
    public static void main(String[] args) {
        SparkConf conf = new SparkConf().setMaster("local").setAppName("WorldCount");
        JavaSparkContext sc = new JavaSparkContext(conf);
        JavaRDD<String> textFile = sc.textFile("quickStart/src/main/resources/1.txt");
        JavaPairRDD<String, Integer> counts = textFile
                .flatMap(s -> Arrays.asList(s.split(",")).iterator())
                .mapToPair(word -> new Tuple2<>(word, 1))
                .reduceByKey((a, b) -> a + b);
        counts.foreach(x-> System.out.println(x.toString()));
        sc.close();
    }
}

專案原始碼地址：

https://github.com/JDZW2018/learningSpark.git

轉載請註明出處。

歡迎加入 巨匠IT-Java/Scala/大資料/SpringCloud 技術討論qq群：854150511

相關推薦

Apache Spark漸進式學習教程(三): Spark單節點安裝和快速入門Demo

一，下載Spark 使用 Spark 的第一步是下載和解壓縮。我們先從下載預編譯版本的 Spark 開始。訪問 ht

【OpenCV影象處理入門學習教程三】基於SIFT特徵和SURF特徵的微旋轉影象拼接與融合生成全景影象的比較

安裝教程可以參考本人之前的一篇部落格：可以使OpenCV2和OpenCV3共存。那麼這裡為什麼又要提到OpenCV2和OpenCV3的區別了呢？其實本人也覺得挺奇葩的，因為從OpenCV3以來，一些比較新的功能都挪到了“opencv_contrib”庫裡，原因是他們覺得這些庫“不安全”，因此並沒有預設自帶這些

redis學習教程一《Redis的安裝和配置》

遠程服務 name 工具列表端口號裏的 redis服務器映射 tin redis學習教程一《Redis的安裝和配置》 Redis的優點以下是Redis的一些優點。異常快 - Redis非常快，每秒可執行大約110000次的設置(SET)操作，每秒大約可執

Linux下的redis單節點安裝和部署（redis-4.0.0.tar.gz）

最首先你要下載個xshell（360軟體管家就可以），輸入IP，使用者名稱、密碼判斷該IP是否有網：[[email protected]_SOA10 ~]# ping www.baidu.com 若出現圖一所示，則說明該IP有網。（圖一）1.下載redis-4

zookeeper執行環境2、3：單節點安裝和偽分散式叢集安裝

轉載：http://www.aboutyun.com/thread-9097-1-1.html 問題導讀： 1.什麼是zookeeper 2.zookeeper有幾種安裝方式？ 3.zookeeper偽分佈如何配置myid？ 4.zookeeper包含哪些常用操作命令？前

spark 教程三 spark Map filter flatMap union distinct intersection操作

文件的 ask wordcount 本地文件 png var foreach sets list RDD的創建 spark 所有的操作都圍繞著彈性分布式數據集（RDD）進行，這是一個有容錯機制的並可以被並行操作的元素集合，具有只讀、分區、容錯、高效、無需物化、可以緩存、RD

spark入門系列教程三——spark sql(一）

Spark SQL是用於結構化資料處理的Spark模組，可以通過sql、dataset、dataframe與spark sql進行互動。更多理論性知識請移步官網http://spark.apache.org/docs/2.3.1/sql-programming-guide.html 在spark 2.0以前

Spark Streaming學習教程

目錄一 Spark Streaming介紹 1.1 什麼是Spark Streaming 1.2 為什麼要學習Spark Streaming 1.3 Spark與Storm的對比二 DStream 2.1 什麼是Dstream 2.2 DStre

【spark 深入學習 03】Spark RDD的蠻荒世界

解釋不難特性 bsp resid 易懂優化方式序列 RDD真的是一個很晦澀的詞匯，他就是伯克利大學的博士們在論文中提出的一個概念，很抽象，很難懂；但是這是spark的核心概念，因此有必要spark rdd的知識點，用最簡單、淺顯易懂的詞匯描述。不想用學術話的語言來

【Spark深入學習-11】Spark基本概念和運行模式

nmf 磁盤大數據平臺並不是鼠標 .cn 管理系統大型數據集 spa ----本節內容------- 1.大數據基礎 1.1大數據平臺基本框架 1.2學習大數據的基礎 1.3學習Spark的Hadoop基礎 2.Hadoop生態基本介紹 2.1

【Spark深入學習 -12】Spark程序設計與企業級應用案例02

提升算子 lin count() roi println groupby 工作問題衍生 ----本節內容------- 1.遺留問題答疑 1.1 典型問題解答 1.2 知識點回顧 2.Spark編程基礎 2.1 Spark開發四部曲 2.2 RDD典型實例

【Spark深入學習 -14】Spark應用經驗與程序調優

aps 它的 stack 申請 vco 用戶統一 persist 資料 ----本節內容------- 1.遺留問題解答 2.Spark調優初體驗 2.1 利用WebUI分析程序瓶頸 2.2 設置合適的資源 2.3 調整任務的並發度

【Spark深入學習 -15】Spark Streaming前奏-Kafka初體驗

rod htm 新的 callback tails 包括 -c 舉例清理 ----本節內容------- 1.Kafka基礎概念 1.1 出世背景 1.2 基本原理 1.2.1.前置知識 1.2.2.架構和原理 1.2.

redis學習教程三《發送訂閱、事務、連接》

微軟雅黑 pin 發布者 tail 順序 mil visitor 模式 b- redis學習教程三《發送訂閱、事務、連接》一：發送訂閱 Redis發布訂閱(pub/sub)是一種消息通信模式：發送者(pub)發送消息，訂閱者(sub)接收消息。Redis 發

Redis從零開始學習教程三：key值的有效期

圖片 com edi 數據 key值一次時間 inf 系統 Redis 是一種存儲系統，類似數據庫，和緩存的差別是，緩存有有效期，而Redis默認無有效期，或者說，默認有效期為永久但是Redis可以當做緩存使用。這時候需要針對各個key設置有效期。有效期單位默認為S

Spark原始碼走讀（三） —— Stage的劃分和提交

Stage的劃分繼續上節的分析。handleJobSubmitted的原始碼如下： private[scheduler] def handleJobSubmitted(jobId: Int, finalRDD: RDD[_], func:

《Spark機器學習》筆記——Spark分類模型（線性迴歸、樸素貝葉斯、決策樹、支援向量機）

一、分類模型的種類 1.1、線性模型 1.1.1、邏輯迴歸 1.2.3、線性支援向量機 1.2、樸素貝葉斯模型 1.3、決策樹模型二、從資料中抽取合適的特徵 MLlib中的分類模型通過LabeledPoint(label: Double, features

spark SQL學習（認識spark SQL）

spark SQL學習（認識spark SQL） spark SQL初步認識 spark SQL是spark的一個模組，主要用於進行結構化資料的處理。它提供的最核心的程式設計抽象就是DataFrame。 DataFrame：它可以根據很多源進行構建，包括：結構化的資料檔案，hive中的表

spark機器學習庫指南[Spark 1.3.1版]——決策樹(decision trees)

fuqingchuan 機器學習 2015-03-22  3,477 次瀏覽 GINI, spark, 決策樹, 熵 spark機器學習庫指南[Spark 1.3.1版]——決策樹(decision trees)已關閉評論下面是章節決策

《Spark機器學習》筆記——Spark Streaming 在實時機器學習中的應用

此前我們一直討論的是批量資料處理，也就是我們所有的分析、特徵提取和模型訓練都被應用於一組固定不變的資料。這很好地適用於Spark對RDD的核心抽象，即不可變的分散式資料集。儘管可以使用Spark的轉換函式和行動運算元從原始的RDD建立新RDD，但是RDD一旦建立，其中包含的