大資料之Spark（一）--- Spark簡介，模組，安裝，使用，一句話實現WorldCount，API，scala程式設計，提交作業到spark叢集，指令碼分析

阿新 • • 發佈：2018-11-09

一、Spark簡介
----------------------------------------------------------
    1.快如閃電的叢集計算
    2.大規模快速通用的計算引擎
    3.速度: 比hadoop 100x,磁碟計算快10x
    4.使用: java / Scala /R /python
    5.提供80+運算元(操作符)，容易構建並行應用。
    6.通用: 組合SQL ，流計算 + 複雜分析。
    7.執行： Hadoop, Mesos, standalone, or in the cloud,local.
    8.DAG    //direct acycle graph,有向無環圖


二、Spark模組
--------------------------------------------------------
    Spark core    //核心模組
    Spark SQL     //SQL
    Spark Streaming    //流計算
    Spark MLlib       //機器學習
    Spark graph       //圖計算


三、安裝Spark
--------------------------------------------------------
    1.下載spark-2.1.0-bin-hadoop2.7.tgz
        ..
    2.解壓
        ..
    3.環境變數
        [/etc/profile]
        SPARK_HOME=/soft/spark
        PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
        /soft/spark/bin
        /soft/spark/sbin
        [source]
        $>source /etc/profile

    4.驗證spark

        $>cd /soft/spark
        $>./spark-shell

    5.webui
        http://s100:4040/


四、使用Spark
--------------------------------------------------------
    1.進入終端
        $>

    2.sc ==> spark程式的入口點,封裝了整個spark執行環境的資訊
        scala> sc
        sc
        res0: org.apache.spark.SparkContext =  
[email protected]


五、一句話實現WorldCount
----------------------------------------------------------
    //載入檔案，返回RDD[按行切割]
    scala> val rdd1 = sc.textFile("/home/ubuntu/downloads/1.txt");
    rdd1: org.apache.spark.rdd.RDD[String] = /home/ubuntu/downloads/1.txt MapPartitionsRDD[1] at textFile at <console>:24

    //開始按照',' 進行切割,然後壓扁成一個集合，單個單詞的集合
    rdd1.flatMap(line => {line.split(",")})

    //進行 單詞和數量的對映
    map(word => (word,1))

    //reduce聚合,按照key
    val rdd2 = reduceByKey(_ + _)

    //檢視單詞統計的結果
    scala> rdd2.collect
    res2: Array[(String, Int)] = Array((tom1,1), (4,1), (14,1), (7,1), (15,1), (5,1), (tom2,1), (6,1), (tom6,1), (2,1), (16,1), (3,1), (tom3,1), (tom4,1), (17,1), (12,1), (13,1), (tom5,1), (1,1), (11,1), (tom7,1))

    //一句話實現wc
    scala> sc.textFile("/home/ubuntu/downloads/1.txt").flatMap(line => {line.split(",")}).map(word => (word,1)).reduceByKey(_ + _).collect

    //加單詞過濾,遮蔽"tom"關鍵字
    scala> sc.textFile("/home/ubuntu/downloads/1.txt")
        .flatMap(line => {line.split(",")})
        .filter(!_.contains("tom"))
        .map(word => (word,1))
        .reduceByKey(_ + _)
        .collect

    res6: Array[(String, Int)] = Array((4,1), (14,1), (7,1), (15,1), (5,1), (6,1), (2,1), (16,1), (3,1), (17,1), (12,1), (13,1), (1,1), (11,1))


六、API
------------------------------------------------------
    1.[SparkContext]
        Spark功能的主要入口點。代表到Spark叢集的連線，可以建立RDD、累加器和廣播變數.
        每個JVM只能啟用一個SparkContext物件，在建立sc之前需要stop掉active的sc。

    2.[RDD]
        resilient distributed dataset,彈性分散式資料集。等價於集合。以換行符作為檔案分割

    3.[SparkConf]
        spark配置物件，設定Spark應用各種引數，kv形式


七、scala程式設計 -- idea 引入spark類庫，完成wordcount
-------------------------------------------------------------
    1.建立spark模組

    2.新增maven支援
        <dependencies>
            <dependency>
                <groupId>org.apache.spark</groupId>
                <artifactId>spark-core_2.11</artifactId>
                <version>2.1.0</version>
            </dependency>
        </dependencies>

    3.新增scala支援

    4.編寫Object -- WorldCountDemo
        import org.apache.spark.{SparkConf, SparkContext}

        object WorldCountDemo {
          def main(args: Array[String]): Unit = {
            //建立spark配置物件
            val conf = new SparkConf();
            //設定appname
            conf.setAppName("sparkwc");
            //設定本地模式
            conf.setMaster("local");

            //建立核心 -- 上下文
            val sc = new SparkContext(conf);
            val rdd1 = sc.textFile("d:\\calllog.log");
            val rdd2 = rdd1.flatMap(line => line.split(","));
            val rdd3 = rdd2.map(word => (word,1));
            val rdd4 = rdd3.reduceByKey(_ + _);
            val r = rdd4.collect();
            r.foreach(e => println(e));
          }
        }

    5.執行app,檢視結果

    6.java實現
        import org.apache.spark.SparkConf;
        import org.apache.spark.api.java.JavaPairRDD;
        import org.apache.spark.api.java.JavaRDD;
        import org.apache.spark.api.java.JavaSparkContext;
        import org.apache.spark.api.java.function.FlatMapFunction;
        import org.apache.spark.api.java.function.PairFunction;
        import scala.Tuple2;

        import java.util.*;

        /**
         * 單詞統計java版
         */
        public class WorldCountDemoJava {

            public static void main(String [] args)
            {
                SparkConf conf = new SparkConf();
                conf.setMaster("local");
                conf.setAppName("wcjava");
                JavaSparkContext jsc = new JavaSparkContext(conf);
                JavaRDD jrdd1 =  jsc.textFile("d:\\calllog.log");
                //壓扁成單個單詞
                JavaRDD jrdd2 =  jrdd1.flatMap(new FlatMapFunction<String,String>() {
                    public Iterator call(String s) throws Exception {
                        List<String> list = new ArrayList<String>();
                        String [] strs = s.split(",");
                        for(String ss : strs)
                        {
                            list.add(ss);
                        }
                        return list.iterator();
                    }
                });

                //完成 單詞到數量的對映(word -- (word,1))
                JavaPairRDD<String,Integer> jrdd3 = jrdd2.mapToPair(new PairFunction<String,String,Integer>() {

                    public Tuple2<String,Integer> call(String s) throws Exception {
                        return new Tuple2<String, Integer>(s,1);
                    }
                });

                //開始統計
                Map<String, Long> map = jrdd3.countByKey();
                Set<String> set = map.keySet();
                for(String s : set)
                {
                    System.out.println(s + ":" + map.get(s));
                }
            }
        }

八、提交作業到spark叢集上執行
------------------------------------------------
    1.匯出jar包

    2.複製到共享目錄下

    3.使用spark-submit提交命令，執行jar
         $> spark-submit --master local --name wc --class com.spark.demo.java.WorldCountDemoJava TestSpark-1.0-SNAPSHOT.jar /home/ubuntu/downloads/1.txt
         $> spark-submit --master local --name wc --class com.spark.demo.scala.WorldCountDemoScala TestSpark-1.0-SNAPSHOT.jar /home/ubuntu/downloads/1.txt


九、部署spark叢集
-----------------------------------------------
    1.local
        nothing!
        spark-shell --master local;       //預設

    2.standalone
        獨立。
        a)複製spark目錄到其他主機
        b)配置其他主機的所有環境變數
            [/etc/profile]
            SPARK_HOME
            PATH

        c)配置master節點s100的slaves,並分發到所有節點
            [/soft/spark/conf/slaves]
            s202
            s203
            s204

        d)在s100上啟動spark叢集
            /soft/spark/sbin/start-all.sh [為了避免和hadoop叢集混淆，要進入到sbin目錄下執行sh檔案]

        e)檢視程序
            $>xcall.jps jps
                master    //s100
                worker    //s200
                worker    //s300
                worker    //s400
        e)webui
            http://s100:8080/


十、提交作業jar作業到完全分散式spark叢集
--------------------------------------------------------
    1.啟動hadoop的hdfs叢集
        $> start-dfs.sh

    2.put要進行單詞統計的檔案到hdfs

    3.執行spark-submit
        $> spark-submit --master spark://s100:7077 --name wc --class com.spark.demo.java.WorldCountDemoJava TestSpark-1.0-SNAPSHOT.jar hdfs://s500:8020/data/spark/1.txt
        $> spark-submit --master spark://s100:7077 --name wc --class com.spark.demo.scala.WorldCountDemoScala TestSpark-1.0-SNAPSHOT.jar hdfs://s500:8020/data/spark/1.txt


十一、指令碼分析
--------------------------------------------------------
    [start-all.sh]
        sbin/spark-config.sh
        sbin/spark-master.sh      //啟動master程序
        sbin/spark-slaves.sh      //啟動worker程序

    [start-master.sh]
        sbin/spark-config.sh
        org.apache.spark.deploy.master.Master
        spark-daemon.sh start org.apache.spark.deploy.master.Master --host --port --webui-port ...

    [spark-slaves.sh]
        sbin/spark-config.sh
        slaves.sh           //conf/slaves

    [slaves.sh]
        for conf/slaves{
            ssh host start-slave.sh ...
        }

    [start-slave.sh]
        CLASS="org.apache.spark.deploy.worker.Worker"
        sbin/spark-config.sh
        for ((  .. )) ; do
            start_instance $(( 1 + $i )) " 
[email protected]"
        done

    $>cd /soft/spark/sbin
    $>./stop-all.sh             //停掉整個spark叢集.
    $>./start-all.sh         //啟動整個spark叢集.
    $>./start-master.sh          //啟動master節點
    $>./start-slaves.sh          //啟動所有worker節點
    $s400>./start-slave.sh  spark://s100:7077        //在s400上啟動單個worker節點

大資料之storm（一） --- storm簡介，核心元件，工作流程，安裝和部署，電話通訊案例分析，叢集執行，單詞統計案例分析，調整併發度

一、storm簡介 --------------------------------------------------------- 1.開源，分散式，實時計算 2.實時可靠的處理無限資料流，可以使用任何語言開發 3.適用於實時分析，線上機器學習

大資料之hbase（一） --- HBase介紹，特性，安裝部署，shell命令，client端與hbase的互動過程，程式設計API訪問hbase實現百萬寫入

一、HBase介紹 ---------------------------------------------- 1.基於hadoop的資料庫，具有分散式，可伸縮的大型資料儲存 2.用於對資料的隨機訪問，實時讀寫 3.巨大的表，十億行*百萬列

大資料之hbase（四） --- rowkey設計原則模擬通話日誌，BloomFilter，phonix環境部署，hive-hbase整合

一、rowkey設計 -- 模擬通話日誌 -------------------------------------------------- 1.建表 $hbase> create 'ns1:calllogs' , 'f1' 2.編寫

大資料之hbase（五） --- 匯出Hbase的表文件到HDFS，Hbase Bulk Load Hbase，MySQL資料通過MR匯入到Hbase表中

一、匯出Hbase的表文件到HDFS -------------------------------------------------------------------------- 1.複製hbase的jar檔案和metrices-core-xxx.jar檔案到

大資料之mongodb --> （1）在ubuntu上安裝mongodb

1.安裝 MongoDB。 1.為軟體包管理系統匯入公鑰。 Ubuntu 軟體包管理工具為了保證軟體包的一致性和可靠性需要用 GPG 金鑰檢驗軟體包。使用下列命令匯入 MongoDB 的 GPG 金鑰（ MongoDB public GPG Key h

大資料技術介紹（一）

早在上世紀八十年代，著名未來學家托夫勒在所著的《第三次浪潮》中提出了“大資料”的概念。《自然》雜誌在2008年9月推出了名為“大資料”的封面專欄。從2009年開始“大資料”開始成為網際網路技術行業中的熱門詞彙。在中國，是從2012開始，大資料的時代才真正大面積的開始流行，為人們所知的。 &

大資料架構簡述（一）：大資料的本質

1.大資料是什麼大資料由SCI的首席科學家JohmR.Masey於1998年在USENIX大會上首次提出。他在其發表的一篇名為Big Dara and the Next Wave of Infras

大資料學習總結（一）分散式Hadoop系統

Scala tips：在前面的類層次結構圖中可以看到，Null型別是所有AnyRef型別的子型別，也即它處於AnyRef類的底層，對應java中的null引用。而Nothing是scala類中所有類的子類，它處於scala類的最底層。近期投入大資料組工作，就寫一

java程式設計師的大資料之路（5）：HDFS壓縮與解壓縮

背景好久沒有更新了，原因是公司專案上線，差點被祭天。在這種驚心動魄的時候還是要抽時間做一點自己喜歡做的事情的，然而進度比預期慢了許多。正式開始接下來就開始記錄最近的學習成果啦！在Hadoop叢集中，網路資源是非常珍貴的。因此對檔案進行壓縮是非

CM+CDH構建企業大資料平臺系列（一）

問題導讀：1、CM是什麼？2、CDH是什麼？3、CM+CDH是什麼？4、什麼是企業大資料平臺？5、如何用CM+CDH構建企業大資料平臺？..........帶著種種疑問讓我們開啟真正的企業級大資料平臺搭建之旅。隨著網際網路，尤其是移動網際網路和智慧移動裝置的高速發展和

java程式設計師的大資料之路（7）：基於檔案的資料結構

SequenceFile 介紹由於日誌檔案中每一條日誌記錄是一行文字。如果想記錄二進位制型別，純文字是不合適的。這種情況下，Hadoop的SequenceFile類非常合適。SequenceFile可以作為小檔案容器。而HDFS和MapReduce是針

胖子哥的大資料之路（6）- NoSQL生態圈全景介紹

引言： NoSQL高階培訓課程的基礎理論篇的部分課件，是從一本英文原著中做的摘選，中文部分參考自網際網路。給大家分享。正文： The NoSQL Ecosystem 目錄 The NoSQL Ecosystem... 1 13.1. What's in a Name?.

Git版本管理之旅（一）—— Git簡介及架構淺析

背景與誕生功能架構安裝背景與誕生 1991年，Linus建立了開源的Linux； 2002年以前，世界各地的志願者把原始碼檔案通過diff的方式發給Linus，然後由Linus本人通過手工方式合併程式碼！ Q：為什麼把L

go語言學習之路（一）——go在win10下的安裝與配置

一下載go包1.可以去go的官網上去下載（需要梯子），一般可以從國內的映象中下載，地址:https://www.golangtc.com/download二 go環境變數的配置1、將Go的壓縮包解壓到任意目錄，我的為D:\go 2、配置GoRoot路徑開啟系統屬性：環境變

Qt學習之QMainWindow（一）QMainWindow簡介

（詳細的後續會講到，這裡重在理解過程） Qt中的頂層視窗稱為MainWindow，屬於類QMainWindow，QMainWindow也是繼承於QWidget。通過子類化QMainWindow可以建立一個應用程式的視窗。 MainWindow的結構分為五個部分：選單欄（Me

ElasticSearch筆記整理（一）：簡介、REST與安裝配置

大數據 ElasticSearch ELK [TOC] ElasticSearch簡介 ElasticSearch是一款基於Apache Lucene構建的開源搜索引擎，它采用Java編寫並使用Lucene構建索引、提供搜索功能，ElasticSearch的目標是讓全文搜索變得簡單，開發者可以通

大資料之Spark（一）--- Spark簡介，模組，安裝，使用，一句話實現WorldCount，API，scala程式設計，提交作業到spark叢集，指令碼分析

一、Spark簡介 ---------------------------------------------------------- 1.快如閃電的叢集計算 2.大規模快速通用的計算引擎 3.速度: 比hadoop 100x,磁碟計算快10x 4.使用: java

Spark（一）—— 大資料處理入門

一、Spark介紹 Apache Spark is a fast and general-purpose cluster computing system. It provides high-level APIs in Java, Scala, Python and R, and an optimized

Scala學習之路（一）Spark初識

海量處理 apache .org 流式 height 計算平臺提高結構化數據一、官網介紹官網地址：http://spark.apache.org/ Apache Spark™是用於大規模數據處理的統一分析引擎。從右側最後一條新聞看，Spar

慕課從零到一spark進階之路（一）

1.RDD RDD是spark特有的資料模型，談到RDD就會提到什麼彈性分散式資料集，什麼有向無環圖，本文暫時不去展開這些高深概念。（0）隨便找個點理解以下最重要的記住，RRD是不可變的，也就是說，已有的RDD不能被修改或者更新，但可以從已有的RDD轉化成一個新的RDD. 上面的

大資料之Spark（一）--- Spark簡介，模組，安裝，使用，一句話實現WorldCount，API，scala程式設計，提交作業到spark叢集，指令碼分析

相關推薦