Spark叢集安裝和WordCount編寫

阿新 • • 發佈：2019-01-10

一、Spark概述

    官網：http://spark.apache.org/
    Apache Spark™是用於大規模資料處理的統一分析引擎。
    為大資料處理而設計的快速通用的計算引擎。
    
    Spark加州大學伯克利分校AMP實驗室。不同於mapreduce的是一個Spark任務的中間結果儲存到記憶體中。
    空間換時間。
    Spark啟用的是記憶體分散式資料集。
    用scala語言實現，與spark緊密繼承。用scala可以輕鬆的處理分散式資料集。
    Spark並不是為了替代hadoop，而為了補充hadoop。
    Spark並沒有儲存。可以整合HDFS。

二、Spark特點

    1）速度快
    與mr對比，磁碟執行的話10倍以上。
    記憶體執行的話，100倍以上。
    
    2）便於使用
    支援java/scala/python/R
    
    3)通用
    不僅支援批處理（SparkSQL）
    而且支援流處理（SparkStreaming）
    
    4)相容
    相容其它元件
    Spark實現了Standalone作為內建的資源管理和排程框架。hdfs/yarn。

三、Spark安裝部署

    主節點：Master （192.168.146.150）
    從節點：Worker （ 
192.168.146.151、192.168.146.152）
    
    1、準備工作    
    （1）關閉防火牆
        firewall-cmd --state 檢視防火牆狀態
        systemctl stop firewalld.service 關閉防火牆
        systemctl disable firewalld.service 禁止開機啟動
        
    （2）遠端連線（CRT）
              
    （3）永久設定主機名
        vi /etc/hostname
        三臺機器hostname分別為spark 
-01、spark-02、spark-03
        注意：要reboot重啟生效
        
    （4）配置對映檔案
        vi /etc/hosts
        
        #127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
        #::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
        192.168.146.150 spark-01
        192.168.146.151 spark-02
        192.168.146.152 spark-03
        
    （5）配置ssh免密碼登入
        ssh-keygen  生成金鑰對
        ssh-copy-id spark-01
        ssh-copy-id spark-02
        ssh-copy-id spark-03
    
    2、安裝jdk(scala依賴jvm)
    （1）建立spark安裝的目錄
        cd /root
        上傳tar包到/root目錄下        
        
    （2）解壓tar包
        cd /root
        mkdir sk    
        tar -zxvf jdk-8u144-linux-x64.tar.gz -C /root/sk    
    
    （3）配置環境變數
        vi /etc/profile 
        
        export JAVA_HOME=/root/sk/jdk1.8.0_144
        export PATH=$PATH:$JAVA_HOME/bin
        
        source /etc/profile  載入環境變數
        
    （4）傳送到其它機器(其他機器的/root下要先建立sk目錄)
        cd /root/sk
        scp -r jdk1.8.0_144/ [email protected]:$PWD
        scp -r jdk1.8.0_144/ [email protected]:$PWD
        
        scp -r /etc/profile spark-02:/etc
        scp -r /etc/profile spark-03:/etc
        
        注意：載入環境變數 source /etc/profile
    
    3、安裝Spark叢集    
    （1）上傳tar包到/root目錄下    
    
    （2）解壓
        cd /root
        tar -zxvf spark-2.2.0-bin-hadoop2.7.tgz -C sk/
        
    （3）修改配置檔案
        cd /root/sk/spark-2.2.0-bin-hadoop2.7/conf
        mv spark-env.sh.template spark-env.sh
        vi spark-env.sh

        export JAVA_HOME=/root/sk/jdk1.8.0_144
        export SPARK_MASTER_HOST=spark-01
        export SPARK_MASTER_PORT=7077 
    
    （4）slaves 加入從節點
        cd /root/sk/spark-2.2.0-bin-hadoop2.7/conf
        mv slaves.template slaves
        vi slaves
        
        spark-02
        spark-03
        
    （5）分發到其他機器
        cd /root/sk
        scp -r spark-2.2.0-bin-hadoop2.7/ [email protected]:$PWD
        scp -r spark-2.2.0-bin-hadoop2.7/ [email protected]:$PWD
        
    （6）啟動叢集
        cd /root/sk/spark-2.2.0-bin-hadoop2.7
        sbin/start-all.sh
        
        瀏覽器訪問http://spark-01:8080/即可看到UI介面
        
    （7）啟動命令列模式
        cd /root/sk/spark-2.2.0-bin-hadoop2.7/bin
        ./spark-shell 
        
        sc.textFile("/root/words.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortBy((_,1)).collect

四、啟動sparkshell

    cd /root/sk/spark-2.2.0-bin-hadoop2.7/
    本地模式：bin/spark-shell
    
    叢集啟動：bin/spark-shell --master spark://spark-01:7077 --total-executor-cores 2 --executor-memory 512mb
    
    提交執行jar：bin/spark-submit --master spark://spark-01:7077 --class SparkWordCount /root/SparkWC-1.0-SNAPSHOT.jar
 hdfs://192.168.146.111:9000/words.txt hdfs://192.168.146.111:9000/sparkwc/out

五、spark叢集角色

    Yarn                         Spark           作用
    ResourceManager              Master          管理子節點
    NodeManager                  Worker          管理當前節點
    YarnChild                    Executor        處理計算任務
    Client+ApplicationMaster     SparkSubmit     提交計算任務

六、Shell編寫WordCount

1、本地模式：bin/spark-shell

scala> sc.textFile("/root/words.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect
res5: Array[(String, Int)] = Array((is,1), (love,2), (capital,1), (Beijing,2), (China,2), (I,2), (of,1), (the,1))

scala>

其中words.txt檔案內容如下

I love Beijing
I love China

2、叢集啟動：bin/spark-shell --master spark://spark-01:7077 --total-executor-cores 2 --executor-memory 512mb

scala> sc.textFile("/root/words.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect
res5: Array[(String, Int)] = Array((is,1), (love,2), (capital,1), (Beijing,2), (China,2), (I,2), (of,1), (the,1))

scala>

注意：如果叢集啟動使用的是本地檔案words.txt，那麼需要每個節點對應的路徑都有該檔案！！！

　　如果使用的是HDFS檔案則不需要考慮這個。

scala> sc.textFile("hdfs://192.168.146.111:9000/words.txt").flatMap(_.split("\t")).map((_,1)).reduceByKey(_+_).collect
res6: Array[(String, Int)] = Array((haha,1), (heihei,1), (hello,3), (Beijing,1), (world,1), (China,1))

scala>

HDFS中的words.txt檔案內容如下：

hello    world
hello    China
hello    Beijing
haha    heihei

3、IDEA開發WordCount

（1）SparkWordCount類

import org.apache.spark.{SparkConf, SparkContext}

//spark-WordCount本地模式測試
object SparkWordCount {
  def main(args: Array[String]): Unit = {
    //2.設定引數 setAppName設定程式名 setMaster本地測試設定執行緒數 *多個
    val conf: SparkConf = new SparkConf().setAppName("SparkWordCount").setMaster("local[*]")
    //1.建立spark執行程式的入口
    val sc:SparkContext = new SparkContext(conf)

    //3.載入資料 並且處理
    sc.textFile(args(0)).flatMap(_.split("\t")).map((_,1))
      .reduceByKey(_+_)
      .sortBy(_._2,false)
    //儲存檔案
      .saveAsTextFile(args(1))

    //4.關閉資源
    sc.stop()
  }
}

（2）pom.xml檔案

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>com.demo.spark</groupId>
    <artifactId>SparkWC</artifactId>
    <version>1.0-SNAPSHOT</version>

    <properties>
        <maven.compiler.source>1.8</maven.compiler.source>
        <maven.compiler.target>1.8</maven.compiler.target>
        <scala.version>2.11.8</scala.version>
        <spark.version>2.2.0</spark.version>
        <hadoop.version>2.8.4</hadoop.version>
        <encoding>UTF-8</encoding>
    </properties>

    <dependencies>
        <!-- scala的依賴匯入 -->
        <dependency>
            <groupId>org.scala-lang</groupId>
            <artifactId>scala-library</artifactId>
            <version>${scala.version}</version>
        </dependency>

        <!-- spark的依賴匯入 -->
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>${spark.version}</version>
        </dependency>

        <!-- hadoop-client API的匯入 -->
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>${hadoop.version}</version>
        </dependency>

    </dependencies>

    <build>
        <pluginManagement>
            <plugins>
                <!-- scala的編譯外掛 -->
                <plugin>
                    <groupId>net.alchim31.maven</groupId>
                    <artifactId>scala-maven-plugin</artifactId>
                    <version>3.2.2</version>
                </plugin>
                <!-- ava的編譯外掛 -->
                <plugin>
                    <groupId>org.apache.maven.plugins</groupId>
                    <artifactId>maven-compiler-plugin</artifactId>
                    <version>3.5.1</version>
                </plugin>
            </plugins>
        </pluginManagement>
        <plugins>
            <plugin>
                <groupId>net.alchim31.maven</groupId>
                <artifactId>scala-maven-plugin</artifactId>
                <executions>
                    <execution>
                        <id>scala-compile-first</id>
                        <phase>process-resources</phase>
                        <goals>
                            <goal>add-source</goal>
                            <goal>compile</goal>
                        </goals>
                    </execution>
                    <execution>
                        <id>scala-test-compile</id>
                        <phase>process-test-resources</phase>
                        <goals>
                            <goal>testCompile</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>

            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <executions>
                    <execution>
                        <phase>compile</phase>
                        <goals>
                            <goal>compile</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>


            <!-- 打jar包外掛 -->
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-shade-plugin</artifactId>
                <version>2.4.3</version>
                <executions>
                    <execution>
                        <phase>package</phase>
                        <goals>
                            <goal>shade</goal>
                        </goals>
                        <configuration>
                            <filters>
                                <filter>
                                    <artifact>*:*</artifact>
                                    <excludes>
                                        <exclude>META-INF/*.SF</exclude>
                                        <exclude>META-INF/*.DSA</exclude>
                                        <exclude>META-INF/*.RSA</exclude>
                                    </excludes>
                                </filter>
                            </filters>
                        </configuration>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>

</project>

（3）配置類的執行引數

（4）輸入的檔案words.txt

hello    world
hello    spark
hello    China
hello    Beijing
hello    world

（5）輸出檔案part-00000

(hello,5)
(world,2)

（6）輸出檔案part-00001

(Beijing,1)
(spark,1)
(China,1)

4、SparkSubmit提交任務

（1）將上一步的工程打成jar包

（2）把SparkWC-1.0-SNAPSHOT.jar放在spark-01機器的/root下

（3）執行以下命令

    cd /root/sk/spark-2.2.0-bin-hadoop2.7/
    
    bin/spark-submit --master spark://spark-01:7077 --class SparkWordCount /root/SparkWC-1.0-SNAPSHOT.jar
 hdfs://192.168.146.111:9000/words.txt hdfs://192.168.146.111:9000/sparkwc/out

（4）hdfs中words.txt檔案內容如下：

hello    world
hello    China
hello    Beijing
haha    heihei

（5）輸出結果

[[email protected] ~]# hdfs dfs -ls /sparkwc/out
Found 3 items
-rw-r--r--   3 root supergroup          0 2019-01-10 21:43 /sparkwc/out/_SUCCESS
-rw-r--r--   3 root supergroup         10 2019-01-10 21:43 /sparkwc/out/part-00000
-rw-r--r--   3 root supergroup         52 2019-01-10 21:43 /sparkwc/out/part-00001
[[email protected] ~]# hdfs dfs -cat /sparkwc/out/part-00000
(hello,3)
[[email protected] ~]# hdfs dfs -cat /sparkwc/out/part-00001
(haha,1)
(heihei,1)
(Beijing,1)
(world,1)
(China,1)

Spark叢集安裝和WordCount編寫

一、Spark概述官網：http://spark.apache.org/ Apache Spark™是用於大規模資料處理的統一分析引擎。為大資料處理而設計的快速通用的計算引擎。 Spark加州大學伯克利分校AMP實驗室。不同於mapreduce的是一個Sp

Spark叢集安裝和使用

本文主要記錄 CDH5 叢集中 Spark 叢集模式的安裝過程配置過程並測試 Spark 的一些基本使用方法。安裝環境如下：作業系統：CentOs 6.5Hadoop 版本：cdh-5.3.0Spark 版本：cdh5-1.2.0_5.3.0關於 yum 源的配置以及 Hadoop 叢集的安裝，請參考

IntelliJ IDEA（Ultimate版本）的下載、安裝和WordCount的初步使用（本地模式和叢集模式）

　　不多說，直接上乾貨！　　IntelliJ IDEA號稱當前Java開發效率最高的IDE工具。IntelliJ IDEA有兩個版本：社群版(Community)和旗艦版(Ultimate)。社群版時免費的、開源的，但功能較少，旗艦版提供了較多的功能，是收費的，可以試用30天。　　強烈推

IntelliJ IDEA（Community版本）的下載、安裝和WordCount的初步使用（本地模式和叢集模式）

　　不多說，直接上乾貨！　　對於初學者來說，建議你先玩玩這個免費的社群版，但是，一段時間，還是去玩專業版吧，這個很簡單哈，學聰明點，去搞到途徑啟用！可以看我的部落格。包括：　　IntelliJ IDEA（Community）的下載　　 IntelliJ IDEA（Commun

Scala IDE for Eclipse的下載、安裝和WordCount的初步使用（本地模式和叢集模式）

　　不多說，直接上乾貨！這篇部落格是，　　是在Scala IDEA for Eclipse裡maven建立scala和java程式碼編寫環境。本博文包括：　　Scala IDE for Eclipse的下載　　 Scala IDE for

Spark簡介安裝和簡單例子

可用 spa nbsp tgz class 高效 ota zookeep 進入 Spark簡介 Spark是一種快速、通用、可擴展的大數據分析引擎，目前，Spark生態系統已經發展成為一個包含多個子項目的集合，其中包含SparkSQL、Spark Streaming、Gra

Spark叢集安裝搭建

1.下載Spark Spark是一個獨立的記憶體計算框架，如果不考慮儲存的話，可以完全獨立執行，因此這裡就只安裝Spark叢集 Spark下載地址： http://spark.apache.org/downloads.html 選

03. CouchBase叢集安裝和配置(02)-CouchBase從0到50

4.叢集配置 couchbase叢集可以採用2種方式配置直接ip叢集互聯通過hostname叢集互聯為了方便以後的維護和變更，我們採用hostname的進行配置。首先確保三臺測試機之間網路互通，防護牆，selinux和埠之類的都配置ok了。 4.1 hosts設定配置三臺機

【Spark】Ubuntu16.04 spark 叢集安裝（standalone模式）

一、前言目前 Apache Spark 支援三種分散式部署方式，分別是： standalone spark on mesos spark on YARN 其中，第一種類似於MapReduce 1.0所採用的模式，內部實現了容錯性和資源管理，後兩種則是未來發

storm概述、叢集安裝和簡單的命令列操作

http://storm.apache.org Apache Storm是一個免費的開源分散式實時計算系統。Storm可以輕鬆可靠地處理無限資料流，實現Hadoop對批處理所做的實時處理。Storm非常簡單，可以與任何程式語言一起使用，並且使用起來很有趣! Storm有許多用例:實時分析，

kafka2.9.2的分散式叢集安裝和demo(java api)測試

問題導讀1、什麼是kafka?2、kafka的官方網站在哪裡？3、在哪裡下載？需要哪些元件的支援？4、如何安裝？　　一、什麼是kafka?　　kafka是LinkedIn開發並開源的一個分散式MQ系統，現在是Apache的一個孵化專案。在它的主頁描述kafka為一個高吞吐量

hadoop3節點叢集安裝，spark叢集安裝

一：修改機器名 1. 修改3臺機器的機器名，注意名字不要帶下劃線修改機器名命令： hostnamectl set-hostname xxxx 然後退出shell重新登陸修改3臺機器的hosts檔案 vim /etc/hosts 新增以下內容 192.107.53.157 had

kafka叢集配置和java編寫生產者消費者操作例子

kafka 安裝修改配置檔案 java操作kafka kafka kafka的操作相對來說簡單很多安裝下載kafka http://kafka.apache.org/downloads tar -zxvf kafka_2.12-2.1

CentOS6u9 Oracle11g RAC 搭建部署（三）叢集安裝和PSU補丁升級

6-叢集安裝： 1° 安裝grid： # 將安裝包上傳到某一個節點即可 chown grid: /tmp/p13390677_112040_Linux-x86-64_3of7.zip su - grid cd /tmp/ unzip p13390677_

Spark叢集安裝及Streaming除錯

安裝前置條件 1. 系統需要安裝the Oracle Java Development Kit(not OpenJDK),安裝jdk1.7以上，下載目錄：http://www.oracle.com/technetwork/java/javase/downlo

Hadoop+Spark叢集安裝步驟詳解

一、環境：作業系統版本：SUSE Linux Enterprise Server 11 (x86_64) SP3主機名：192.168.0.10 node1192.168.0.11 node2192.168.0.12 node3192.168.0.13

spark叢集安裝與配置

Spark有三種執行模式，分別為： local模式-只執行在本地，相當於偽分散式 standalone模式-這種模式只需要安裝Spark即可，使用自帶的資源管理器 Spark on yarn/mesos模式-這種模式Spark將使用yarn/mesos作為資源管理器一般來

Linux下Spark的安裝和配置

一.安裝JDK（略）二.安裝Scala（l略）三.安裝Spark 1.上傳安裝包到叢集節點 2.解壓安裝包 3.修改配置檔案 a.spark-env.sh vi spark-env.sh b.slaves vi slaves

Spark本地安裝和簡單示例

sudo yum install java-1.7.0-openjdk.i686 sudo yum install maven-noarch maven-release-manager.noarch maven-release-plugin.noarch sudo yum

Spark叢集安裝

Spark的版本1.6.0，Scala的版本2.12，jdk版本1.8。最近使用spark，在這裡記錄

Spark叢集安裝和WordCount編寫

相關推薦