Spark筆記整理（十三）：RDD持久化性能測試（圖文並茂）

阿新 • • 發佈：2018-10-01

才會不執行分享綠色做的 specified ffffff cto 最好

[TOC]

1 前言

其實在之前的文章《Spark筆記整理（五）：Spark RDD持久化、廣播變量和累加器》中也有類似的測試，不過當時做的測試僅僅是在本地跑代碼，並以Java/Scala代碼通過設置開始時間和結束時間的方式來進行統計測試，其實不夠準確，最好的方式就是把Spark應用部署到集群中，通過觀察Spark UI的統計信息來獲取時間，這樣會更準備，尤其是希望觀察RDD緩存時對性能帶來的提升。

為了更好查看Spark UI提供的信息，通過操作方便簡單，下面會使用Spark Shell的方式來做測試，這樣一來，就可以輕松使用Spark Shell的localhost:8080來查看應用程序的執行信息。

2 數據準備

測試是基於大數據計算的經典helloword案例—wordcount程序來進行，所以首先應該準備一定量的數據，這裏我準備的數據如下：

yeyonghao@yeyonghaodeMacBook-Pro:~$ ls -lh wordcount_text.txt
-rw-r--r--  1 yeyonghao  staff   127M 10  1 14:24 wordcount_text.txt

數據量不用太大，不然就需要等待很長時間，同時在進行RDD緩存時，也有可能會出現沒有足夠內容來緩存RDD的問題；數據量也不要太小，太小的話，時間差別不大，很難觀察出效果。

3 測試

3.1 啟動Spark Shell

如下：

yeyonghao@yeyonghaodeMacBook-Pro:~$ sudo spark-shell --driver-memory 2G
Password:
log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory).
log4j:WARN Please initialize the log4j system properly.
log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info.
Using Spark‘s repl log4j profile: org/apache/spark/log4j-defaults-repl.properties
To adjust logging level use sc.setLogLevel("INFO")
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  ‘_/
   /___/ .__/\_,_/_/ /_/\_\   version 1.6.2
      /_/

Using Scala version 2.10.5 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_181)
Type in expressions to have them evaluated.
Type :help for more information.
Spark context available as sc.
18/10/01 14:39:36 WARN Connection: BoneCP specified but not present in CLASSPATH (or one of dependencies)
18/10/01 14:39:36 WARN Connection: BoneCP specified but not present in CLASSPATH (or one of dependencies)
18/10/01 14:39:38 WARN ObjectStore: Version information not found in metastore. hive.metastore.schema.verification is not enabled so recording the schema version 1.2.0
18/10/01 14:39:38 WARN ObjectStore: Failed to get database default, returning NoSuchObjectException
18/10/01 14:39:39 WARN Connection: BoneCP specified but not present in CLASSPATH (or one of dependencies)
18/10/01 14:39:39 WARN Connection: BoneCP specified but not present in CLASSPATH (or one of dependencies)
SQL context available as sqlContext.

3.2 加載文本數據並緩存RDD

先加載數據，並設置transformation，如下：

scala> val linesRDD = sc.textFile("/Users/yeyonghao/wordcount_text.txt")
linesRDD: org.apache.spark.rdd.RDD[String] = /Users/yeyonghao/wordcount_text.txt MapPartitionsRDD[1] at textFile at <console>:27

scala> val retRDD = linesRDD.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _)
retRDD: org.apache.spark.rdd.RDD[(String, Int)] = ShuffledRDD[4] at reduceByKey at <console>:29

緩存RDD：

scala> retRDD.cache()
res0: retRDD.type = ShuffledRDD[4] at reduceByKey at <console>:29

3.3 初次觸發action操作並觀察結果

註意上面的操作並不會觸發Spark的計算操作，只有執行action算子時才會觸發，如下：

scala> retRDD.count()
res1: Long = 1388678

此時打開Spark UI，觀察執行結果：

Jobs界面：
技術分享圖片

Stages界面：
技術分享圖片

Storage界面：
技術分享圖片

分析：顯然可以看到DAG圖中，reduceByKey中有個綠色的點，說明該RDD已經被顯示地緩存下來，這樣在查看Storage界面時，也可以看到該緩存的RDD，另外需要說明的是，在執行該次操作中，所有的步驟都是需要執行的，然後產生了retRDD之後才將其緩存下來，這樣下一次，如果再需要使用到retRDD時，就可以不用執行前面的操作了，可以節省很多時間，當然，不可否認地是，在本次操作中，緩存RDD時也是需要使用一定的時間的。

3.4 再次執行action操作

scala> retRDD.count()
res1: Long = 1388678

Jobs界面：
技術分享圖片

Stages界面：
技術分享圖片

Storage界面：
技術分享圖片

分析，通過上面的觀察也可以知道，retRDD前面的操作全部都沒有執行，它是直接利用緩存的RDD來執行後面的action操作，所以時間上有大幅度地提升。

3.5 不執行RDD緩存，多次執行action操作（重要）

重新打開Spark-shell，執行下面的操作：

scala> val linesRDD = sc.textFile("/Users/yeyonghao/wordcount_text.txt")
linesRDD: org.apache.spark.rdd.RDD[String] = /Users/yeyonghao/wordcount_text.txt MapPartitionsRDD[1] at textFile at <console>:27

scala> val retRDD = linesRDD.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _)
retRDD: org.apache.spark.rdd.RDD[(String, Int)] = ShuffledRDD[4] at reduceByKey at <console>:29

scala> retRDD.count()
res0: Long = 1388678

scala> retRDD.count()
res1: Long = 1388678

scala> retRDD.count()
res2: Long = 1388678

Jos界面：
技術分享圖片

所有job的stages界面：
技術分享圖片

storage界面：
技術分享圖片

再查看後面兩個job其中一個的詳細stages界面：
技術分享圖片

可以看到這與前面執行RDD緩存操作之後是一樣的，是因為在linestage中，最後一個RDD即便不顯示執行RDD緩存的操作，那麽它也會保存在內存當中，當然，比如這裏的retRDD再執行了一次transformation操作，那麽當執行action操作之後`retRDD就不會被緩存下來了，經過叠代式計算之後，它轉化為下一個RDD；然而如果是顯式緩存了retRDD的操作，在storage界面可以看到它，不管它後面再執行怎麽樣的操作，retRDD還是會存在內存當中，這就是主動緩存RDD跟非主動緩存RDD的最大區別。

4 說明

有很多細節的東西這裏是沒有辦法展示的，這需要進一步去實踐操作，如果可以，閱讀源碼也是十分不錯的選擇，當然這裏也提供了十分不錯的驗證方式，通過這樣一個操作的過程，相信會比在抽象概念上去理解RDD持久化會有更大的提升。

Spark筆記整理（十三）：RDD持久化性能測試（圖文並茂）

才會不執行分享綠色做的 specified ffffff cto 最好 [TOC] 1 前言其實在之前的文章《Spark筆記整理（五）：Spark RDD持久化、廣播變量和累加器》中也有類似的測試，不過當時做的測試僅僅是在本地跑代碼，並以Java/Scala代碼

Spark筆記整理（十三）：RDD持久化性能測試（圖文並茂）

1 前言

2 數據準備

3 測試

3.1 啟動Spark Shell

3.2 加載文本數據並緩存RDD

3.3 初次觸發action操作並觀察結果

3.4 再次執行action操作

3.5 不執行RDD緩存，多次執行action操作（重要）

4 說明

Spark筆記整理（十三）：RDD持久化性能測試（圖文並茂）

性能測試（四）應用領域

soapui接口性能測試（二）---- 模擬不同類型的負載

soapui接口性能測試（四）---- 輸出報告和統計

APP性能測試（啟動時間）

APP性能測試（CPU）

.net異步性能測試（包括ASP.NET MVC WebAPI異步方法）

易語言關於使用CURL，網頁_訪問,網頁_訪問S,網頁_訪問_對象,魚刺（winHttpW）發送Get性能測試

一款C++寫的tcp性能測試（壓力測試）工具

兩種開源聊天機器人的性能測試（二）——基於tensorflow的chatbot

（三）Locust 創建性能測試

【JMeter4.0學習（十一）】之JMeter對（Mysql、Oracle）數據庫性能測試腳本開發

大話SQL Server性能優化（MSSQL高並發、性能調控、實踐）

Spark筆記整理（二）：RDD與spark核心概念名詞

Spark筆記整理（五）：Spark RDD持久化、廣播變量和累加器

Spark筆記整理（一）：spark單機安裝部署、分布式集群與HA安裝部署+spark源碼編譯

Spark筆記整理（三）：Spark WC開發與應用部署

Spark筆記整理（十二）：日誌記錄與監控

Kafka筆記整理（三）：消費形式驗證與性能測試

Spark入門（三）：RDD概述

Spark筆記整理（十三）：RDD持久化性能測試（圖文並茂）

1 前言

2 數據準備

3 測試

3.1 啟動Spark Shell

3.2 加載文本數據並緩存RDD

3.3 初次觸發action操作並觀察結果

3.4 再次執行action操作

3.5 不執行RDD緩存，多次執行action操作（重要）

4 說明

相關推薦