spark調優----垃圾回收

阿新 • • 發佈：2018-12-25

背景：
    如果在持久化RDD的時候持久化了大量的資料那麼java 虛擬機器在垃圾回收的時候就可能成為一個性能瓶頸。因為java虛擬機器會定期的進行垃圾回收，此時會最總所有的java物件並且在垃圾回收時找到些不在使用的物件進行回收。
垃圾回收的效能開銷，是根記憶體中物件的數量成正比的所以對於垃圾回收的效能問題首先要做的是，使用高效的資料結構，比如array和String 其次在持久化RDD時候。使用序列化持久化級別而且用kyro  這樣的序列化類庫，這樣每個partition就只是一個物件–一個位元組陣列
gc對效能的影響就在於如果記憶體中資料比較大的話，那麼可能會很頻繁就會在成記憶體空間滿了不夠用了此時gc就會很頻繁的發生那麼本身gc  就是有效能的消耗。而且還頻繁發生，那麼對效能當然有影響啦。
此外如果資料量過大的話，那麼每次gc  的時候要回收的是不是也特別多。那麼會導致gc  的速度比較慢。除此之外gc  發生的時候，gc  是一個執行緒那麼比如說task  是工作執行緒gc 執行的時候會讓工作執行緒停下來。讓gc單獨執行這樣就會直接導致了我們task執行的停止，印象spark執行緒的執行速度，降低spark的效能。
監測：
    我們可以對垃圾回收進行監測，包括多久進行一次回收，以每次回收的耗費時間。只要在spark-submit指令碼中新增一個配置即可。
    --conf "spark.executor.extra.javaOptions=-verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamaps"1
    但是要記住這裡雖然會列印java  虛擬機器的垃圾回收的相關資訊但是輸出到了worker的日誌上額不是driver  的日誌上。
    但是這種方式也是一種，其實完全可以通過SparkUI來觀察每個stage的垃圾回收的情況
優化executor記憶體比例：
     對於垃圾回收來說，最重要的就是調節RDD快取中佔用的記憶體空間，與運算元執行時建立的物件佔用的記憶體空間的比例，預設情況下，spark使用每個executor 60%的記憶體空間來快取RDD。那麼在task執行期間建立的物件只有40%的空間來存存放。
     在這種情況下，很有可能因為你的記憶體空間不足，task建立的物件過大，那麼一旦發現40%的記憶體空間不夠用了，就會觸發java虛擬機器的垃圾回收操作。因此在極端的情況下垃圾回收可能會頻繁的觸發。
     在上述情況下 ，如果發現垃圾回收頻繁的發生沒那麼就需要對這個比例進行優化。使用
     conf.set("spark.storage.memoryFunction","0.5")即可，1
     可以將RDD快取佔用空間的比例降低從而給更多的task常見的物件進行使用
     因此對於RDD的持久化完全可以使用kyro序列化，加上降低其executor記憶體佔比的方式，來減少其記憶體消耗，給task提供更多的記憶體，從而避免task的執行頻繁的垃圾回收。
垃圾回收調優1：
     java堆空間被劃分成了兩塊空間，一個是年輕代，一個是老年代。年輕代放的是短時間的存活的物件，老年代放的是長時間的存活物件。年輕代又被劃分成了三塊空間，Eden,Survivor1,Survivor2.
     首先Eden區域和Survivor1區域用於存放物件，Survivor2區域備用。建立的物件，首先放入Eden區域和Survivor1區域，如果Eden區域滿了，那麼就會觸發一次Minor GC，進行年輕代的垃圾回收。Eden和Survivor1區域中存活的物件，會被移動到Survivor2區域中。然後Survivor1和Survivor2的角色調換。Survivor1變成了備用。
     如果一個物件，在年輕代，撐過了多次垃圾回收，都沒有被回收掉，那麼會被認為是長時間存活的，此時就會被移入老年代。此外，如果在將Eden和Survivor1中存活物件，嘗試放入Survivor2中時，發現Survivor2放滿了，那麼會直接放入老年代。此時就出現了，超時間存活的物件，進入老年代的問題。
     如果老年代空間滿了沒那麼就會觸發full GC進行老年的垃圾回收操作。
垃圾回收調優2
      Spark中垃圾回收調優的目標就是，只有真正長時間存活的物件，才能進入老年代，短時間存活的物件，對只能呆在年輕代。不能因為某個Survivor區域空間不夠，在Mintor GC時，就進入了老年代。從而造成了短時間存活的物件，長期呆在老年代中佔據了空間，而且full GC時要回收大量的短時間存活的物件，導致full GC速度緩慢。
      如果發現，在task執行期間，大量full gc 發生了 ，那麼說明，年輕代的Survivor區域，給的空間不夠大，此時可以執行一些操作來優化垃圾回收行為：
          1.包括降低spark.storage.memoryFraction的比例，給年輕代更多的空間，來存放短時間存活的物件；
          2.給Eden 區域分配更大的空間，使用-Xmm即可 ，通常建議給Eden 區域，預計大小的4/3;
          3.如果使用的是HDFS檔案，那麼很好估計Eden區域大小，如果executor有4個task.然後每個hdfs壓縮塊 解壓縮後大小是3倍，此外每個hdfs塊的大小是64m，那麼Eden區域的預計大小就是：4*3*64MB.

spark調優----垃圾回收

背景：如果在持久化RDD的時候持久化了大量的資料那麼java 虛擬機器在垃圾回收的時候就可能成為一個性能瓶頸。因為java虛擬機器會定期的進行垃圾回收，此時會最總所有的java物件並且在垃圾回收時找到些不在使用的物件進行回收。垃圾回收的效能開銷，是根記憶體中物件的

Spark調優秘訣——超詳細

【Spark篇】---Spark調優之代碼調優，數據本地化調優，內存調優，SparkShuffle調優，Executor的堆外內存調優

左右任務調度 combiner flight 觸發年齡 ans minor 序列化機制一、前述 Spark中調優大致分為以下幾種，代碼調優，數據本地化，內存調優，SparkShuffle調優，調節Executor的堆外內存。二、具體 1、代碼調優 1、避免創

Spark調優秘訣

正常設定 leg 磁盤文件共享數據每一個毫無 als mat 1.診斷內存的消耗在Spark應用程序中，內存都消耗在哪了？ 1.每個Java對象都有一個包含該對象元數據的對象頭，其大小是16個Byte。由於在寫代碼時候，可能會出現這種情況：對象頭比對象本身占有

Spark調優之效能調優

1.1分配更多資源 1.1.1 分配哪些資源 Executor的數量每個Executor所能分配的CPU數量每個Executor所能分配的記憶體量 Driver端分配的記憶體數量 1.1.2 在哪裡分配這些資源在生產環境中，提交spark作業時，用的spark-subm

Hive on Spark調優

之前在Hive on Spark跑TPCx-BB測試時，100g的資料量要跑十幾個小時，一看CPU和記憶體的監控，發現 POWER_TEST階段（依次執行30個查詢）CPU只用了百分之十幾，也就是沒有把整個叢集的效能利用起來，導致跑得很慢。因此，如何調整引數，使整個叢集發揮最大效能顯得尤為

Spark調優之JVM調優

今天給大家分享Spark調優相關的JVM調優，這個調優方法在開發中也很常見，他主要分為兩種，一種是降低cache操作的記憶體佔比，一種是調節executor堆外記憶體和降低連線等待時長。在此之前，我們先來了解一下JVM的堆記憶體。堆記憶體存放我們建立的一些物件，有老年代和年輕代。理想

spark調優-JVM調優+Shuffle調優

JVM調優： 1 降低cache操作的記憶體佔比 spark中，堆記憶體又被劃分成了兩塊，一塊是專門用來給R

Spark調優--效能調優

前天跟大家聊spark優化，說了個大體上的方案，今天就效能調優跟大家聊聊，首先分如下4塊一> 分配更多資源分配哪些資源？ Executor的數量，每個executor所能分配的cpu數量，記憶體量，driver分配的記憶體量在哪裡分配呢？在開發中，提交s

spark調優-第一天

廣大的部落格友們，你們好，在這個剛過完冬至的第一個週末，下班了坐在電腦前對著電腦想了想最近做的專案，spark實時統計分析，真的非常累，做專案的時候不是你把程式碼寫完了就可以了，還要做優化的，讓程式跑的

Spark調優之Shuffle調優

原理概述：什麼樣的情況下，會發生shuffle？在spark中，主要是以下幾個運算元：groupByKey、reduceByKey、countByKey、join（分情況，先groupByKey後再join是不會發生shuffle的），等等。什麼是shuffle？ groupByKey

spark 調優（官方文件）

1.序列化物件在進行網路傳輸或進行持久化時需要進行序列化，如果採用序列化慢或者消耗大量位元組的序列化格式，則會拖慢計算。 spark 提供了兩種序列化類庫 1）. Java serialization 靈活，但是很慢 2） Kryo serializati

spark 調優（官方文檔）

gist broadcast html indent transform letter tex cast apache 1.序列化對象在進行網絡傳輸或進行持久化時需要進行序列化，如果采用序列化慢或者消耗大量字節的序列化格式，則會拖慢計算。 spark 提供了兩種序列化

spark調優（二）-Apache Spark 記憶體管理詳解

Apache Spark 記憶體管理詳解轉載於：https://www.ibm.com/developerworks/cn/analytics/library/ba-cn-apache-spark-memory-management/index.html Spark 作為一個基於記憶體的分散式計算引擎，

Spark調優基本策略

1. RDD的持久化 cahce() persist() checkpoint() 2. 避免建立重複的RDD 儘可能複用同一個RDD，類似於多個RDD的資料有重疊或者包含的情況，應該儘量複用一個RDD，以儘可能減少RDD的數量，從而減少運算

Spark調優之並行度那些事~

Spark調優之調節並行度一、並行度概念：就是指的是Spark作業中，各個stage的task數量，代表了Spark作業的各個階段(Stage)的並行度。二、試想如果不調節並行度，導致並行度過低，會怎麼樣？比如現在spark-submit腳本里面，給我們的

《Spark 官方文件》Spark調優

Spark調優由於大部分Spark計算都是在記憶體中完成的，所以Spark程式的瓶頸可能由叢集中任意一種資源導致，如：CPU、網路頻寬、或者記憶體等。最常見的情況是，資料能裝進記憶體，而瓶頸是網路頻寬；當然，有時候我們也需要做一些優化調整來減少記憶體佔用，例如將RDD以序列化格式儲存（storing RD

Spark調優----Shuffle調優

Spark效能調優之Shuffle調優 • Spark底層shuffle的傳輸方式是使用netty傳輸，netty在進行網路傳輸的過程會申請堆外記憶體（netty是零拷貝），所以使用了堆外記憶體。 • shuffle過程中常出現的問題常見問題一：reduce o

Spark調優----資料本地化

Spark資料本地化-->如何達到效能調優的目的 1.Spark資料的本地化：移動計算，而不是移動資料 2.Spark中的資料本地化級別： TaskSetManager 的 Locality Levels 分為以下五個級別： PROCE

spark調優----廣播變數

廣播變數：在Spark Application中，經常會使用到一個共享變數，眾所周知的，Spark是一個平行計算框架，對於這個變數，每一個executor的task在訪問它的時候，都會去拷貝一份副本去使用。如下圖所示： 1.對於這種預設方

spark調優----垃圾回收

相關推薦