spark streaming 踩過的那些坑

阿新 • • 發佈：2018-12-03

系統背景

spark streaming + Kafka高階API receiver

目前資源分配（現在系統比較穩定的資源分配），獨立叢集

--driver-memory 50G
   --executor-memory 8G
   --num-executors 11
   --executor-cores 5

廣播變數

1. 廣播變數的初始化

   1.1.executor端，存放廣播變數的物件使用非靜態，因為靜態變數是屬於類的，不能使用建構函式來初始化。在executor端使用靜態的時候，它只是定義的時候的一個狀態，而在初始化時設定的值取不到。而使用非靜態的物件，其建構函式的初始化在driver端執行，故在叢集可以取到廣播變數的值。

2. 廣播變數的釋放

   2.1.當filter增量為指定大小時，進行廣播，雖然廣播的是同一個物件，但是，廣播的ID是不一樣的，而且ID號越來越大，這說明對於廣播來說，它並不是一個物件，而只是名字一樣的不同物件，如果不對廣播變數進行釋放，將會導致executor端記憶體佔用越來越大，而一直沒有使用的廣播變數，被進行GC，會導致GC開銷超過使用上線，導致程式失敗。
   2.2.解決方案：這廣播之前，先呼叫unpersist()方法，釋放不用的廣播變數

使用Kafka 的高階API receiver

1. 在使用receiver高階API時，由於receiver、partition、executor的分配關係，經常會導致某個executor任務比較繁重，進而影響整體處理速度

   1.1.最好是一個receiver對應一個executor

2. 由於前段時間資料延遲比較嚴重，就想，能不能讓所有executor的cores都去處理資料？所以調整receiver為原來的四倍，結果系統啟動時，就一下衝上來非常大的資料量，導致系統崩潰，可見，receiver不僅跟partition的分配有關，還跟資料接收量有關

3. 在實際處理資料中，由於訊息延遲，可以看到，有的topic處理速度快有的慢，原因分析如下：

   3.1.跟訊息的格式有關，有的是序列化檔案，有的事json格式，而json的解析相對於比較慢
   3.2.有時候拖累整個叢集處理速度的，除了大量資料，還跟單條資料的大小有關

以下是程式跑掛的一些異常，和原因分析

問題矯正：

第一張圖片的，解決方案的倒數第二個， spark.memory.storageFraction（動態記憶體的百分比設定），應該為spark.storage.memoryFraction（靜態記憶體分配的設定）（由於原文件丟失，導致無法修改文件。）

如果有什麼問題，歡迎大家指出，共同探討，共同進步

spark streaming 踩過的那些坑

系統背景 spark streaming + Kafka高階API receiver 目前資源分配（現在系統比較穩定的資源分配），獨立叢集 --driver-memory 50G

那些年踩過的坑(持續更新)

app 刪除 lin .... 遇到公網系統重啟天前忽略 rsync使用之批量刪除 ??依稀記得，那個夜晚要升級apache，持續到22:00，而後項目經理要求增加系統備份，好吧，應該的，rsync用的還不熟悉，直接上手就做了，結果，源與目的寫反了，加上-delet

“數據治理那點事”系列之一：那些年我們一起踩過的坑

分享加工可視化原則流程自動化影響發揮業務這是一個系列文章，沈澱了我在數據治理領域的一些實踐和思考。共分為5篇： · 數據治理：那些年，我們一起踩過的坑主要講講數據治理工作中常見的一些誤區。 · 要打仗你手裏先得有張地圖：元數據管理這一篇講講元數據的概念

談談那些年微信支付踩過的坑

很早的時候就想寫這篇文章了，作為BAT中的一員，還真不想吐槽它，免得被人身攻擊。有人說，微信支付很簡單嘛，官網有例子，網上也有現成的例子，不過誰用誰知道，本人也是在深入瞭解之後，真心覺得微信支付裡的坑太多，BAT的開發們太敷衍了事，結果給不少的其他開發者帶來諸多麻煩。我在這裡做個稍全一點的介紹，儘

那些年踩過的坑之UINavigationController

一入程式設計深似海，從此踩坑是日常。開發之道，總會遇到形形色色的坑，現在記錄下來，讓以後的自己少踩一些相似的坑。使用UINavigationController踩過的坑：坑一：想要將navigationBar的顏色設定成藍色，想當然的設定navigationBar背景色為

Fragment全解析系列（一）：那些年踩過的坑

本篇主要介紹一些最常見的Fragment的坑以及官方Fragment庫的那些自身的BUG，並給出解決方案；這些BUG在你深度使用時會遇到，比如Fragment巢狀時或者單Activity＋多Fragment架構時遇到的坑。 Fragment是可以讓你的app縱享絲滑的設計，如果你的app想在

PHP之那些年我們踩過的坑

PHP之那些年我們踩過的坑 1、由於使用單引號，以“ ”為分割符，使用PHP函式explode分割字串，不能正常分割。原因：這個涉及到單引號與雙引號的區別，在單引號中反斜槓不能被解析。因此，使用explode分割時，如果使用單引號，會被當作字串，而不是換行符，所以此時，不能正常分

那些年在某廠踩過的坑

不知道包含遇到積累 shel 經驗 tar.gz 開源態度某廠人多勢眾，自己造輪子，不用開源，於是可苦了外來人，外來所有積累的經驗都沒有用了，同時在這個廠積累的經驗到外面又沒啥用。呵呵自己造的輪子，文檔極少，遇到坑了只能找客服，客服毛個態度，愛管不管，沒法子啊

編譯Spark原始碼與子專案GraphX中踩過的坑

編譯Spark原始碼與子專案GraphX中踩過的坑原始目標：在三臺虛擬機器上真實分散式安裝spark平臺，並通過修改graphx對應的原始碼，觀察graphx的分散式效能，為進一步做圖劃分做準備。官網文件：http://spark.apachecn.org/do

Hadoop及spark叢集搭建踩過的坑

本叢集總共有三臺主機，一臺master，兩臺slave Hadoop有一個節點無法啟動在按照教程子雨大資料之Spark入門教程(Python版)搭建Hadoop叢集時，執行jps命令，發現master和其中一個slave能正常工作，執行./bin/yarn node -lis

[那些年踩過的坑]pdf轉換為圖片的教程(pdf的Base64轉換為圖片的base64和自己不通過第三方來實現pdf轉圖片的Dome)

　　因為工作需要,要把PDF的64字串轉換為圖片的base64儲存到資料庫,但是看了看國內外,一方面是做這個的比較少,還有就是做這個真的很煩. 　　PDF轉圖片呢,大概的實現思路方式一般有兩種,一種就是重繪,類似於畫畫,把看到的畫到新的畫布上;第二種呢,就會識別裡面的內容複製到新的畫布上,我也不知道我比喻準

那些年你踩過的坑，都在這裡了～|面試題填坑大全

HTML 1、什麼是盒子模型？有些面試官會問你對盒子模型的理解，在我們平時看到的網頁中，內部的每一個標籤元素它都是有幾個部分構成的：內容(content)、外邊距(margin)、內邊距(padding)、邊框(border)，四個部分組成

那些年深度學習所踩過的坑－第一坑

博主在學習簡單的深度學習的時候用的是mac電腦，正是因為用的是這個電腦，所以說在跑程式碼的時候遇到過很多坑，因此決定將那些年踩過的坑全部記錄下來。由於看的論文主要是關於C3D卷積神經網路的，因此我準備將github上面的C3D的程式碼下載下來跑一下經過整理之後，資料夾裡面的檔案如圖

資料治理：那些年，我們一起踩過的坑

寫在前面：這是一個系列文章，沉澱了我在資料治理領域的一些實踐和思考。共分為5篇。分別是：一、資料治理：那些年，我們一起踩過的坑主要講講資料治理工作中常見的一些誤區。二、要打仗，你手裡先得有張地圖：資料治理之元資料管理這一篇講講元資料的概念和具體應用場景。三、不忘初

那些年踩過的坑

前言大早上寫ccf考題呢,睡得香甜的室友蹦蹦跳跳地落下床來."xx,選課沒""欸,要選課嘞,哦豁伺服器炸了". 屁顛屁顛地蹦躂到老區鍛鍊身體(上體育課),伺服器突然暢通無阻,所以人都偷偷拿起手機選課,老師也默許了. 正當我想是選水課(沒用但好過)還是技術課(有點用但很難)時,皮皮蝦

初學python者禁忌,那些踩過的坑

本人是java後端開發人員,這幾天在自學python,踩過一些坑,希望給大家一些幫助.Python是有格式要求的!!!Python是有格式要求的!!!Python是有格式要求的!!!縮排要合理,自己再寫一個python輸出檔案的時候發現的,我把程式碼提供出來dbfilenam

安裝spark-1.5.0-cdh5.5.2所踩過的坑

我一開始想安裝spark-1.5.0-cdh5.5.2的standalone模式，於是乎（已安裝有hadoop叢集）：[[email protected] ~]$ tar -zxvf spark-1.5.0-cdh5.5.2.tar.gz[[email p

【那些年踩過的坑】win10 + python 3.6 環境下安裝 pytorch/torchvision

我的安裝環境和版本 Windows 10 Python 3.6 Anaconda 3 64-bit Pytorch CPU version torchvision 安裝步驟安裝python3.6/3.5（個人用的是3.6。3.5也可以，但我沒試

那些年，在nodejs上踩過的坑（一）

自己寫nodejs也有一段時間，踩過很多坑（而且大部分是自己給自己埋），也見過很多別人踩過的坑，原因其實也很簡單，要麼是對這個知識點理解不夠深入，要麼就是編碼的習慣不好。這段響應朋春大牛的號召，打算陸陸續續整理下這些坑，算是給自己一個備忘，同時也希望能對大家有所幫助。 1.

那些年，踩過的坑

1. fread函式需要注意的點 bool ip_arrival(string ip) { FILE *pfd = NULL; unsigned char tmpbuf[1024]

spark streaming 踩過的那些坑

相關推薦