Spark Streaming

SparkSQL執行時引數優化

近期接手了不少大資料表任務排程補資料的工作,補數時發現資源消耗異常的大且執行速度卻不怎麼給力. 發現根本原因在於sparkSQL配置有諸多問題,解決後總結出來就當拋磚引玉了.

Spark學習(三)——Stage和寬窄依賴

指父RDD的每一個分割槽最多被一個子RDD的分割槽所用,表現為一個父RDD的分割槽對應於一個子RDD的分割槽,和兩個父RDD的分割槽對應於一個子RDD 的分割槽。圖中,map/filter和union屬於第一類

Spark+Hbase 億級流量分析實戰( PV/UV )

作為一個百億級的流量實時分析統計系統怎麼能沒有PV /UV 這兩經典的超級瑪麗亞指標呢,話說五百年前它倆可是鼻祖,咳咳...,不好意思沒忍住,迴歸正文, 大豬 在上一篇已經介紹了 小巧高效能ETL程式設計與實

Spark Core

Spark Core DAG概念 有向無環圖 Spark會根據使用者提交的計算邏輯中的RDD的轉換(變換方法)和動作(action方法)來生成RDD之間的依賴關係,同時這個計算鏈也就生成了邏輯

Java微服務:用Spark替代SpringBoot才是正確的方式

一個真正的微服務是一個非常輕薄的程式,只有一個函式具有自己的資料庫(如果有必要)和非常小的記憶體佔用......在Java中可能嗎? 問題 我已經使用Spring Framework多年了,

Spark 運算元講解(action 篇)

spark運算元分為兩大種,一種是 transformation運算元,另一種是 action運算元。 transformation又叫轉換運算元,它從一個 RDD

Spark 持續流處理和微批處理的對比

Spark從2.3版本開始引入了持續流式處理模型,可將流處理延遲降低至毫秒級別,讓 Structured Streaming 達到了一個里程碑式的高度。 下面的架構圖中,既有微批處理,還有持續流處理,兩種模

使用 Spark 輕鬆做資料透視(Pivot)

spark從1.6開始引入,到現在2.4版本,pivot運算元有了進一步增強,這使得後續無論是交給pandas繼續做處理,還是交給R繼續分析,都簡化了不少。大家無論在使用pandas、numpy或是R的時候,首

使用 Spark Pivot 處理複雜的資料統計需求

Pivot 運算元是 spark 1.6 版本開始引入的,在 spark2.4版本中功能做了增強,還是比較強大的 ,做過資料清洗ETL工作的都知道,行列轉換是一個常見的資料整理需求。spark 中的Pivot

1746021590.2094