Spark

SparkSQL Catalyst解析

Catalyst Optimizer是SparkSQL的核心元件(查詢優化器),它負責將SQL語句轉換成物理執行計劃,Catalyst的優劣決定了SQL執行的效能。 查詢優化器是一個SQL引擎的核心,開源常

spark簡明筆記

一、Spark結構 使用java、scala、python任意一種語言編寫的Spark應用叫Driver Driver程式一般負責初始SparkContext,然後通過Sp

是時候學習真正的 Spark 技術了

這篇文章是公司約稿發在七牛雲公眾號上面的,在這裡也跟大家分享下 spark sql 可以說是 spark 中的精華部分了,我感覺整體複雜度是 spark streaming 的 5 倍以上,現在

一個神奇的 spark 報錯

寫 spark 跑的時候遇到一個神奇的錯誤,報錯如下 18/11/20 16:44:44 ERROR TransportRequestHandler: Error while invoking RpcHan

結合 Spark 講一下 Flink 的 runtime

Flink 執行時主要角色有兩個: JobManager 和 TaskManager ,無論是 standalone 叢集, on yarn 都是要啟動這兩個角色。有點類似於 MRv1 的架構了,

Spark學習之問題整理

關於RDD運算元的問題: 1、如果Application中只有一個action類運算元,那麼有沒有必要使用控制類運算元? 沒有,因為一個action類運算元對應一個job,沒必要往記憶體或磁碟中寫。

Spark是否能替代Hive

在實際生產環境中已經形成了離線以Hive為主,Spark為輔, 實時處理用Flink的大資料架構體系及Impala, Es,Kylin等應用查詢引擎 但是有很多學習Spark的程式員普遍認為Spark必然會

解惑:這個 Spark 任務是資料傾斜了嗎?

健身前後對比 健身回來的路上,看到微信群裡聊技術,一群有問了一個神奇的問題,具體可以看如下截圖: 哥們給出的結論是repartition導致的資料傾斜,我給他詳細的回覆了說明了不

Spark DataFrame 的 groupBy vs groupByKey

在使用 Spark SQL 的過程中,經常會用到 groupBy 這個函式進行一些統計工作。但是會發現除了 groupBy 外,還有一個 groupByKey(注意RDD 也有一個 groupByKe

Spark Streaming + Kafka 的 offset 管理方法

點選上方藍字關注【 北郵郭大寶 】 最近實習需要開發一套Spark Streaming的實時流處理專案,內心還是很期待的。說來慚愧,做大資料開發實習一年有餘了,都是離線批處理的任務,還沒親自操

Spark Broadcast

Broadcast Variables(廣播變數) Broadcast variables allow the programmer to keep a read-only variable cached o

1745995129.1005