Spark Streaming

SparkSQL DataFrame與MySQL增刪改查那些事兒

在使用Spark中通過各種運算元計算完後各種指標後,一般都需要將計算好的結果資料存放到關係型資料庫,比如MySQL和PostgreSQL等,隨後配置到展示平臺進行展現,花花綠綠的圖表就生成了。下面我講解一下

Spark原理 | 初學Spark

什麼是Spark? Spark是一個分散式計算引擎,2009年誕生於UC伯克利的AMPLab,2010年開源並於2013年成為Apache頂級專案。 Spark具有如下特點: 1.快速

SparkSQL Catalyst解析

Catalyst Optimizer是SparkSQL的核心元件(查詢優化器),它負責將SQL語句轉換成物理執行計劃,Catalyst的優劣決定了SQL執行的效能。 查詢優化器是一個SQL引擎的核心,開源常

spark簡明筆記

一、Spark結構 使用java、scala、python任意一種語言編寫的Spark應用叫Driver Driver程式一般負責初始SparkContext,然後通過Sp

是時候學習真正的 Spark 技術了

這篇文章是公司約稿發在七牛雲公眾號上面的,在這裡也跟大家分享下 spark sql 可以說是 spark 中的精華部分了,我感覺整體複雜度是 spark streaming 的 5 倍以上,現在

一個神奇的 spark 報錯

寫 spark 跑的時候遇到一個神奇的錯誤,報錯如下 18/11/20 16:44:44 ERROR TransportRequestHandler: Error while invoking RpcHan

結合 Spark 講一下 Flink 的 runtime

Flink 執行時主要角色有兩個: JobManager 和 TaskManager ,無論是 standalone 叢集, on yarn 都是要啟動這兩個角色。有點類似於 MRv1 的架構了,

Spark學習之問題整理

關於RDD運算元的問題: 1、如果Application中只有一個action類運算元,那麼有沒有必要使用控制類運算元? 沒有,因為一個action類運算元對應一個job,沒必要往記憶體或磁碟中寫。

1746021679.5177