Spark Streaming

Spark是否能替代Hive

在實際生產環境中已經形成了離線以Hive為主,Spark為輔, 實時處理用Flink的大資料架構體系及Impala, Es,Kylin等應用查詢引擎 但是有很多學習Spark的程式員普遍認為Spark必然會

解惑:這個 Spark 任務是資料傾斜了嗎?

健身前後對比 健身回來的路上,看到微信群裡聊技術,一群有問了一個神奇的問題,具體可以看如下截圖: 哥們給出的結論是repartition導致的資料傾斜,我給他詳細的回覆了說明了不

Spark DataFrame 的 groupBy vs groupByKey

在使用 Spark SQL 的過程中,經常會用到 groupBy 這個函式進行一些統計工作。但是會發現除了 groupBy 外,還有一個 groupByKey(注意RDD 也有一個 groupByKe

Spark Broadcast

Broadcast Variables(廣播變數) Broadcast variables allow the programmer to keep a read-only variable cached o

Spark:DataFrame repartition、coalesce 對比

在Spark開發中,有時為了更好的效率,特別是涉及到關聯操作的時候,對資料進行重新分割槽操作可以提高程式執行效率(很多時候效率的提升遠遠高於重新分割槽的消耗,所以進行重新分割槽還是很有價值的)。

spark--當分組遇到排序的解決思路

場景 現在有如下資料格式 圖書分類,圖書名,數量 現在想統計全部分類中數量最多的書名以及數量 場景解析 如果不基於spark,我們來思考這個問題,資料量大記憶體是放不下,分類也

Spark實戰(二)學習UDF

這是崔斯特的第六十七篇原創文章 在開始正式資料處理之前,我覺得有必要去學習理解下UDF。 UDF UDF全稱 User-Defined Functions ,使用者自定義函式,是Sp

Spark大資料計算引擎介紹

本文內容參考《Spark與Hadoop大資料分析》[美]文卡特·安卡姆 著;《大資料架構詳解 從資料獲取到深度學習》 朱潔 羅華霖 著。 大資料生態的兩個主要部分是Hadoop軟體框架和Spark記憶體級計

Spark的執行原理

部落格地址: joey771.cn/2018/10/25/… spark的執行原理在大資料開發崗面試過程中是經常被問到的一個問題,我第一次被問到這個問題的時候有點摸不著頭腦,這麼大的一個問題我究竟應該怎

1746021673.6117