Spark

Spark是否能替代Hive

在實際生產環境中已經形成了離線以Hive為主,Spark為輔, 實時處理用Flink的大資料架構體系及Impala, Es,Kylin等應用查詢引擎 但是有很多學習Spark的程式員普遍認為Spark必然會

解惑:這個 Spark 任務是資料傾斜了嗎?

健身前後對比 健身回來的路上,看到微信群裡聊技術,一群有問了一個神奇的問題,具體可以看如下截圖: 哥們給出的結論是repartition導致的資料傾斜,我給他詳細的回覆了說明了不

Spark DataFrame 的 groupBy vs groupByKey

在使用 Spark SQL 的過程中,經常會用到 groupBy 這個函式進行一些統計工作。但是會發現除了 groupBy 外,還有一個 groupByKey(注意RDD 也有一個 groupByKe

Spark Streaming + Kafka 的 offset 管理方法

點選上方藍字關注【 北郵郭大寶 】 最近實習需要開發一套Spark Streaming的實時流處理專案,內心還是很期待的。說來慚愧,做大資料開發實習一年有餘了,都是離線批處理的任務,還沒親自操

Spark Broadcast

Broadcast Variables(廣播變數) Broadcast variables allow the programmer to keep a read-only variable cached o

再融資降溫B面:新經濟受捧仍獲溢價認籌

當A股 和新三板市場陷入低迷市時,再融資也同樣降溫。21世紀經濟報道統計資料顯示,三季度期間,A股和新三板定增數量規模出現較大幅度下滑,其中A股下跌近四成,新三板下跌近七成。 不過,股市流動性困局

Spark:DataFrame repartition、coalesce 對比

在Spark開發中,有時為了更好的效率,特別是涉及到關聯操作的時候,對資料進行重新分割槽操作可以提高程式執行效率(很多時候效率的提升遠遠高於重新分割槽的消耗,所以進行重新分割槽還是很有價值的)。

1747757954.621