Spark Streaming 第5頁

Spark是否能替代Hive

簡書

2018-11-10 23:13:55

在實際生產環境中已經形成了離線以Hive為主，Spark為輔, 實時處理用Flink的大資料架構體系及Impala, Es，Kylin等應用查詢引擎但是有很多學習Spark的程式員普遍認為Spark必然會

解惑：這個 Spark 任務是資料傾斜了嗎？

2018-11-09 07:59:29

健身前後對比健身回來的路上，看到微信群裡聊技術，一群有問了一個神奇的問題，具體可以看如下截圖：哥們給出的結論是repartition導致的資料傾斜，我給他詳細的回覆了說明了不

Spark應用程式開發引數調優深入剖析-Spark商業調優實戰

稀土掘金

2018-11-07 14:36:50

本套系列部落格從真實商業環境抽取案例進行總結和分享，並給出Spark商業應用實戰指導，請持續關注本套部落格。版權宣告：本套Spark商業應用實戰歸作者（秦凱新）所有，禁止轉載，歡迎學習。 Spar

Spark DataFrame 的 groupBy vs groupByKey

2018-11-04 16:28:00

在使用 Spark SQL 的過程中，經常會用到 groupBy 這個函式進行一些統計工作。但是會發現除了 groupBy 外，還有一個 groupByKey（注意RDD 也有一個 groupByKe

Spark Broadcast

簡書

2018-11-02 11:32:38

Broadcast Variables（廣播變數） Broadcast variables allow the programmer to keep a read-only variable cached o

1年將30PB資料遷移到Spark，eBay的經驗有何可借鑑之處？

InfoQ

2018-11-02 07:59:00

Teradata在過去的二十年為eBay提供了非常優秀的數倉服務，支撐起了eBay龐大的業務規模。二十多年積累下來的資料已經將資料倉庫變得非常龐大，所謂“牽一髮而動全身”，哪怕只是微小的改動也會牽涉大量資料和業

Spark:DataFrame repartition、coalesce 對比

部落格園-原創精華區

2018-10-31 19:06:00

在Spark開發中，有時為了更好的效率，特別是涉及到關聯操作的時候，對資料進行重新分割槽操作可以提高程式執行效率（很多時候效率的提升遠遠高於重新分割槽的消耗，所以進行重新分割槽還是很有價值的）。

spark--當分組遇到排序的解決思路

簡書

2018-10-29 18:11:00

場景現在有如下資料格式圖書分類，圖書名，數量現在想統計全部分類中數量最多的書名以及數量場景解析如果不基於spark，我們來思考這個問題，資料量大記憶體是放不下，分類也

Spark實戰（二）學習UDF

崔斯特的部落格

2018-10-29 15:27:45

這是崔斯特的第六十七篇原創文章在開始正式資料處理之前，我覺得有必要去學習理解下UDF。 UDF UDF全稱 User-Defined Functions ，使用者自定義函式，是Sp

Spark大資料計算引擎介紹

簡書

2018-10-27 14:58:46

本文內容參考《Spark與Hadoop大資料分析》[美]文卡特·安卡姆著；《大資料架構詳解從資料獲取到深度學習》朱潔羅華霖著。大資料生態的兩個主要部分是Hadoop軟體框架和Spark記憶體級計

Spark的執行原理

稀土掘金

2018-10-25 16:23:21

部落格地址： joey771.cn/2018/10/25/… spark的執行原理在大資料開發崗面試過程中是經常被問到的一個問題，我第一次被問到這個問題的時候有點摸不著頭腦，這麼大的一個問題我究竟應該怎

spark實戰（一）：對資料處理的理解

崔斯特的部落格

2018-10-24 20:52:43

這是崔斯特的第六十六篇原創文章大資料的學習經歷大資料是什麼，我覺得應該有這麼幾步：資料採集（Python&&Scrapy）資料清洗（Scala&a

Apache spark2.1.0編譯hadoop-2.6-cdh5.11.2的對應版本

部落格園精華區

2018-10-23 11:43:00

Apache spark2.1.0 編譯 hadoop-2.6-cdh5.11.2 的對應版本搞了兩天，終於把spark編譯成功了，把編譯過程記錄一下編譯失敗的坑： 1）linux記憶體不足，m

大資料技術學習，大資料處理為何選擇Spark，而不是Hadoop

簡書

2018-10-19 14:48:00

一.基礎知識 1.Spark Spark是一個用來實現快速而通用的叢集計算的平臺。在速度方面，Spark擴充套件了廣泛使用的MapReduce計算模型，而且高效地支援更多計算模式，包括互動式查詢和

Apache Spark on K8s的安全性和效能優化

部落格園-原創精華區

2018-10-19 00:21:00

前言 Apache Spark是目前最為流行的大資料計算框架，與Hadoop相比，它是替換MapReduce元件的不二選擇，越來越多的企業正在從傳統的MapReduc