Spark

spark--當分組遇到排序的解決思路

場景 現在有如下資料格式 圖書分類,圖書名,數量 現在想統計全部分類中數量最多的書名以及數量 場景解析 如果不基於spark,我們來思考這個問題,資料量大記憶體是放不下,分類也

如何構建一個flink sql平臺

1、spark Streaming是一個微批處理的框架 2、批處理時間間隔 batchInterval >> 表示在batchInterval時間內Spark 所接收的資料被當做一個批次做

Spark實戰(二)學習UDF

這是崔斯特的第六十七篇原創文章 在開始正式資料處理之前,我覺得有必要去學習理解下UDF。 UDF UDF全稱 User-Defined Functions ,使用者自定義函式,是Sp

Spark大資料計算引擎介紹

本文內容參考《Spark與Hadoop大資料分析》[美]文卡特·安卡姆 著;《大資料架構詳解 從資料獲取到深度學習》 朱潔 羅華霖 著。 大資料生態的兩個主要部分是Hadoop軟體框架和Spark記憶體級計

1717242637.9491