Spark Streaming

Spark streaming消費Kafka的正確姿勢

前言 在遊戲專案中,需要對每天千萬級的遊戲評論資訊進行詞頻統計,在生產者一端,我們將資料按照每天的拉取時間存入了Kafka當中,而在消費者一端,我們利用了spark streaming從kafka中不斷拉取

Spark Streaming + Kafka 的 offset 管理方法

點選上方藍字關注【 北郵郭大寶 】 最近實習需要開發一套Spark Streaming的實時流處理專案,內心還是很期待的。說來慚愧,做大資料開發實習一年有餘了,都是離線批處理的任務,還沒親自操

如何構建一個flink sql平臺

1、spark Streaming是一個微批處理的框架 2、批處理時間間隔 batchInterval >> 表示在batchInterval時間內Spark 所接收的資料被當做一個批次做

Spark local模式連線叢集hdfs、hive

Spark提供了local、standalone、on yarn等多種執行模式,但為了保持開發環境與實際執行環境的一致性,通常都是在本地編寫程式碼,然後編譯並上傳jar包到Spark叢集除錯執行。 但是面對複雜

Spark學習——資料傾斜

資料傾斜是一種很常見的問題(依據二八定律),簡單來說,比方WordCount中某個Key對應的資料量非常大的話,就會產生資料傾斜,導致兩個後果: OOM(單或少數的節點); 拖慢整個Job

Apache Spark 記憶體管理詳解(下)

導讀:本文是續接上一篇《 Apache Spark記憶體管理詳解(上) 》(未閱讀的同學可以點選檢視)的內容,主要介紹兩部分:儲存記憶體管理,包含 RDD的持久化機制、RDD快取的過程、淘汰和

基於Spark的機器學習實踐 (七) - 迴歸演算法

0 相關原始碼 1 迴歸分析概述 1.1 迴歸分析介紹 ◆ 迴歸與分類類似,只不過迴歸的預測結果是 連續 的,而分類的預測結果是 離散 的 ◆ 如此,使得很多回歸與分類的模型可以經過改動

1715626082.5403