Spark SQL

Spark Streaming + Kafka 的 offset 管理方法

點選上方藍字關注【 北郵郭大寶 】 最近實習需要開發一套Spark Streaming的實時流處理專案,內心還是很期待的。說來慚愧,做大資料開發實習一年有餘了,都是離線批處理的任務,還沒親自操

sql server 臨時表概述(上)

一.概述 在sql server裡臨時表儲存在TempDB庫中,TempDB是一個系統資料庫,它只有Simple恢復模式,也是最小日誌記錄操作。主要用於存放區域性臨時表,全域性臨時表,表變數,都是基於臨時特

第 23 期:還原分組運算的本意

分組是 SQL 中常見的運算,但未必所有人都能深刻地理解它。 分組運算的實質是將一個集合按照某種規則拆分成若干個子集,也就是說,返回值應當是一個由集合構成的集合,但人們一般並不太關心構成這個集合的成員集合(我們稱

Spark Broadcast

Broadcast Variables(廣播變數) Broadcast variables allow the programmer to keep a read-only variable cached o

Spark:DataFrame repartition、coalesce 對比

在Spark開發中,有時為了更好的效率,特別是涉及到關聯操作的時候,對資料進行重新分割槽操作可以提高程式執行效率(很多時候效率的提升遠遠高於重新分割槽的消耗,所以進行重新分割槽還是很有價值的)。

SOAR 的 IDE 外掛:您的貼身 DBA 保鏢

本文將介紹SOAR外掛的基本實現以及現在已經實現的外掛的安裝與使用。 上篇文章回顧: 淺析NewSQL資料庫——TiDB SOAR(SQL Optimizer An

SQL注入access資料庫【二】

首先是sql注入產生的條件: 1.引數的傳遞 2.引數值可以帶入到資料庫 我這裡是本地搭建的環境,接另外一種方法注入 手工注入值半猜解 第一步 判斷是否可以注入 URL:htt

nuxt全棧實踐 開源後臺原始碼

nuxt-bnhcp是我寫的一個全棧商城系統,從前端ui切圖到後臺mysql以及redis快取,是一個相對完整且系統的專案,nuxt-bnhcp開源至今,收到了大量的反饋和朋友們遇到的問題以及nuxt-bnhc

spark--當分組遇到排序的解決思路

場景 現在有如下資料格式 圖書分類,圖書名,數量 現在想統計全部分類中數量最多的書名以及數量 場景解析 如果不基於spark,我們來思考這個問題,資料量大記憶體是放不下,分類也

Spark實戰(二)學習UDF

這是崔斯特的第六十七篇原創文章 在開始正式資料處理之前,我覺得有必要去學習理解下UDF。 UDF UDF全稱 User-Defined Functions ,使用者自定義函式,是Sp

1746131509.4531