Spark SQL

Spark 持續流處理和微批處理的對比

Spark從2.3版本開始引入了持續流式處理模型,可將流處理延遲降低至毫秒級別,讓 Structured Streaming 達到了一個里程碑式的高度。 下面的架構圖中,既有微批處理,還有持續流處理,兩種模

基本 SQL 之資料庫及表管理

上篇文章,我們基於『資料庫』做了一個巨集觀上的介紹,你應當瞭解到資料庫是在何種背景下,為了解決什麼樣的問題而誕生的,以及在具體實現下又可以劃分哪些中型別。 非關係型資料庫的種類很多,我們會在後續的篇章中進行

SQL Server 查詢統計資訊的相關取樣資訊

SQL Server 查詢統計資訊的相關取樣資訊 有時候我們會遇到,由於統計資訊不準確導致優化器生成了一個錯誤的執行計劃(或者這樣表達:一個較差的執行計劃),從而引起了系統性能問題。那麼如果我

如何定製分表中介軟體

前言 一般來說,影響資料庫最大的效能問題有兩個,一個是對資料庫的操作,一個是資料庫中的資料太大。對於前者我們可以藉助快取來減少一部分讀操作,針對一些複雜的報表分析和搜尋可以交給 Hadoop 和 El

SQL 不是迴避 DevOps 的理由

【編者的話】DevOps 實踐火遍大江南北,從一線大廠擴充套件推行至傳統軟體企業,但涉及資料庫時都多少有些為難。顧介紹相關實踐,以供大家借鑑。 有朋友最近告訴筆者,“我們做不了 DevOps,我們使用了關係

使用 Spark 輕鬆做資料透視(Pivot)

spark從1.6開始引入,到現在2.4版本,pivot運算元有了進一步增強,這使得後續無論是交給pandas繼續做處理,還是交給R繼續分析,都簡化了不少。大家無論在使用pandas、numpy或是R的時候,首

MySQL的SQL效能優化總結

很多時候,我們的程式出現的“效能問題”,其實是我們自己寫的那”坨”程式碼的問題,是自己Coding的問題,是Mysql的DML語句使用的問題。 以下是我總結的關於MySQL DML語句的使用中需要注意的點。

MySQL 探祕(二):SQL 語句執行過程詳解

昔日庖丁解牛,未見全牛,所賴者是其對牛內部骨架結構的瞭解,對於MySQL亦是如此,只有更加全面地瞭解SQL語句執行的每個過程,才能更好的進行SQL的設計和優化。 當希望MySQL能夠

架構師必備最全SQL優化方案

在進行MySQL的優化之前,必須要了解的就是MySQL的查詢過程,很多查詢優化工作實際上就是遵循一些原則,讓MySQL的優化器能夠按照預想的合理方式執行而已。 一、優化的哲學 注:優

使用 Spark Pivot 處理複雜的資料統計需求

Pivot 運算元是 spark 1.6 版本開始引入的,在 spark2.4版本中功能做了增強,還是比較強大的 ,做過資料清洗ETL工作的都知道,行列轉換是一個常見的資料整理需求。spark 中的Pivot

我的第一份工作

昨天看到微信朋友圈,有人在緬懷第一份工作,看了有點感觸,所以寫了這篇文章。 2002年初,我在湖南湘潭大學讀到大四下學期了,大家都紛紛放下手中的星際爭霸與CS,開始奔波於各面試會,曾經長

1746021408.3213