一次夜維SQL的效能優化

阿新 • • 發佈：2018-12-25

最近單位搬家，從國家會議中心，搬往空氣清新的順義後沙峪，搬遷之前的完結上線中，碰見了一些棘手的問題，有一些值得借鑑的地方。

這是一個夜維程式的優化。這個夜維的目的，是每日刪除30+張表歷史資料，其中的主要矛盾，是一張5000萬的表，以下僅針對這張表的優化，做下介紹，大致經歷了幾個階段，

階段一：

順序刪除每張表，例如表A和B，B為A表子表，由於表有主外來鍵關係，因此需要先刪B表，再要刪除A，刪除條件是從A表檢索出歷史過期的資料對應的記錄id，用B表p_id和A表id關聯，執行刪除，id欄位是A表主鍵，使用序列賦值，p_id、id和c_date均有索引定義，A表總資料量2000萬，A表每日待刪除資料量為200萬，B表總資料量5000萬，B表每日待刪除資料量約為800萬，為了減小UNDO和REDO壓力，需要批量提交，SQL類似如下，

delete from B where B.p_id in (select id from A where c_date<=to_date('xxxx-xx-xx', 'yyyy-mm-dd')) and rownum < ?;

一次刪除10000條(?值為10000)，由於c_date(只有日期無時間，只儲存10天)區分度低，因此子查詢用了全表掃描，刪除B表需要執行200次SQL語句，即200次20000萬A表的全表掃描，業務量初期資料有限，A表資料量處於百萬級，機器配置較高，因此沒有問題，但隨著資料量的增加，執行時間變久，毋庸置疑。

階段二：

由於業務量增加，資料庫積累的資料有一定量，導致夜維執行時間越來越久，需要進行優化。

首先子查詢全表掃描，不可避免，為了提升效率，一種思路就是少做事。200次2000萬A表的全表掃描操作，是否可以避免？

既然每次需要刪除的是，2000萬中的200萬，可以先將這200萬存入中間表，即使全表掃描，只掃描200萬，要比掃描2000萬資料要強些，中間表C只有一個欄位，用於儲存待刪除的id標記，

create table C (id number);

insert into C select id from A where c_date<=to_date('xxxx-xx-xx', 'yyyy-mm-dd');

然後用中間表，和B表關聯，

delete from B where B.p_id in (select id from C) and rownum <= ?;

?值為10000，代表每次刪除1萬。同時從運行同事瞭解，夜維執行期間，資料庫負載不高，因此可以充分利用資源，資料庫伺服器80C128G，應用開啟多執行緒，除了主子表外，其他表實現併發刪除操作。

階段三：

隨著業務量逐漸增加，上面的機制仍不能滿足要求，而且有幾次夜維執行時間，甚至超了20小時，奇怪的是，夜維某些天正常，可能5、6個小時就能完成，某些天就會出現超長，甚至有一次第二天即將執行，然而第一天夜維還未完成，為了不影響執行，手工kill了舊程序。

回來再看這條SQL，其中子查詢返回的記錄，大約200萬左右資料，B表和子查詢關聯，得到所有符合條件的記錄，大約800萬，即1:4的關係，1條C表的id值，對應B表4條記錄，為了批量提交，每次只刪除這800萬中的1萬，

delete from B where B.p_id in (select id from C) and rownum <= ?;

這幾次超長執行，從資料庫層面看，反映的現象就是物理讀超高，例如之前這條SQL物理讀，值是3000，這幾次值就是10000。

由於子查詢肯定全表掃描，每次執行，都要讀取200萬資料，第一次執行SQL語句，就需要從磁碟檔案讀取，放入buffer cache，此時消耗物理讀，若這個時間段內，對於資料庫快取消耗高，例如其他大表的頻繁載入，就會增加buffer cache的age out刷出操作，進而可能出現，第二次執行這條SQL語句，這200萬資料部分、甚至全部，需要從磁碟再次讀取，如果待刪除800萬，一次刪除1萬記錄，就需要執行800次，極端情況，就需要重複載入800次200萬資料，平均下來，單次物理讀高，就可想而知了。

為了緩解，打算這麼調整，為C表增加pkid欄位，用於儲存rownum，如下示例，id仍是待刪除的條件值，pkid則為A表id對應的rownum，其目的就是為了，C表每個id都對應一個編號，且這個編號是有序遞增，

create table C (id number, pkid number);

create index idx_c_01 on c(pkid);

insert into C select id, rownum from A where c_date<=to_date('xxxx-xx-xx', 'yyyy-mm-dd');

刪除B表的時候，首先程式中迴圈，以id為條件，一次檢索1萬記錄，例如第一次是"where pkid > 0 and pkid < 10001"，第二次是"where pkid > 10000 and pkid < 20001"，即將B表每次刪除1萬條，批量刪除的邏輯，推至內層迴圈，

delete from B where B.p_id in (select id from C where pkid > ? and pkid < ?);

按照業務評估，C表1個id，對應B表4條記錄，因此子查詢1萬，B表刪除4萬，雖然一次批量刪除較之前，有所增加，但看著是可控，而且可以避免，每次讀取C表所有200萬資料。

階段四：

可是這種修改，當晚執行，就出現了問題，夜維日誌報錯，ORA-01555，

從alert日誌中，確認就是這條SQL，導致了這個ORA-01555錯誤，

ORA-01555 caused by SQL statement below (SQL ID: xxxxxxxxxx, Query Duration=11500 sec, SCN: 0x0001.f10b2hk7):

delete from B where B.p_id in (select id from C where pkid > :1 and pkid < :2);

ORA-01555錯誤，快照太舊，是Oracle一個非常經典的錯誤號，簡單一句話介紹，我覺得就是“DML語句需要用UNDO記錄的資料找到前映象時，該記錄在UNDO中已經被覆蓋，導致無法利用UNDO中的記錄完成一致性讀”，我曾寫了一篇小文介紹(http://blog.csdn.net/bisal/article/details/18187635)。

再看SQL語句，說明執行delete操作，時間太久，導致期間使用的UNDO前映象，已經被其他事務覆蓋了，因此直接報錯ORA-01555。而且懷疑，這條SQL語句，可能沒有一次執行成功的，由於使用了繫結變數，快取未被重新整理，檢索出來，報錯SQL使用的繫結變數值，正是第一次執行需要的0-10000，

(提取方法可參考《一個執行計劃異常變更的案例 - 外傳之檢視繫結變數值的幾種方法》)

要了解為什麼執行慢，就需要看一下，SQL語句的執行計劃，此處遮蔽了表名，解釋一下，

(1) 首先對錶B執行全表掃描。

(2) 對錶A執行了索引掃描。

(3) 然後以(1)結果集為驅動表，和(2)結果集進行NESTED LOOPS SEMI連線操作。

SQL執行慢原因基本清楚了，表B有5000萬的資料，表A總計200萬資料，1次檢索1萬資料，相當於執行200次5000萬資料的全表掃描再和1萬資料進行NESTED LOOPS SEMI表連線操作，進而刪除B表資料。

這比800次掃描200萬的資料，有過之而無不及，不報ORA-01555的錯誤才怪，

delete from B where B.p_id in (select id from C) and rownum <= ?;

問題來了，B表的p_id欄位有索引，檢視統計資訊，無論是表，還是索引，都是每晚22:00，由自動採集任務更新了，夜維執行時間，每日00:30開始執行，可以說每次用的，都是最新的統計資訊，這次調整，原義是限制內層資料量，為了減少資料，然後利用B表索引，為何沒用上p_id索引？

難道子查詢1次1萬，有些過了？

用二分法嘗試，0-5000、0-2500、...、甚至使用0-10，都比較慢，沒用索引。

碰巧測試了下，1910000-1920000區間，這條SQL執行迅速，看其對應的執行計劃，正是我們需要的，

(1) 索引範圍掃描表C。

(2) 索引範圍掃描表B。

(3) (1)和(2)進行NESTED LOOPS連線操作。

為何這一區間，就可以使用B表的索引，0-10000區間就不能使用？

有的同事提問：

“C表id如果排序，和B表中順序一致的話，會不會有影響？就是在插入C表id前，按照id排下序。”

此時看下pkid=1910000-1920000對應的C表id記錄，可以發現，基本都是有序，而且間距較小，例如

1000001

1000003

1000010

1000011

...

再看一下pkid=1-10000區間，有些是無序的，而且差值較大，例如，

1000021

1000210

1000020

1001000

1000002

...

之前我們說了，C表的id來自於A表的主鍵序列，意味著有序遞增，換句話說，id越近的記錄數，就越可能位於同一個資料塊，id越遠的記錄數，就越可能不在同一個資料塊，區別就是，例如前者讀取兩個記錄，可能只需要1次IO，後者可能需要2次IO，這很像索引的聚簇因子，即索引鍵值對應的資料記錄，在資料塊中儲存的越有序，clustering factor的值越低，計算索引掃描的成本值，就會越低，此時認為索引掃描更高效，

C表中id列越有序，對應於表B記錄，就越可能位於相同資料塊，消耗更小IO操作，因此此時的焦點，就在於如何讓C表id有序？

之前C表資料用如下語句，

insert into C select id, rownum from A where c_date<=to_date('xxxx-xx-xx', 'yyyy-mm-dd');

由於從表A檢索，未指定任何order by排序，因此預設會按照資料，在資料塊中的排序順序，進行讀取，無法保證有序。此時我們增加order by，讓其按照id順序進行讀取，就可以保證表C中id有序，

insert into C select p.*, rownum from (select id from A where c_date<=to_date('xxxx-xx-xx', 'yyyy-mm-dd') order by id) p;

細心的朋友可能注意到，order by id是否主鍵，對於rownum取值的順序，可能會有影響。

刪除語句不變，

delete from B where B.p_id in (select id from C where pkid > ? and pkid < ?);

但此時任何區間，都可以按照上面，正確的執行計劃，進行刪除操作，

這兩天執行夜維，基本保持2.5小時左右用時，這張總計5000萬資料量的B表，800萬/日刪除用時，45分鐘左右，一下從主要矛盾，變為次要矛盾了。

問題解決過程，屬於團隊的智慧，感謝開發團隊的山山、運維團隊的力偉、執行團隊的健哥、亞偉和albert兄。

總結：

1. 有人曾說，好架構不是設計出來的，而是演進出來的，對於某些資料庫開發來說，同樣適用，不同的方案在不同階段，適用程度不同，例如本文示例。

2. 但是從某一方面來講，這種效能隱患，又是可以設計，可以避免，比如大表的全表掃描，如果開始不考慮，毋庸置疑，就是會隨著資料量的增加，產生影響，可以看出，邏輯設計，以及SQL稽核，在資料庫開發工作中的重要。

3. 出現SQL效能問題，首先要看的就是執行計劃，當然你要知道，如何找出真實的執行計劃，如何找出繫結變數值，可能還需要看10053的trace檔案，這些常用知識點，可能未必記得，但用的時候知道從何檢索，Oracle官方文件、Google等等，就可以了，之前曾寫過一些小文，僅供參考，

一個執行計劃異常變更的案例 - 前傳

一個執行計劃異常變更的案例 - 外傳之繫結變數窺探

一個執行計劃異常變更的案例 - 外傳之檢視繫結變數值的幾種方法

rolling invalidation對子游標產生的影響

一個執行計劃異常變更的案例 - 外傳之聚簇因子(Clustering Factor)

一個執行計劃異常變更的案例 - 外傳之查詢執行計劃的幾種方法

一個執行計劃異常變更的案例 - 外傳之AWR

一個執行計劃異常變更的案例 - 外傳之ASH

一個執行計劃異常變更的案例 - 外傳之SQL AWR

一個執行計劃異常變更的案例 - 外傳之直方圖

一個執行計劃異常變更的案例 - 外傳之SQL Profile(上)

一個執行計劃異常變更的案例 - 外傳之SQL Profile(下)

一個執行計劃異常變更的案例 - 正傳

一次夜維SQL的效能優化

最近單位搬家，從國家會議中心，搬往空氣清新的順義後沙峪，搬遷之前的完結上線中，碰見了一些棘手的問題，有一些值得借鑑的地方。這是一個夜維程式的優化。這個夜維的目的，是每日刪除30+張表歷史資料，其中的主要矛盾，是一張5000萬的表，以下僅針對這張表的優化，做下介紹，大致經歷

mysql只explain 是一種美德（sql效能優化）

寫在前面的話：不要求每個人一定理解聯表查詢(join/left join/inner join等)時的mysql運算過程；不要求每個人一定知道線上（現在或未來）哪張表資料量大，哪張表資料量小； &n

記一次解決oracle sql效能瓶頸的問題

先上sql： SELECT (SELECT M.ALBUM_ID FROM ALBUM_R_MUSIC AM,ALBUM M WHERE AM.MUSIC_ID = M.MUSIC_ID AND AM.ALBUM_ID = M.ALBUM_

從一次python程式的效能優化說開去

一門程式語言入門是容易的，至少大家都知道從hello world開始。但這次效能優化的經歷告訴我，“換語言”這件事是有門檻的。這次效能優化是針對資料入庫流程中的一個環節（brief）做的。我們常說解決問題重要，發現問題更重要。沒錯，這次發現問題就佔用了我

記一次線上 OOM 和效能優化

大家好，我是鴨血粉絲（大家會親切的喊我「阿粉」），是一位喜歡吃鴨血粉絲的程式設計師，回想起之前線上出現 OOM 的場景，畢竟當時是第一次遇到這麼緊髒的大事，要好好記錄下來。 1 事情回顧在某次週五，通過 Grafana 監控，發現線上環境突然出現CPU和記憶體飆升的情況：但是看到網路輸出和輸入流

ORACEL SQL 效能優化(一)

當你向ORACLE 提交一個SQL語句,ORACLE會首先在這塊記憶體中查詢相同的語句. 這裡需要註明的是,ORACLE對兩者採取的是一種嚴格匹配,要達成共享,SQL語句必須完全相同(包括空格,換行等). 共享的語句必須滿足三個條件:

一次成功的sql優化，2個表joinI/O 極大，大約9million

原始sql：更新#result表，更新warr_bal.I/O大的原因是CIS..trans_acd_bal資料量太大，並且#result表的資料量並不大，且如果有重複的資料，sum出來的結果呈倍數增長。 CREATE TABLE #scm( scm_no i

Hadoop鏈式MapReduce、多維排序、倒排索引、自連線演算法、二次排序、Join效能優化、處理員工資訊Join實戰、URL流量分析、TopN及其排序、求平均值和最大最小值、資料清洗ETL、分析氣

Hadoop Mapreduce 演算法彙總第52課：Hadoop鏈式MapReduce程式設計實戰...1 第51課：Hadoop MapReduce多維排序解析與實戰...2 第50課：HadoopMapReduce倒排索引解析與實戰...3 第49課：Hado

實踐一次有趣的sql優化

aac 我們 type efault 相關 div 使用 span score 課程表 #課程表 create table Course( c_id int PRIMARY KEY, name varchar(10) ) 增加 100 條數據

記一次神奇的sql查詢經歷，group by慢查詢優化

一、問題背景現網出現慢查詢，在500萬數量級的情況下，單表查詢速度在30多秒，需要對sql進行優化，sql如下：我在測試環境構造了500萬條資料，模擬了這個慢查詢。簡單來說，就是查詢一定條件下，都有哪些使用者的。很簡單的sql，可以看到，查詢耗時為37秒。說一下app_account欄位

一次快速改寫 SQL Server 高效查詢的範例

高效 server inner ID ble 測試 tle blog isp 最近線上系統突然出現匯出資料超過 10 筆時，查詢逾時的狀況，在仔細查找之後。發現了問題原因，透過應用端與數據端兩邊同時調整，將查詢的效率提昇了約數百倍以上首先，原本應用端的商務邏輯為每一分頁

sql效能優化第二篇之mybatis如何能夠執行多條sql

在第一篇基礎上，資料庫能夠成功執行語句，但是放到Java程式碼中會報錯有木有。原來，mybatis在我們使用連結連線資料庫時，需要我們手動在連線上加上程式碼： &allowMultiQueries=true //允許執行多條sql 寫全就是：spring.datasour

sql效能優化第一篇之分頁資料與count資料一次性獲取

相信大部分人都會遇到：在資料庫的資料量很大時，分頁需要幾秒鐘才會全部完成；包括分頁list的獲取和count的獲取。那我們完全可以將這兩步放到一次sql去執行獲取，減少一半的查詢時間。這裡get到sql_calc_found_rows和SELECT FOUND_ROWS()這兩個知識點。看程式碼

sql效能優化，資料庫面試

SQL 效能優化總結（1）選擇最有效率的表名順序(只在基於規則的優化器中有效)： ORACLE的解析器按照從右到左的順序處理FROM子句中的表名，FROM子句中寫在最後的表(基礎表 driving table)

SQL效能優化（不斷總結）

1.查詢的模糊匹配儘量避免在一個複雜查詢裡面使用 LIKE '%parm1%'—— 紅色標識位置的百分號會導致相關列的索引無法使用，最好不要用. 解決辦法: 其實只需要對該指令碼略做改進，查詢速度便會提高近百倍。改進方法如下： &nbs

SQL 效能優化總結

Oracle SQL效能優化的40條軍規 Oracle SQL效能優化的40條軍規

Oracle SQL效能優化的40條軍規 1. SQL語句執行步驟語法分析> 語義分析> 檢視轉換 >表示式轉換> 選擇優化器 >選擇連線方式 >選擇連線順序 >選擇資料的搜尋路徑 >執行“執行計劃” 2. 選

SQL效能優化十條經驗，後臺程式設計師都需要掌握

1.查詢的模糊匹配儘量避免在一個複雜查詢裡面使用 LIKE '%parm1%'—— 紅色標識位置的百分號會導致相關列的索引無法使用，最好不要用.解決辦法:其實只需要對該指令碼略做改進，查詢速度便會提高近百倍。改進方法如下：a、修改前臺程式——把查詢條件的供應商名稱一欄由原來的文字輸入改為下拉列表，使用者模糊輸

面試被問之-----sql優化中in與exists的區別 Mysql中 in or exists not exists not in區別（網路整理） Sql語句中IN和exists的區別及應用 [筆記] SQL效能優化 - 避免使用 IN 和 NOT IN

曾經一次去面試,被問及in與exists的區別,記得當時是這麼回答的:''in後面接子查詢或者(xx,xx,xx,,,),exists後面需要一個true或者false的結果",當然這麼說也不算錯,但別人想聽的是sql優化相關,肯定是效率的問題,只是那個時候確實不知道它們在sql優化上的區別,只知道用in會進

oracle一次提交大量sql語句 begin end的使用

有時候業務會包含很多次資料庫操作，為了減少資料庫連線，我們會選擇一次提交大量sql，這時我們會用到begin end，使用begin end需要注意的是，每個sql語句都要確保以“;”結尾，代表一句sql結束，比如我們要執行一次更新工作安排詳情的業務，但是工作安排和員工以中間表關聯（執行工作

一次夜維SQL的效能優化

相關推薦