問題概述

使用阿里雲rds for MySQL資料庫（就是MySQL5.6版本），有個使用者上網記錄表6個月的資料量近2000萬，保留最近一年的資料量達到4000萬，查詢速度極慢，日常卡死。嚴重影響業務。

問題前提：老系統，當時設計系統的人大概是大學沒畢業，表設計和sql語句寫的不僅僅是垃圾，簡直無法直視。原開發人員都已離職，到我來維護，這就是傳說中的維護不了就跑路，然後我就是掉坑的那個！！！

我嘗試解決該問題，so，有個這個日誌。

方案概述

方案一：優化現有mysql資料庫。優點：不影響現有業務，源程式不需要修改程式碼，成本最低。缺點：有優化瓶頸，資料量過億就玩完了。
方案二：升級資料庫型別，換一種100%相容mysql的資料庫。優點：不影響現有業務，源程式不需要修改程式碼，你幾乎不需要做任何操作就能提升資料庫效能，缺點：多花錢
方案三：一步到位，大資料解決方案，更換newsql/nosql資料庫。優點：擴充套件性強，成本低，沒有資料容量瓶頸，缺點：需要修改源程式程式碼

以上三種方案，按順序使用即可，資料量在億級別一下的沒必要換nosql，開發成本太高。三種方案我都試了一遍，而且都形成了落地解決方案。該過程心中慰問跑路的那幾個開發者一萬遍 :)

方案一詳細說明：優化現有mysql資料庫

跟阿里雲資料庫大佬電話溝通 and Google解決方案 and 問群裡大佬，總結如下（都是精華）：

1.資料庫設計和表建立時就要考慮效能
2.sql的編寫需要注意優化
4.分割槽
4.分表
5.分庫

1.資料庫設計和表建立時就要考慮效能

mysql資料庫本身高度靈活，造成效能不足，嚴重依賴開發人員能力。也就是說開發人員能力高，則mysql效能高。這也是很多關係型資料庫的通病，所以公司的dba通常工資巨高。

設計表時要注意：

表字段避免null值出現，null值很難查詢優化且佔用額外的索引空間，推薦預設數字0代替null。
儘量使用INT而非BIGINT，如果非負則加上UNSIGNED（這樣數值容量會擴大一倍），當然能使用TINYINT、SMALLINT、MEDIUM_INT更好。
使用列舉或整數代替字串型別
儘量使用TIMESTAMP而非DATETIME
單表不要有太多欄位，建議在20以內
用整型來存IP

索引

索引並不是越多越好，要根據查詢有針對性的建立，考慮在WHERE和ORDER BY命令上涉及的列建立索引，可根據EXPLAIN來檢視是否用了索引還是全表掃描
應儘量避免在WHERE子句中對欄位進行NULL值判斷，否則將導致引擎放棄使用索引而進行全表掃描
值分佈很稀少的欄位不適合建索引，例如"性別"這種只有兩三個值的欄位
字元欄位只建字首索引
字元欄位最好不要做主鍵
不用外來鍵，由程式保證約束
儘量不用UNIQUE，由程式保證約束
使用多列索引時主意順序和查詢條件保持一致，同時刪除不必要的單列索引

簡言之就是使用合適的資料型別，選擇合適的索引

選擇合適的資料型別（1）使用可存下資料的最小的資料型別，整型 < date,time < char,varchar < blob （2）使用簡單的資料型別，整型比字元處理開銷更小，因為字串的比較更復雜。如，int型別儲存時間型別，bigint型別轉ip函式（3）使用合理的欄位屬性長度，固定長度的表會更快。使用enum、char而不是varchar （4）儘可能使用not null定義欄位（5）儘量少用text，非用不可最好分表 # 選擇合適的索引列（1）查詢頻繁的列，在where，group by，order by，on從句中出現的列（2）where條件中<，<=，=，>，>=，between，in，以及like 字串+萬用字元（%）出現的列（3）長度小的列，索引欄位越小越好，因為資料庫的儲存單位是頁，一頁中能存下的資料越多越好（4）離散度大（不同的值多）的列，放在聯合索引前面。檢視離散度，通過統計不同的列值來實現，count越大，離散程度越高：

原開發人員已經跑路，該表早已建立，我無法修改，故：該措辭無法執行，放棄！

2.sql的編寫需要注意優化

使用limit對查詢結果的記錄進行限定
避免select *，將需要查詢的欄位列出來
使用連線（join）來代替子查詢
拆分大的delete或insert語句
可通過開啟慢查詢日誌來找出較慢的SQL
不做列運算：SELECT id WHERE age + 1 = 10，任何對列的操作都將導致表掃描，它包括資料庫教程函式、計算表示式等等，查詢時要儘可能將操作移至等號右邊
sql語句儘可能簡單：一條sql只能在一個cpu運算；大語句拆小語句，減少鎖時間；一條大sql可以堵死整個庫
OR改寫成IN：OR的效率是n級別，IN的效率是log(n)級別，in的個數建議控制在200以內
不用函式和觸發器，在應用程式實現
避免%xxx式查詢
少用JOIN
使用同類型進行比較，比如用'123'和'123'比，123和123比
儘量避免在WHERE子句中使用!=或<>操作符，否則將引擎放棄使用索引而進行全表掃描
對於連續數值，使用BETWEEN不用IN：SELECT id FROM t WHERE num BETWEEN 1 AND 5
列表資料不要拿全表，要使用LIMIT來分頁，每頁數量也不要太大

原開發人員已經跑路，程式已經完成上線，我無法修改sql，故：該措辭無法執行，放棄！

引擎

目前廣泛使用的是MyISAM和InnoDB兩種引擎：

MyISAM
MyISAM引擎是MySQL 5.1及之前版本的預設引擎，它的特點是：

不支援行鎖，讀取時對需要讀到的所有表加鎖，寫入時則對錶加排它鎖
不支援事務
不支援外來鍵
不支援崩潰後的安全恢復
在表有讀取查詢的同時，支援往表中插入新紀錄
支援BLOB和TEXT的前500個字元索引，支援全文索引
支援延遲更新索引，極大提升寫入效能
對於不會進行修改的表，支援壓縮表，極大減少磁碟空間佔用

InnoDB
InnoDB在MySQL 5.5後成為預設索引，它的特點是：

支援行鎖，採用MVCC來支援高併發
支援事務
支援外來鍵
支援崩潰後的安全恢復
不支援全文索引

總體來講，MyISAM適合SELECT密集型的表，而InnoDB適合INSERT和UPDATE密集型的表

MyISAM速度可能超快，佔用儲存空間也小，但是程式要求事務支援，故InnoDB是必須的，故該方案無法執行，放棄！

3.分割槽

MySQL在5.1版引入的分割槽是一種簡單的水平拆分，使用者需要在建表的時候加上分割槽引數，對應用是透明的無需修改程式碼

對使用者來說，分割槽表是一個獨立的邏輯表，但是底層由多個物理子表組成，實現分割槽的程式碼實際上是通過對一組底層表的物件封裝，但對SQL層來說是一個完全封裝底層的黑盒子。MySQL實現分割槽的方式也意味著索引也是按照分割槽的子表定義，沒有全域性索引

使用者的SQL語句是需要針對分割槽表做優化，SQL條件中要帶上分割槽條件的列，從而使查詢定位到少量的分割槽上，否則就會掃描全部分割槽，可以通過EXPLAIN PARTITIONS來檢視某條SQL語句會落在那些分割槽上，從而進行SQL優化，我測試，查詢時不帶分割槽條件的列，也會提高速度，故該措施值得一試。

分割槽的好處是：

可以讓單表儲存更多的資料
分割槽表的資料更容易維護，可以通過清楚整個分割槽批量刪除大量資料，也可以增加新的分割槽來支援新插入的資料。另外，還可以對一個獨立分割槽進行優化、檢查、修復等操作
部分查詢能夠從查詢條件確定只落在少數分割槽上，速度會很快
分割槽表的資料還可以分佈在不同的物理裝置上，從而搞笑利用多個硬體裝置
可以使用分割槽表賴避免某些特殊瓶頸，例如InnoDB單個索引的互斥訪問、ext3檔案系統的inode鎖競爭
可以備份和恢復單個分割槽

分割槽的限制和缺點：

一個表最多隻能有1024個分割槽
如果分割槽欄位中有主鍵或者唯一索引的列，那麼所有主鍵列和唯一索引列都必須包含進來
分割槽表無法使用外來鍵約束
NULL值會使分割槽過濾無效
所有分割槽必須使用相同的儲存引擎

分割槽的型別：

RANGE分割槽：基於屬於一個給定連續區間的列值，把多行分配給分割槽
LIST分割槽：類似於按RANGE分割槽，區別在於LIST分割槽是基於列值匹配一個離散值集合中的某個值來進行選擇
HASH分割槽：基於使用者定義的表示式的返回值來進行選擇的分割槽，該表示式使用將要插入到表中的這些行的列值進行計算。這個函式可以包含MySQL中有效的、產生非負整數值的任何表示式
KEY分割槽：類似於按HASH分割槽，區別在於KEY分割槽只支援計算一列或多列，且MySQL伺服器提供其自身的雜湊函式。必須有一列或多列包含整數值
具體關於mysql分割槽的概念請自行google或查詢官方文件，我這裡只是拋磚引玉了。

我首先根據月份把上網記錄表RANGE分割槽了12份，查詢效率提高6倍左右，效果不明顯，故：換id為HASH分割槽，分了64個分割槽，查詢速度提升顯著。問題解決！

結果如下：PARTITION BY HASH (id)PARTITIONS 64

select count() from readroom_website; --11901336行記錄

/ 受影響行數: 0 已找到記錄: 1 警告: 0 持續時間 1 查詢: 5.734 sec. /

select * from readroom_website where month(accesstime) =11 limit 10;

/ 受影響行數: 0 已找到記錄: 10 警告: 0 持續時間 1 查詢: 0.719 sec. */

4.分表

分表就是把一張大表，按照如上過程都優化了，還是查詢卡死，那就把這個表分成多張表，把一次查詢分成多次查詢，然後把結果組合返回給使用者。

分表分為垂直拆分和水平拆分，通常以某個欄位做拆分項。比如以id欄位拆分為100張表：表名為 tableName_id%100

但：分表需要修改源程式程式碼，會給開發帶來大量工作，極大的增加了開發成本，故：只適合在開發初期就考慮到了大量資料存在，做好了分表處理，不適合應用上線了再做修改，成本太高！！！而且選擇這個方案，都不如選擇我提供的第二第三個方案的成本低！故不建議採用。

5.分庫

把一個數據庫分成多個，建議做個讀寫分離就行了，真正的做分庫也會帶來大量的開發成本，得不償失！不推薦使用。

方案二詳細說明：升級資料庫，換一個100%相容mysql的資料庫

mysql效能不行，那就換個。為保證源程式程式碼不修改，保證現有業務平穩遷移，故需要換一個100%相容mysql的資料庫。

開源選擇

tiDB https://github.com/pingcap/tidb
Cubrid https://www.cubrid.org/
開源資料庫會帶來大量的運維成本且其工業品質和MySQL尚有差距，有很多坑要踩，如果你公司要求必須自建資料庫，那麼選擇該型別產品。

雲資料選擇

阿里雲POLARDB
https://www.aliyun.com/product/polardb?spm=a2c4g.11174283.cloudEssentials.47.7a984b5cS7h4wH

官方介紹語：POLARDB 是阿里雲自研的下一代關係型分散式雲原生資料庫，100%相容MySQL，儲存容量最高可達 100T，效能最高提升至 MySQL 的 6 倍。POLARDB 既融合了商業資料庫穩定、可靠、高效能的特徵，又具有開源資料庫簡單、可擴充套件、持續迭代的優勢，而成本只需商用資料庫的 1/10。

我開通測試了一下，支援免費mysql的資料遷移，無操作成本，效能提升在10倍左右，價格跟rds相差不多，是個很好的備選解決方案！

阿里雲OcenanBase
淘寶使用的，扛得住雙十一，效能卓著，但是在公測中，我無法嘗試，但值得期待
阿里雲HybridDB for MySQL (原PetaData)
https://www.aliyun.com/product/petadata?spm=a2c4g.11174283.cloudEssentials.54.7a984b5cS7h4wH

官方介紹：雲資料庫HybridDB for MySQL （原名PetaData）是同時支援海量資料線上事務（OLTP）和線上分析（OLAP）的HTAP（Hybrid Transaction/Analytical Processing）關係型資料庫。

我也測試了一下，是一個olap和oltp相容的解決方案，但是價格太高，每小時高達10塊錢，用來做儲存太浪費了，適合儲存和分析一起用的業務。

騰訊雲DCDB
https://cloud.tencent.com/product/dcdb_for_tdsql

官方介紹：DCDB又名TDSQL，一種相容MySQL協議和語法，支援自動水平拆分的高效能分散式資料庫——即業務顯示為完整的邏輯表，資料卻均勻的拆分到多個分片中；每個分片預設採用主備架構，提供災備、恢復、監控、不停機擴容等全套解決方案，適用於TB或PB級的海量資料場景。

騰訊的我不喜歡用，不多說。原因是出了問題找不到人，線上問題無法解決頭疼！但是他價格便宜，適合超小公司，玩玩。

方案三詳細說明：去掉mysql，換大資料引擎處理資料

資料量過億了，沒得選了，只能上大資料了。

開源解決方案
hadoop家族。hbase/hive懟上就是了。但是有很高的運維成本，一般公司是玩不起的，沒十萬投入是不會有很好的產出的！
雲解決方案
這個就比較多了，也是一種未來趨勢，大資料由專業的公司提供專業的服務，小公司或個人購買服務，大資料就像水/電等公共設施一樣，存在於社會的方方面面。
國內做的最好的當屬阿里雲。
我選擇了阿里雲的MaxCompute配合DataWorks，使用超級舒服，按量付費，成本極低。
MaxCompute可以理解為開源的Hive，提供sql/mapreduce/ai演算法/python指令碼/shell指令碼等方式操作資料，資料以表格的形式展現，以分散式方式儲存，採用定時任務和批處理的方式處理資料。DataWorks提供了一種工作流的方式管理你的資料處理任務和排程監控。
當然你也可以選擇阿里雲hbase等其他產品，我這裡主要是離線處理，故選擇MaxCompute，基本都是圖形介面操作，大概寫了300行sql，費用不超過100塊錢就解決了資料處理問題。

乾貨｜一次MySQL兩千萬資料大表的優化過程，三種解決方案！

開發十年，就只剩下這套架構體系了！ >>>

記錄一次MySQL兩千萬資料的大表優化解決過程，提供三種解決方案

問題概述使用阿里雲rds for MySQL資料庫（就是MySQL5.6版本

記錄一次MySQL進程崩潰，無法重啟故障排查

not pool function 解決 variables fail data class 緩沖最近程序在跑著沒幾天，突然訪問不了，查看應用進程都還在。只有數據庫的進程down掉了。於是找到日誌文件看到如下錯誤 2017-07-24 01:58:53 19934 [N

記錄一次mysql 5.7 max_allowed_packet修改失敗的問題

packet for query is too large (2010 > 1024) mysql 5.7 max_allowed_packet今天我的客戶給我反饋說報錯 ### Error querying database. Cause: com.mysql.jdbc.PacketTooBigEx

記錄一次Mysql主從不同步事故問題於事故解決辦法

count cover counter img 一次 png 過去 stop set 首先在昨天的時候我可能在優化zabbix庫的時候動了庫中的events表。導致了接下來的問題。經過查看未解決前問題呈現如下：我們可以看到從庫與主庫不同步的原因是這個：這個問題的學名叫：外鍵

記錄一次mysql有索引但是沒有用到的經歷

前提：公司測試人員需要連線資料庫取資料，但是併發量高的時候會報等待獲取連線超時，所以經理讓我幫忙處理下，首先想到增大超時等待時間，改為60秒，300百左右併發是沒有問題的，但是提高到500以上時又報辣個錯誤，就在考慮應該優化下查詢sql，增加索引使查詢時間縮短來減少等待時間。兩個sql很簡

記錄一次mysql由5.6升級到5.7出現的異常---Expression #23 of SELECT list is not in GROUP BY clause and contains nonaggregated column 'c.commentCount' which is

### Error querying database. Cause: com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Expression #23 of SELECT list is not in GROUP BY clause an

記錄一次MySQL兩千萬資料的大表優化解決過程，提供三種解決方案

問題概述

方案概述

方案一詳細說明：優化現有mysql資料庫

引擎

方案二詳細說明：升級資料庫，換一個100%相容mysql的資料庫

方案三詳細說明：去掉mysql，換大資料引擎處理資料

乾貨｜一次MySQL兩千萬資料大表的優化過程，三種解決方案！

記錄一次MySQL兩千萬資料的大表優化解決過程，提供三種解決方案

記錄一次MySQL進程崩潰，無法重啟故障排查

記錄一次mysql 5.7 max_allowed_packet修改失敗的問題

記錄一次Mysql主從不同步事故問題於事故解決辦法

記錄一次mysql有索引但是沒有用到的經歷

記錄一次mysql由5.6升級到5.7出現的異常---Expression #23 of SELECT list is not in GROUP BY clause and contains nonaggregated column 'c.commentCount' which is

記錄一次MySQL升級的運維實踐

記錄一次系統記憶體消耗太大的問題排查

記錄一次mysql查詢速度慢造成CPU使用率很高情況

記錄一次用VB合併資料,確實很好用

記錄一次mysql不能啟動的解決方案

記錄一次Mysql死鎖排查過程

Mysql千萬級大表優化

MySQL千萬級大表優化解決方案

記一次Mysql佔用記憶體過高的優化過程

記錄一次利用pn532進行學校水卡改餘額過程

記錄一次XordDos(BillGates)木馬導致Centos kworker執行緒佔滿CPU資源的解決過程

記錄一次艱辛的Python包持續整合與釋出過程

Mysql千萬級大表優化策略

記錄一次MySQL兩千萬資料的大表優化解決過程，提供三種解決方案

問題概述

方案概述

方案一詳細說明：優化現有mysql資料庫

引擎

方案二詳細說明：升級資料庫，換一個100%相容mysql的資料庫

方案三詳細說明：去掉mysql，換大資料引擎處理資料

相關推薦