如何解決Redis快取雪崩、快取穿透、快取併發等5大難題
Java相關的面試都會問到快取的問題:快取雪崩、快取穿透、快取預熱、快取更新、快取降級等不常見的問題,但卻是非常重要的問題,今天談談這個話題。
基本看完這篇,可以對redis有一個比較全面的初步瞭解,後續我再補充redis相關的實戰篇,總結為一個redis系列。
01.快取雪崩
資料未載入到快取中,或者快取同一時間大面積的失效,從而導致所有請求都去查資料庫,導致資料庫CPU和記憶體負載過高,甚至宕機。
比如一個雪崩的簡單過程:
1、redis叢集大面積故障
2、快取失效,但依然大量請求訪問快取服務redis
3、redis大量失效後,大量請求轉向到mysql資料庫
4、mysql的呼叫量暴增,很快就扛不住了,甚至直接宕機
5、由於大量的應用服務依賴mysql和redis的服務,這個時候很快會演變成各伺服器叢集的雪崩,最後網站徹底崩潰。

02.快取雪崩解決方案

1.快取的高可用性
快取層設計成高可用,防止快取大面積故障。即使個別節點、個別機器、甚至是機房宕掉,依然可以提供服務,例如 Redis Sentinel 和 Redis Cluster 都實現了高可用。
2.快取降級
可以利用ehcache等本地快取(暫時使用),但主要還需要對源服務訪問進行限流、資源隔離(熔斷)、降級等。
當訪問量劇增、服務出現問題仍然需要保證服務還是可用的。系統可以根據一些關鍵資料進行自動降級,也可以配置開關實現人工降級,這裡會涉及到運維的配合。
降級的最終目的是保證核心服務可用,即使是有損的。
比如我的淘寶頁面,由於是非核心頁面,後端服務如果暫時不能提供使用的情況,可以考慮直接使用一個靜態頁面替換掉,這樣對於使用者也是永遠提供服務的狀態(再發報警資訊提示急需解決),也不至於出現空白或者異常錯誤的裸奔狀態。
在進行降級之前要對系統進行梳理,比如:哪些業務是核心(必須保證),哪些業務可以容許暫時不提供服務(利用靜態頁面替換)等,以及配合伺服器核心指標,來後設置整體預案,比如:
(1)一般:比如有些服務偶爾因為網路抖動或者服務正在上線而超時,可以自動降級;
(2)警告:有些服務在一段時間內成功率有波動(如在95~100%之間),可以自動降級或人工降級,併發送告警;
(3)錯誤:比如可用率低於90%,或者資料庫連線池被打爆了,或者訪問量突然猛增到系統能承受的最大閥值,此時可以根據情況自動降級或者人工降級;
(4)嚴重錯誤:比如因為特殊原因資料錯誤了,此時需要緊急人工降級。
3.Redis備份和快速預熱
1)Redis資料備份和恢復
2)快速快取預熱
3).提前演練
最後,建議還是在專案上線前,演練快取層宕掉後,應用以及後端的負載情況以及可能出現的問題,對高可用提前預演,提前發現問題。
03.快取穿透
快取穿透是指查詢一個一不存在的資料。例如:從快取redis沒有命中,需要從mysql資料庫查詢,查不到資料則不寫入快取,這將導致這個不存在的資料每次請求都要到資料庫去查詢,造成快取穿透。
解決思路:
如果查詢資料庫也為空,直接設定一個預設值存放到快取,這樣第二次到緩衝中獲取就有值了,而不會繼續訪問資料庫。設定一個過期時間或者當有值的時候將快取中的值替換掉即可。
可以給key設定一些格式規則,然後查詢之前先過濾掉不符合規則的Key。
04.快取併發
這裡的併發指的是多個redis的client同時set key引起的併發問題。其實redis自身就是單執行緒操作,多個client併發操作,按照先到先執行的原則,先到的先執行,其餘的阻塞。當然,另外的解決方案是把redis.set操作放在佇列中使其序列化,必須的一個一個執行。
05.快取預熱
快取預熱就是系統上線後,將相關的快取資料直接載入到快取系統。
這樣就可以避免在使用者請求的時候,先查詢資料庫,然後再將資料快取的問題,使用者直接查詢事先被預熱的快取資料。
解決思路:
1、直接寫個快取重新整理頁面,上線時手工操作下。
2、資料量不大,可以在專案啟動的時候自動進行載入。
目的就是在系統上線前,將資料載入到快取中。