1. 程式人生 > >為什麽說Redis是單線程的以及Redis為什麽這麽快!

為什麽說Redis是單線程的以及Redis為什麽這麽快!

一段 AD ast 磁盤 數據服務 map 查找 nsa ash

  一、前言
  
  近乎所有與Java相關的面試都會問到緩存的問題,基礎一點的會問到什麽是“二八定律”、什麽是“熱數據和冷數據”,復雜一點的會問到緩存雪崩、緩存穿透、緩存預熱、緩存更新、緩存降級等問題,這些看似不常見的概念,都與我們的緩存服務器相關,一般常用的緩存服務器有Redis、Memcached等,而筆者目前最常用的也只有Redis這一種。
  
  如果你在以前面試的時候還沒有遇到過面試官問你《為什麽說Redis是單線程的以及Redis為什麽這麽快!》,那麽你看到這篇文章的時候,你應該覺得是一件很幸運的事情!如果你剛好是一位高逼格的面試官,你也可以拿這道題去面試對面“望穿秋水”般的小夥伴,測試一下他的掌握程度。
  
  好啦!步入正題!我們先探討一下Redis是什麽,Redis為什麽這麽快、然後在探討一下為什麽Redis是單線程的?
  
  二、Redis簡介
  
  Redis是一個開源的內存中的數據結構存儲系統,它可以用作:數據庫、緩存和消息中間件。
  
  它支持多種類型的數據結構,如字符串(String),散列(Hash),列表(List),集合(Set),有序集合(Sorted Set或者是ZSet)與範圍查詢,Bitmaps,Hyperloglogs 和地理空間(Geospatial)索引半徑查詢。其中常見的數據結構類型有:String、List、Set、Hash、ZSet這5種。
  
  Redis 內置了復制(Replication),LUA腳本(Lua scripting), LRU驅動事件(LRU eviction),事務(Transactions) 和不同級別的磁盤持久化(Persistence),並通過 Redis哨兵(Sentinel www.xucaizxyl.com)和自動分區(Cluster)提供高可用性(High Availability)。
  
  Redis也提供了持久化的選項,這些選項可以讓用戶將自己的數據保存到磁盤上面進行存儲。根據實際情況,可以每隔一定時間將數據集導出到磁盤(快照),或者追加到命令日誌中(AOF只追加文件),他會在執行寫命令時,將被執行的寫命令復制到硬盤裏面。您也可以關閉持久化功能,將Redis作為一個高效的網絡的緩存數據功能使用。
  
  Redis不使用表,他的數據庫不會預定義或者強制去要求用戶對Redis存儲的不同數據進行關聯。
  
  數據庫的工作模式按存儲方式可分為:硬盤數據庫和內存數據庫。Redis 將數據儲存在內存裏面,讀寫數據的時候都不會受到硬盤 I/O 速度的限制,所以速度極快。
  
  (1)硬盤數據庫的工作模式:
  
  這裏寫圖片描述
  
  (2)內存數據庫的工作模式:
  
  這裏寫圖片描述
  
  看完上述的描述,對於一些常見的Redis相關的面試題,是否有所認識了,例如:什麽是Redis、Redis常見的數據結構類型有哪些、Redis是如何進行持久化的等。
  
  三、Redis到底有多快
  
  Redis采用的是基於內存的采用的是單進程單線程模型的 KV 數據庫,由C語言編寫,官方提供的數據是可以達到100000+的QPS(每秒內查詢次數)。這個數據不比采用單進程多線程的同樣基於內存的 KV 數據庫 Memcached 差!有興趣的可以參考官方的基準程序測試《How fast is Redis?》(https://redis.io/topics/www.huayyule.com benchmarks)
  
  這裏寫圖片描述
  
  橫軸是連接數,縱軸是QPS。此時,這張圖反映了一個數量級,希望大家在面試的時候可以正確的描述出來,不要問你的時候,你回答的數量級相差甚遠!
  
  四、Redis為什麽這麽快
  
  1、完全基於內存,絕大部分請求是純粹的內存操作,非常快速。數據存在內存中,類似於HashMap,HashMap的優勢就是查找和操作的時間復雜度都是O(1);
  
  2、數據結構簡單,對數據操作也簡單,Redis中的數據結構是專門進行設計的;
  
  3、采用單線程,避免了不必要的上下文切換和競爭條件,也不存在多進程或者多線程導致的切換而消耗 CPU,不用去考慮各種鎖的問題,不存在加鎖釋放鎖操作,沒有因為可能出現死鎖而導致的性能消耗;
  
  4、使用多路I/O復用模型,非阻塞IO;
  
  5、使用底層模型不同,它們之間底層實現方式以及與客戶端之間通信的應用協議不一樣,Redis直接自己構建了VM 機制 ,因為一般的系統調用系統函數的話,會浪費一定的時間去移動和請求;
  
  以上幾點都比較好理解,下邊我們針對多路 I/O 復用模型進行簡單的探討:
  
  (1)多路 I/O 復用模型
  
  多路I/O復用模型是利用 select、poll、epoll 可以同時監察多個流的 I/O 事件的能力,在空閑的時候,會把當前線程阻塞掉,當有一個或多個流有 I/O 事件時,就從阻塞態中喚醒,於是程序就會輪詢一遍所有的流(epoll 是只輪詢那些真正發出了事件的流),並且只依次順序的處理就緒的流,這種做法就避免了大量的無用操作。
  
  這裏“多路”指的是多個網絡連接,“復用”指的是復用同一個線程。采用多路 I/O 復用技術可以讓單個線程高效的處理多個連接請求(盡量減少網絡 IO 的時間消耗),且 Redis 在內存中操作數據的速度非常快,也就是說內存內的操作不會成為影響Redis性能的瓶頸,主要由以上幾點造就了 Redis 具有很高的吞吐量。
  
  五、那麽為什麽Redis是單線程的
  
  我們首先要明白,上邊的種種分析,都是為了營造一個Redis很快的氛圍!官方FAQ表示,因為Redis是基於內存的操作,CPU不是Redis的瓶頸,Redis的瓶頸最有可能是機器內存的大小或者網絡帶寬。既然單線程容易實現,而且CPU不會成為瓶頸,那就順理成章地采用單線程的方案了(畢竟采用多線程會有很多麻煩!)。
  
  這裏寫圖片描述
  
  可以參考:https://redis.io/topics/faq
  
  看到這裏,你可能會氣哭!本以為會有什麽重大的技術要點才使得Redis使用單線程就可以這麽快,沒想到就是一句官方看似糊弄我們的回答!但是,我們已經可以很清楚的解釋了為什麽Redis這麽快,並且正是由於在單線程模式的情況下已經很快了,就沒有必要在使用多線程了!
  
  但是,我們使用單線程的方式是無法發揮多核CPU 性能,不過我們可以通過在單機開多個Redis 實例來完善!
  
  警告1:這裏我們一直在強調的單線程,只是在處理我們的網絡請求的時候只有一個線程來處理,一個正式的Redis Server運行的時候肯定是不止一個線程的,這裏需要大家明確的註意一下!例如Redis進行持久化的時候會以子進程或者子線程的方式執行(具體是子線程還是子進程待讀者深入研究);例如我在測試服務器上查看Redis進程,然後找到該進程下的線程:
  
  這裏寫圖片描述
  
  ps命令的“-T”參數表示顯示線程(Show threads, possibly with SPID column.)“SID”欄表示線程ID,而“CMD”欄則顯示了線程名稱。
  
  警告2:在上圖中FAQ中的最後一段,表述了從Redis 4.0版本開始會支持多線程的方式,但是,只是在某一些操作上進行多線程的操作!所以該篇文章在以後的版本中是否還是單線程的方式需要讀者考證!
  
  六、註意點
  
  1、我們知道Redis是用”單線程-多路復用IO模型”來實現高性能的內存數據服務的,這種機制避免了使用鎖,但是同時這種機制在進行sunion之類的比較耗時的命令時會使redis的並發下降。因為是單一線程,所以同一時刻只有一個操作在進行,所以,耗時的命令會導致並發的下降,不只是讀並發,寫並發也會下降。而單一線程也只能用到一個CPU核心,所以可以在同一個多核的服務器中,可以啟動多個實例,組成master-master或者master-slave的形式,耗時的讀命令可以完全在slave進行。
  
  需要改的redis.conf項:
  
  pidfile /var/run/redis/redis_6377.pid #pidfile要加上端口號
  
  port 6377 #這個是必須改的
  
  logfile /var/log/redis/redis_6377.log #logfile的名稱也加上端口號
  
  dbfilename dump_6377.rdb #rdbfile也加上端口號
  
  2、“我們不能任由操作系統負載均衡,因為我們自己更了解自己的程序,所以,我們可以手動地為其分配CPU核,而不會過多地占用CPU,或是讓我們關鍵進程和一堆別的進程擠在一起。”。
  
  CPU 是一個重要的影響因素,由於是單線程模型,Redis 更喜歡大緩存快速 CPU, 而不是多核
  
  在多核 CPU 服務器上面,Redis 的性能還依賴NUMA 配置和處理器綁定位置。最明顯的影響是 redis-benchmark 會隨機使用CPU內核。為了獲得精準的結果,需要使用固定處理器工具(在 Linux 上可以使用 taskset)。最有效的辦法是將客戶端和服務端分離到兩個不同的 CPU 來高校使用三級緩存。
  
  七、擴展
  
  以下也是你應該知道的幾種模型,祝你的面試一臂之力!
  
  1、單進程多線程模型:MySQL、Memcached、Oracle(www.tygj178.com Windows版本);
  
  2、多進程模型:Oracle(Linux版本);
  
  3、Nginx有兩類進程,一類稱為Master進程(相當於管理進程),另一類稱為Worker進程(實際工作進程)。啟動方式有兩種:
  
  (1)單進程啟動:此時系統中僅有一個進程,該進程既充當Master進程的角色,也充當Worker進程的角色。
  
  (2)多進程啟動:此時系統有且僅有一個Master進程,至少有一個Worker進程工作。
  
  (3)Master進程主要進行一些全局性的初始化工作和管理Worker的工作;事件處理是在Worker中進行的。

為什麽說Redis是單線程的以及Redis為什麽這麽快!