1. 程式人生 > >內存模型是怎麽解決緩存一致性的?

內存模型是怎麽解決緩存一致性的?

sha http ida pro 類比 cto 數據一致性 tile 編程語言

前言

在再有人問你Java內存模型是什麽,就把這篇文章發給他。這篇文章中,我們介紹過關於Java內容模型的來龍去脈。

我們在文章中提到過,由於CPU和主存的處理速度上存在一定差別,為了匹配這種差距,提升計算機能力,人們在CPU和主存之間增加了多層高速緩存。每個CPU會有L1、L2甚至L3緩存,在多核計算機中會有多個CPU,那麽就會存在多套緩存,那麽這多套緩存之間的數據就可能出現不一致的現象。為了解決這個問題,有了內存模型。內存模型定義了共享內存系統中多線程程序讀寫操作行為的規範。通過這些規則來規範對內存的讀寫操作,從而保證指令執行的正確性。

不知道小夥伴們有沒有想過這樣的問題:內存模型到底是怎麽保證緩存一致性的呢?

接下來我們試著回答這個問題。首先,緩存一致性是由於引入緩存而導致的問題,所以,這是很多CPU廠商必須解決的問題。為了解決前面提到的緩存數據不一致的問題,人們提出過很多方案,通常來說有以下2種方案:技術分享圖片
在早期的CPU當中,是通過在總線上加LOCK#鎖的形式來解決緩存不一致的問題。因為CPU和其他部件進行通信都是通過總線來進行的,如果對總線加LOCK#鎖的話,也就是說阻塞了其他CPU對其他部件訪問(如內存),從而使得只能有一個CPU能使用這個變量的內存。在總線上發出了LCOK#鎖的信號,那麽只有等待這段代碼完全執行完畢之後,其他CPU才能從其內存讀取變量,然後進行相應的操作。這樣就解決了緩存不一致的問題。

但是由於在鎖住總線期間,其他CPU無法訪問內存,會導致效率低下。因此出現了第二種解決方案,通過緩存一致性協議來解決緩存一致性問題。

緩存一致性協議

緩存一致性協議(Cache Coherence Protocol),最出名的就是Intel 的MESI協議,MESI協議保證了每個緩存中使用的共享變量的副本是一致的。

MESI的核心的思想是:當CPU寫數據時,如果發現操作的變量是共享變量,即在其他CPU中也存在該變量的副本,會發出信號通知其他CPU將該變量的緩存行置為無效狀態,因此當其他CPU需要讀取這個變量時,發現自己緩存中緩存該變量的緩存行是無效的,那麽它就會從內存重新讀取。

在MESI協議中,每個緩存可能有有4個狀態,它們分別是:

技術分享圖片
關於MESI的更多細節這裏就不詳細介紹了,讀者只要知道,MESI是一種比較常用的緩存一致性協議,他可以用來解決緩存之間的數據一致性問題就可以了。

但是,值得註意的是,傳統的MESI協議中有兩個行為的執行成本比較大。

一個是將某個Cache Line標記為Invalid狀態,另一個是當某Cache Line當前狀態為Invalid時寫入新的數據。所以CPU通過Store Buffer和Invalidate Queue組件來降低這類操作的延時。

如圖:
技術分享圖片
當一個CPU進行寫入時,首先會給其它CPU發送Invalid消息,然後把當前寫入的數據寫入到Store Buffer中。然後異步在某個時刻真正的寫入到Cache中。

當前CPU核如果要讀Cache中的數據,需要先掃描Store Buffer之後再讀取Cache。

但是此時其它CPU核是看不到當前核的Store Buffer中的數據的,要等到Store Buffer中的數據被刷到了Cache之後才會觸發失效操作。

而當一個CPU核收到Invalid消息時,會把消息寫入自身的Invalidate Queue中,隨後異步將其設為Invalid狀態。

和Store Buffer不同的是,當前CPU核心使用Cache時並不掃描Invalidate Queue部分,所以可能會有極短時間的臟讀問題。

所以,為了解決緩存的一致性問題,比較典型的方案是MESI緩存一致性協議。

MESI協議,可以保證緩存的一致性,但是無法保證實時性。

內存模型

前面介紹過了緩存一致性模型,接著我們再來看一下內存模型。我們說過內存模型定義一系列規範,來保證多線程訪問共享變量時的可見性、有序性和原子性。(更多內容請參考再有人問你Java內存模型是什麽,就把這篇文章發給他。)

內存模型(Memory Model)如果擴展開來說的話,通常指的是內存一致性模型(Memory Sequential Consistency Model)

前面我們提到過緩存一致性,這裏又要說內存一致性,不是故意要把讀者搞蒙,而是希望通過對比讓讀者更加清楚。

緩存一致性(Cache Coherence),解決是多個緩存副本之間的數據的一致性問題。

內存一致性(Memory Consistency),保證的是多線程程序訪問內存時可以讀到什麽值。

我們首先看以下程序:
技術分享圖片
其中,S1、S2、L1、L2是語句代號(S表示Store,L表示Load);r1和r2是兩個寄存器。x和y是兩個不同的內存變量。兩個線程執行完之後,r1和r2可能是什麽值?

註意到線程是並發、交替執行的,下面是可能的執行順序和相應結果:
技術分享圖片
這些都是意料之內、情理之中的。但是在x86體系結構下,很可能得到r1=0 r2=0這樣的結果。

如果沒有Memory Consistency,程序員寫的程序代碼的輸出結果是不確定的。

因此,Memory Consistency就是程序員(編程語言)、編譯器、CPU間的一種協議。這個協議保證了程序訪問內存時會得到什麽值。

簡單點說,內存一致性,就是保證並發場景下的程序運行結果和程序員預期是一樣的(當然,要通過加鎖等方式),包括的就是並發編程中的原子性、有序性和可見性。而緩存一致性說的就是並發編程中的可見性。

在很多內存模型的實現中,關於緩存一致性的保證都是通過硬件層面緩存一致性協議來保證的。需要註意的是,這裏提到的內存模型,是計算機內存模型,而非Java內存模型。

總結

緩存一致性問題。硬件層面的問題,指的是由於多核計算機中有多套緩存,各個緩存之間的數據不一致性問題。

PS:這裏還需要再重復一遍,Java多線程中,每個線程都有自己的工作內存,需要和主存進行交互。這裏的工作內存和計算機硬件的緩存並不是一回事兒,只是可以相互類比。所以,並發編程的可見性問題,是因為各個線程之間的本地內存數據不一致導致的,和計算機緩存並無關系。

緩存一致性協議。用來解決緩存一致性問題的,常用的是MESI協議。

內存一致性模型。屏蔽計算機硬件問題,主要來解決並發編程中的原子性、有序性和一致性問題。

實現內存一致性模型的時候可能會用到緩存一致性模型。

思考

最後,再給大家留一道思考題:

既然在硬件層面,已經有了緩存一致性協議,可以保證緩存的一致性即並發編程中的可見性,那麽為什麽在寫多線程的代碼的時候,程序員要自己使用volatile、synchronized等關鍵字來保證可見性?

內存模型是怎麽解決緩存一致性的?