1. 程式人生 > >虛擬記憶體,MMU/TLB,PAGE,Cache之間關係

虛擬記憶體,MMU/TLB,PAGE,Cache之間關係

檢視應用程式程序的地址空間,可以看到分為很多段,比如程式碼段(只讀)、資料段(讀寫)、堆、共享庫(其中進一步分段)、棧空間等。整個應用程式的地址空間不會用滿4GB,因為還有一部分是核心空間,應用程式不能訪問。
再開啟一個相同的應用程式檢視其程序的地址空間,也是類似的,甚至是一樣的。因為採用採用了虛擬地址,經過轉換在實體地址上還是分開的。(程式碼段可能沒有分開,因為可以共用)

採用虛擬記憶體的原因:
1.讓每個程序有獨立的地址空間,一個好處是某個程序不會破壞其他程序,另一個好處是每個程序都認為有4GB地址空間,程式設計方便。
2.物理上分開地址空間,經過虛擬記憶體的管理,可以使得邏輯上是連續的。
3.所有程序的虛擬記憶體之和可能大於實體記憶體。這是通過借用磁碟來實現的,將一時不用的虛擬記憶體保持到磁碟。磁碟上這部分成為交換裝置,可以是分割槽,也可以是一個檔案。所以系統中可分配的記憶體總量 = 實體記憶體的大小 + 交換裝置的大小 。交換的過程成為頁的換入和換出,期間需要對記憶體重新對映。
4.增加記憶體的保護屬性,如核心地址空間、只讀地址空間等。

虛擬地址到實體地址是一個查表的過程,但可能不只一個表,是一個多級的表。虛擬地址本身分為幾個部分,page地址和page內地址(對於4KB的頁來說就是11bit),page地址分為多級用於查表。這個過程稱為Translation Table Walk,由硬體完成。上述所指的表,是儲存在記憶體上的。

page大,page table小;
page大,減少TLB的miss;
page大,分配memory容易造成浪費;

 

上圖給出了CPU,MMU,Cache的佈局,MMU應該包括了TLB和Translation Table Walk。TLB(Translation Lookaside Buffer)是一塊快取記憶體,快取最近查詢過的VA對應的頁表項。如果TLB中有需要查表的VA,就不用Translation Table Walk了,Translation Table Walk較慢要從記憶體上讀表。

Cache的儲存單位是line,假設每個line有32bytes。為了表示某個line是屬於哪個VA的,Cache裡還有TAG。最簡單的TAG就是VA的地址了(按32bytes的line對齊),Cache控制器檢查CPU給出VA和TAG是否一致,一致的話表示命中(Hit),將資料返回給CPU,否則的話靠MMU轉成PA從記憶體中讀取資料。

上述這個Cache的設計稱為全相聯,特點是一個VA可以快取到任何line裡,但問題是Cache可能有很多line,比如512個line,每次都需要一個個TAG比較過來,這樣速度較慢。
另一種Cache的設計稱為直接對映,特定的VA只能存在特定的Cache line裡,對映規則為Cache line = (VA line)%(Cacle line總數)。這樣的問題是Cache line裡的資料進出可能太過於平凡,導致命中率較低。

全相聯Cache和直接對映Cache各有優缺點,全相聯Cache查詢很慢,但沒有抖動問題(命中率低),直接對映Cache則正相反。實際CPU的Cache設計是取兩者的折衷,把所有Cache Line分成若干個組,每一組有n條Cache Line,稱為n路組相聯Cache(n-way Set Associative Cache)。n路組相聯Cache的特點是特定的記憶體行只能放在特定的組內,但是可以放在組內的任意cache line上。
        
Cache寫回記憶體有兩種模式:
Write Back:Cache Line中的資料被CPU核修改時並不立刻寫回記憶體,Cache Line和記憶體中的資料會暫時不一致,在Cache Line中有一個Dirty位標記這一情況。當一條Cache Line要被其它VA的資料替換時,如果不是Dirty的就直接替換掉,如果是Dirty的就先寫回記憶體再替換。

Write Through:每當CPU核修改Cache Line中的資料時就立刻寫回記憶體,Cache Line和記憶體中的資料總是一致的。如果有多個CPU或裝置同時訪問記憶體,例如採用雙口RAM,那麼Cache中的資料和記憶體保持一致就非常重要了,這時相關的記憶體頁面通常配置為Write Through模式。


    
    page是os的概念,而cache是cpu的概念。虛擬地址和實體地址以page為單位進行操作的,由兩部分組成:page地址和page內地址:


    採用多路組聯的cache,如之前所述,這樣的Cache分為多個set(組),每個組裡面又有多個line/way(行),每個line裡面又有多個位元組。

對某個page進行操作時,會將page分配到cache裡,這種分配是按照一定關係的。
    
    假設page的大小為4KB,考慮實體地址;
    cache的大小為2M,16384個4-Way SET,32 Bytes line,即32*4*16384=2M。
    執行memset(0, 0, 4*1024)的話,這4KB記憶體在cache上會放在連續的0到127set中每個set的第1個line;
    執行memset(1, 0, 4*1024)的話,這4KB記憶體在cache上會放在連續的128到255set中每個set的第1個line;
    ...
    執行memset(128, 0, 4*1024)的話,這4KB記憶體在cache上會放在連續的0到127set中每個set的第2個line;
    執行memset(129, 0, 4*1024)的話,這4KB記憶體在cache上會放在連續的128到255set中每個set的第2個line;
    
    就是說第ith物理頁面會與第(128*j+i)th個物理頁面中Cache中佔據同樣的Cache Sets。Set滿了之後,按照一定的演算法 ,比如LRU演算法(Least Recently Used algorithm)清除之前的資料。

 

    以上說的是現象,產生上述現象的原因可以用下圖來解釋:
   

    實體地址的位5-11是page中的偏移地址,7位,可以表示128個set;
    實體地址的位12-31是page frame地址的,對某一個page來說是固定的,決定了上述128個set在cache中的位置。
    
    128個set的合集有個專用的名詞,稱為Cache Bin。