Linux記憶體管理之mmap詳解
一. mmap系統呼叫
1. mmap系統呼叫
mmap將一個檔案或者其它物件對映進記憶體。檔案被對映到多個頁上,如果檔案的大小不是所有頁的大小之和,最後一個頁不被使用的空間將會清零。munmap執行相反的操作,刪除特定地址區域的物件對映。
當使用mmap對映檔案到程序後,就可以直接操作這段虛擬地址進行檔案的讀寫等操作,不必再呼叫read,write等系統呼叫.但需注意,直接對該段記憶體寫時不會寫入超過當前檔案大小的內容.
採用共享記憶體通訊的一個顯而易見的好處是效率高,因為程序可以直接讀寫記憶體,而不需要任何資料的拷貝。對於像管道和訊息佇列等通訊方式,則需要在核心和使用者空間進行四次的資料拷貝,而共享記憶體則只拷貝兩次資料:一次從輸入檔案到共享記憶體區,另一次從共享記憶體區到輸出檔案。實際上,程序之間在共享記憶體時,並不總是讀寫少量資料後就解除對映,有新的通訊時,再重新建立共享記憶體區域。而是保持共享區域,直到通訊完畢為止,這樣,資料內容一直儲存在共享記憶體中,並沒有寫回檔案。共享記憶體中的內容往往是在解除對映時才寫回檔案的。因此,採用共享記憶體的通訊方式效率是非常高的。
基於檔案的對映,在mmap和munmap執行過程的任何時刻,被對映檔案的st_atime可能被更新。如果st_atime欄位在前述的情況下沒有得到更新,首次對對映區的第一個頁索引時會更新該欄位的值。用PROT_WRITE 和 MAP_SHARED標誌建立起來的檔案對映,其st_ctime 和 st_mtime在對對映區寫入之後,但在msync()通過MS_SYNC 和 MS_ASYNC兩個標誌呼叫之前會被更新。
用法:
#include <sys/mman.h>
void *mmap(void *start, size_t length, int prot, int flags,
int fd, off_t offset);
int munmap(void *start, size_t length);
返回說明:
成功執行時,mmap()返回被對映區的指標,munmap()返回0。失敗時,mmap()返回MAP_FAILED[其值為(void *)-1],munmap返回-1。errno被設為以下的某個值
EACCES:訪問出錯
EAGAIN:檔案已被鎖定,或者太多的記憶體已被鎖定
EBADF:fd不是有效的檔案描述詞
EINVAL:一個或者多個引數無效
ENFILE:已達到系統對開啟檔案的限制
ENODEV:指定檔案所在的檔案系統不支援記憶體對映
ENOMEM:記憶體不足,或者程序已超出最大記憶體對映數量
EPERM:權能不足,操作不允許
ETXTBSY:已寫的方式開啟檔案,同時指定MAP_DENYWRITE標誌
SIGSEGV:試著向只讀區寫入
SIGBUS:試著訪問不屬於程序的記憶體區
引數:
start:對映區的開始地址。
length:對映區的長度。
prot:期望的記憶體保護標誌,不能與檔案的開啟模式衝突。是以下的某個值,可以通過or運算合理地組合在一起
PROT_EXEC //頁內容可以被執行
PROT_READ //頁內容可以被讀取
PROT_WRITE //頁可以被寫入
PROT_NONE //頁不可訪問
flags:指定對映物件的型別,對映選項和對映頁是否可以共享。它的值可以是一個或者多個以下位的組合體
MAP_FIXED //使用指定的對映起始地址,如果由start和len引數指定的記憶體區重疊於現存的對映空間,重疊部分將會被丟棄。如果指定的起始地址不可用,操作將會失敗。並且起始地址必須落在頁的邊界上。
MAP_SHARED //與其它所有對映這個物件的程序共享對映空間。對共享區的寫入,相當於輸出到檔案。直到msync()或者munmap()被呼叫,檔案實際上不會被更新。
MAP_PRIVATE //建立一個寫入時拷貝的私有對映。記憶體區域的寫入不會影響到原檔案。這個標誌和以上標誌是互斥的,只能使用其中一個。
MAP_DENYWRITE //這個標誌被忽略。
MAP_EXECUTABLE //同上
MAP_NORESERVE //不要為這個對映保留交換空間。當交換空間被保留,對對映區修改的可能會得到保證。當交換空間不被保留,同時記憶體不足,對對映區的修改會引起段違例訊號。
MAP_LOCKED //鎖定對映區的頁面,從而防止頁面被交換出記憶體。
MAP_GROWSDOWN //用於堆疊,告訴核心VM系統,對映區可以向下擴充套件。
MAP_ANONYMOUS //匿名對映,對映區不與任何檔案關聯。
MAP_ANON //MAP_ANONYMOUS的別稱,不再被使用。
MAP_FILE //相容標誌,被忽略。
MAP_32BIT //將對映區放在程序地址空間的低2GB,MAP_FIXED指定時會被忽略。當前這個標誌只在x86-64平臺上得到支援。
MAP_POPULATE //為檔案對映通過預讀的方式準備好頁表。隨後對對映區的訪問不會被頁違例阻塞。
MAP_NONBLOCK //僅和MAP_POPULATE一起使用時才有意義。不執行預讀,只為已存在於記憶體中的頁面建立頁表入口。
fd:有效的檔案描述詞。如果MAP_ANONYMOUS被設定,為了相容問題,其值應為-1。
offset:被對映物件內容的起點。
2. 系統呼叫munmap()
#include <sys/mman.h>
int munmap( void * addr, size_t len )
該呼叫在程序地址空間中解除一個對映關係,addr是呼叫mmap()時返回的地址,len是對映區的大小。當對映關係解除後,對原來對映地址的訪問將導致段錯誤發生。
3. 系統呼叫msync()
#include <sys/mman.h>
int msync ( void * addr , size_t len, int flags)
一般說來,程序在對映空間的對共享內容的改變並不直接寫回到磁碟檔案中,往往在呼叫munmap()後才執行該操作。可以通過呼叫msync()實現磁碟上檔案內容與共享記憶體區的內容一致。
二. 系統呼叫mmap()用於共享記憶體的兩種方式
(1)使用普通檔案提供的記憶體對映:適用於任何程序之間;此時,需要開啟或建立一個檔案,然後再呼叫mmap();典型呼叫程式碼如下:
fd=open(name, flag, mode);
if(fd<0)
...
ptr=mmap(NULL, len , PROT_READ|PROT_WRITE, MAP_SHARED , fd , 0);
通過mmap()實現共享記憶體的通訊方式有許多特點和要注意的地方
(2)使用特殊檔案提供匿名記憶體對映:適用於具有親緣關係的程序之間;由於父子程序特殊的親緣關係,在父程序中先呼叫mmap(),然後呼叫fork()。那麼在呼叫fork()之後,子程序繼承父程序匿名對映後的地址空間,同樣也繼承mmap()返回的地址,這樣,父子程序就可以通過對映區域進行通訊了。注意,這裡不是一般的繼承關係。一般來說,子程序單獨維護從父程序繼承下來的一些變數。而mmap()返回的地址,卻由父子程序共同維護。
對於具有親緣關係的程序實現共享記憶體最好的方式應該是採用匿名記憶體對映的方式。此時,不必指定具體的檔案,只要設定相應的標誌即可.
三. mmap進行記憶體對映的原理
mmap系統呼叫的最終目的是將,裝置或檔案對映到使用者程序的虛擬地址空間,實現使用者程序對檔案的直接讀寫,這個任務可以分為以下三步:
1.在使用者虛擬地址空間中尋找空閒的滿足要求的一段連續的虛擬地址空間,為對映做準備(由核心mmap系統呼叫完成)
每個程序擁有3G位元組的使用者虛存空間。但是,這並不意味著使用者程序在這3G的範圍內可以任意使用,因為虛存空間最終得對映到某個物理儲存空間(記憶體或磁碟空間),才真正可以使用。
那麼,核心怎樣管理每個程序3G的虛存空間呢?概括地說,使用者程序經過編譯、連結後形成的映象檔案有一個程式碼段和資料段(包括data段和bss段),其中程式碼段在下,資料段在上。資料段中包括了所有靜態分配的資料空間,即全域性變數和所有申明為static的區域性變數,這些空間是程序所必需的基本要求,這些空間是在建立一個程序的執行映像時就分配好的。除此之外,堆疊使用的空間也屬於基本要求,所以也是在建立程序時就分配好的,如圖3.1所示:
圖3.1 程序虛擬空間的劃分
在核心中,這樣每個區域用一個結構struct vm_area_struct 來表示.它描述的是一段連續的、具有相同訪問屬性的虛存空間,該虛存空間的大小為實體記憶體頁面的整數倍。可以使用 cat /proc/<pid>/maps來檢視一個程序的記憶體使用情況,pid是程序號.其中顯示的每一行對應程序的一個vm_area_struct結構.
下面是struct vm_area_struct結構體的定義:
#include <linux/mm_types.h>
/* This struct defines a memory VMM memory area. */
struct vm_area_struct {
struct mm_struct * vm_mm; /* VM area parameters */
unsigned long vm_start;
unsigned long vm_end;
/* linked list of VM areas per task, sorted by address */
struct vm_area_struct *vm_next;
pgprot_t vm_page_prot;
unsigned long vm_flags;
/* AVL tree of VM areas per task, sorted by address */
short vm_avl_height;
struct vm_area_struct * vm_avl_left;
struct vm_area_struct * vm_avl_right;
/* For areas with an address space and backing store,
vm_area_struct *vm_next_share;
struct vm_area_struct **vm_pprev_share;
struct vm_operations_struct * vm_ops;
unsigned long vm_pgoff; /* offset in PAGE_SIZE units, *not* PAGE_CACHE_SIZE */
struct file * vm_file;
unsigned long vm_raend;
void * vm_private_data; /* was vm_pte (shared mem) */
};
通常,程序所使用到的虛存空間不連續,且各部分虛存空間的訪問屬性也可能不同。所以一個程序的虛存空間需要多個vm_area_struct結構來描述。在vm_area_struct結構的數目較少的時候,各個vm_area_struct按照升序排序,以單鏈表的形式組織資料(通過vm_next指標指向下一個vm_area_struct結構)。但是當vm_area_struct結構的資料較多的時候,仍然採用連結串列組織的化,勢必會影響到它的搜尋速度。針對這個問題,vm_area_struct還添加了vm_avl_hight(樹高)、vm_avl_left(左子節點)、vm_avl_right(右子節點)三個成員來實現AVL樹,以提高vm_area_struct的搜尋速度。
假如該vm_area_struct描述的是一個檔案對映的虛存空間,成員vm_file便指向被對映的檔案的file結構,vm_pgoff是該虛存空間起始地址在vm_file檔案裡面的檔案偏移,單位為物理頁面。
圖3.2 程序虛擬地址示意圖
因此,mmap系統呼叫所完成的工作就是準備這樣一段虛存空間,並建立vm_area_struct結構體,將其傳給具體的裝置驅動程式.
2. 建立虛擬地址空間和檔案或裝置的實體地址之間的對映(裝置驅動完成)
建立檔案對映的第二步就是建立虛擬地址和具體的實體地址之間的對映,這是通過修改程序頁表來實現的.mmap方法是file_opeartions結構的成員:
int (*mmap)(struct file *,struct vm_area_struct *);
linux有2個方法建立頁表:
(1) 使用remap_pfn_range一次建立所有頁表.
int remap_pfn_range(struct vm_area_struct *vma, unsigned long virt_addr, unsigned long pfn, unsigned long size, pgprot_t prot);
返回值:
成功返回 0, 失敗返回一個負的錯誤值
引數說明:
vma 使用者程序建立一個vma區域
virt_addr 重新對映應當開始的使用者虛擬地址. 這個函式建立頁表為這個虛擬地址範圍從 virt_addr 到 virt_addr_size.
pfn 頁幀號, 對應虛擬地址應當被對映的實體地址. 這個頁幀號簡單地是實體地址右移 PAGE_SHIFT 位. 對大部分使用, VMA 結構的 vm_paoff 成員正好包含你需要的值. 這個函式影響實體地址從 (pfn<<PAGE_SHIFT) 到 (pfn<<PAGE_SHIFT)+size.
size 正在被重新對映的區的大小, 以位元組.
prot 給新 VMA 要求的"protection". 驅動可(並且應當)使用在vma->vm_page_prot 中找到的值.
(2) 使用nopage VMA方法每次建立一個頁表項.
struct page *(*nopage)(struct vm_area_struct *vma, unsigned long address, int *type);
返回值:
成功則返回一個有效對映頁,失敗返回NULL.
引數說明:
address 代表從使用者空間傳過來的使用者空間虛擬地址.
返回一個有效對映頁.
(3) 使用方面的限制:
remap_pfn_range不能對映常規記憶體,只存取保留頁和在實體記憶體頂之上的實體地址。因為保留頁和在實體記憶體頂之上的實體地址記憶體管理系統的各個子模組管理不到。640 KB 和 1MB 是保留頁可能對映,裝置I/O記憶體也可以對映。如果想把kmalloc()申請的記憶體對映到使用者空間,則可以通過mem_map_reserve()把相應的記憶體設定為保留後就可以。
3. 當實際訪問新對映的頁面時的操作(由缺頁中斷完成)
(1) page cache及swap cache中頁面的區分:一個被訪問檔案的物理頁面都駐留在page cache或swap cache中,一個頁面的所有資訊由struct page來描述。struct page中有一個域為指標mapping ,它指向一個struct address_space型別結構。page cache或swap cache中的所有頁面就是根據address_space結構以及一個偏移量來區分的。
(2) 檔案與 address_space結構的對應:一個具體的檔案在開啟後,核心會在記憶體中為之建立一個struct inode結構,其中的i_mapping域指向一個address_space結構。這樣,一個檔案就對應一個address_space結構,一個 address_space與一個偏移量能夠確定一個page cache 或swap cache中的一個頁面。因此,當要定址某個資料時,很容易根據給定的檔案及資料在檔案內的偏移量而找到相應的頁面。
(3) 程序呼叫mmap()時,只是在程序空間內新增了一塊相應大小的緩衝區,並設定了相應的訪問標識,但並沒有建立程序空間到物理頁面的對映。因此,第一次訪問該空間時,會引發一個缺頁異常。
(4) 對於共享記憶體對映情況,缺頁異常處理程式首先在swap cache中尋找目標頁(符合address_space以及偏移量的物理頁),如果找到,則直接返回地址;如果沒有找到,則判斷該頁是否在交換區 (swap area),如果在,則執行一個換入操作;如果上述兩種情況都不滿足,處理程式將分配新的物理頁面,並把它插入到page cache中。程序最終將更新程序頁表。
注:對於對映普通檔案情況(非共享對映),缺頁異常處理程式首先會在page cache中根據address_space以及資料偏移量尋找相應的頁面。如果沒有找到,則說明檔案資料還沒有讀入記憶體,處理程式會從磁碟讀入相應的頁面,並返回相應地址,同時,程序頁表也會更新.
(5) 所有程序在對映同一個共享記憶體區域時,情況都一樣,在建立線性地址與實體地址之間的對映之後,不論程序各自的返回地址如何,實際訪問的必然是同一個共享記憶體區域對應的物理頁面。
來源:http://lib.csdn.net/article/linux/62126