1. 程式人生 > >STL中map、set的資料結構及底層實現

STL中map、set的資料結構及底層實現

本文分析了STL的map和set

vector(向量)——STL中標準而安全的陣列。只能在vector 的“前面”增加資料。

deque(雙端佇列double-ended queue)——在功能上和vector相似,但是可以在前後兩端向其中新增資料。 

list(列表)——遊標一次只可以移動一步。如果你對連結串列已經很熟悉,那麼STL中的list則是一個雙向連結串列(每個節點有指向前驅和指向後繼的兩個指標)。

set(集合)——包含了經過排序了的資料,這些資料的值(value)必須是唯一的。

map (對映)——經過排序了的二元組的集合,map中的每個元素都是由兩個值組成,其中的key(鍵值,一個map中的鍵值必須是唯一的)是在排序或搜尋時使用,它的值可以在容器中重新獲取;而另一個值是該元素關聯的數值。比如,除了可以ar[43] = "overripe"這樣找到一個數據,map還可以通過ar["banana"] = "overripe"這樣的方法找到一個數據。如果你想獲得其中的元素資訊,通過輸入元素的全名就可以輕鬆實現。

multiset(多重集)——和集合(set)相似,然而其中的值不要求必須是唯一的(即可以有重複)。

multimap(多重對映)——和對映(map)相似,然而其中的鍵值不要求必須是唯一的(即可以有重複)。

STL map和set的使用雖不復雜,但也有一些不易理解的地方,如:
# 為何map和set的插入刪除效率比用其他序列容器高?
# 為何每次insert之後,以前儲存的iterator不會失效?
# 為何map和set不能像vector一樣有個reserve函式來預分配資料?
# 當資料元素增多時(10000到20000個比較),map和set的插入和搜尋速度變化如何?

C++ STL 之所以得到廣泛的讚譽,也被很多人使用,不只是提供了像vector, string, list等方便的容器,更重要的是STL封裝了許多複雜的資料結構演算法和大量常用資料結構操作。vector封裝陣列,list封裝了連結串列,map和 set封裝了二叉樹等,在封裝這些資料結構的時候,STL按照程式設計師的使用習慣,以成員函式方式提供的常用操作,如:插入、排序、刪除、查詢等。讓使用者在 STL使用過程中,並不會感到陌生。

C++ STL中標準關聯容器set, multiset, map,multimap內部採用的就是一種非常高效的平衡檢索二叉樹:紅黑樹,也成為RB樹(Red-Black Tree)。RB樹的統計效能要好於一般的平衡二叉樹(有些書籍根據作者姓名,Adelson-Velskii和Landis,將其稱為AVL-樹),所以被STL選擇作為了關聯容器的內部結構。本文並不會介紹詳細AVL樹和RB樹的實現以及他們的優劣,關於RB樹的詳細實現參看紅黑樹: 理論與實現(理論篇)。本文針對開始提出的幾個問題的回答,來向大家簡單介紹map和set的底層資料結構。

為何map和set的插入刪除效率比用其他序列容器高?

大部分人說,很簡單,因為對於關聯容器來說,不需要做記憶體拷貝和記憶體移動。說對了,確實如此。map和set容器內所有元素都是以節點的方式來儲存,其節點結構和連結串列差不多,指向父節點和子節點。結構圖可能如下:

         A
       / /
       B    C
       / / / /
     D E F G

因此插入的時候只需要稍做變換,把節點的指標指向新的節點就可以了。刪除的時候類似,稍做變換後把指向刪除節點的指標指向其他節點就OK了。這裡的一切操作就是指標換來換去,和記憶體移動沒有關係。
為何每次insert之後,以前儲存的iterator不會失效?

看見了上面答案的解釋,你應該已經可以很容易解釋這個問題。iterator這裡就相當於指向節點的指標,記憶體沒有變,指向記憶體的指標怎麼會失效呢(當然被刪除的那個元素本身已經失效了)。相對於vector來說,每一次刪除和插入,指標都有可能失效,呼叫push_back在尾部插入也是如此。因為為了保證內部資料的連續存放,iterator指向的那塊記憶體在刪除和插入過程中可能已經被其他記憶體覆蓋或者記憶體已經被釋放了。即使時push_back的時候,容器內部空間可能不夠,需要一塊新的更大的記憶體,只有把以前的記憶體釋放,申請新的更大的記憶體,複製已有的資料元素到新的記憶體,最後把需要插入的元素放到最後,那麼以前的記憶體指標自然就不可用了。特別時在和find等演算法在一起使用的時候,牢記這個原則:不要使用過期的iterator。

為何map和set不能像vector一樣有個reserve函式來預分配資料?

我以前也這麼問,究其原理來說時,引起它的原因在於在map和set內部儲存的已經不是元素本身了,而是包含元素的節點。也就是說map內部使用的Alloc並不是map<Key, Data,Compare, Alloc>宣告的時候從引數中傳入的Alloc。例如:
map<int, int, less<int>, Alloc<int> > intmap;  沒必要,樹的結構有resize操作嗎?

這時候在intmap中使用的allocator並不是Alloc<int>, 而是通過了轉換的Alloc,具體轉換的方法時在內部通過Alloc<int>::rebind重新定義了新的節點分配器,詳細的實現參看徹底學習STL中的Allocator。其實你就記住一點,在map和set內面的分配器已經發生了變化,reserve方法你就不要奢望了。

當資料元素增多時(10000和20000個比較),map和set的插入和搜尋速度變化如何?
   如果你知道log2的關係你應該就徹底瞭解這個答案。
記憶體分配演算法:
查閱相關資料後,知道STL的優勢並不在於演算法,而在於記憶體碎片。如果你需要經常自己去new一些節點,當節點特別多,而且進行頻繁的刪除和插入的時候,記憶體碎片就會存在,而STL採用自己的Allocator分配記憶體,以記憶體池的方式來管理這些記憶體,會大大減少記憶體碎片,從而會提升系統的整體效能。當時間執行很長時間後(例如後臺服務程式),map的優勢就會體現出來。從另外一個方面講,使用map會大大降低你的編碼難度,同時增加程式的可讀性。學習STL map, STL set之資料結構基礎看來是很有必要的。
--------------------- 
作者:RoyKuang07 
來源:CSDN 
原文:https://blog.csdn.net/pirlck/article/details/51326547 
版權宣告:本文為博主原創文章,轉載請附上博文連結!