ConcurrentHashMap的實現原理和原始碼分析
前言
在Java1.5中,併發程式設計大師Doug Lea給我們帶來了concurrent包,而該包中提供的ConcurrentHashMap是執行緒安全並且高效的HashMap,本節我們就來研究下ConcurrentHashMap是如何保證執行緒安全的同時又能高效的操作。
1.為何用ConcurrentHashMap
在併發程式設計中使用HashMap可能會導致死迴圈,而使用執行緒安全的HashTable效率又低下。
執行緒不安全的HashMap
在多執行緒環境下,使用HashMap進行put操作會引起死迴圈,導致CPU利用率接近100%,所以在併發情況下不能使用HashMap,如以下程式碼會導致死迴圈:
final HashMap<String, String> map = new HashMap<String, String>(2);
Thread t = new Thread(new Runnable() {
@Override
public void run() {
for (int i = 0; i < 10000; i++) {
new Thread(new Runnable() {
@Override
public void run() {
map .put(UUID.randomUUID().toString(), "");
}
}, "moon" + i).start();
}
}
}, "ftf");
t.start();
t.join();
HashMap在併發執行put操作是會引起死迴圈,是因為多執行緒會導致HashMap的Entry連結串列形成環形資料結構,一旦形成環形資料結構,Entry的next節點永遠不為空,就會產生死迴圈。
效率低下的HashTable
HashTable使用synchronized來保證執行緒的安全,但是線上程競爭激烈的情況下HashTable的效率非常低下。當一個執行緒訪問HashTable的同步方法,其他方法訪問HashTable的同步方法時,會進入阻塞或者輪詢狀態。如果執行緒1使用put進行元素新增,執行緒2不但不能用put方法添加於元素同是也無法用get方法來獲取元素,所以競爭越激烈效率越低。
ConcurrentHashMap的鎖分段技術
HashTable容器在競爭激烈的併發環境效率低下的原因是所有訪問HashTable的執行緒都必須競爭同一把鎖,假如容器有多把鎖,每一把鎖用於鎖住容器中一部分資料,那麼多執行緒訪問容器裡不同資料段的資料時,執行緒間就不會存在鎖競爭,從而可以有效提高併發訪問率,這就是ConcurrentHashMap的鎖分段技術。將資料分成一段一段的儲存,然後給每一段資料配一把鎖,當一個執行緒佔用鎖訪問其中一段資料的時候,其他段的資料也能被其他執行緒訪問。
2.Java1.6的ConcurrentHashMap的結構
首先來看看 Java1.6中ConcurrentHashMap的類圖:
ConcurrentHashMap是由Segment陣列結構和HashEntry陣列結構組成。Segment是一種可重入鎖ReentrantLock,在ConcurrentHashMap裡扮演鎖的角色,HashEntry則用於儲存鍵值對資料。一個ConcurrentHashMap裡包含一個Segment陣列,Segment的結構和HashMap類似,是一種陣列和連結串列結構, 一個Segment裡包含一個HashEntry陣列,每個HashEntry是一個連結串列結構的元素, 每個Segment守護者一個HashEntry數組裡的元素,當對HashEntry陣列的資料進行修改時,必須首先獲得它對應的Segment鎖。
3.java1.8的ConcurrentHashMap原始碼分析
重要的內部類
從Java1.7 版本開始 ConcurrentHashMap 不再採用 Segment 實現,而是改用 Node,Node 是一個連結串列的結構,每個節點可以引用到下一個節點(next)。
Node類
Node是最核心的內部類,包裝了key-value鍵值對,所有插入ConcurrentHashMap的資料都包裝在這裡面。
它與HashMap中的定義很相似,但是有一些差別它對value和next屬性設定了volatile同步鎖,它不允許呼叫setValue方法直接改變Node的value域,它增加了find方法輔助map.get()方法。TreeNode類
樹節點類,另外一個核心的資料結構。 當連結串列長度過長的時候,會轉換為TreeNode。
但是與HashMap不相同的是,它並不是直接轉換為紅黑樹,而是把這些結點包裝成TreeNode放在TreeBin物件中,由TreeBin完成對紅黑樹的包裝。
而且TreeNode在ConcurrentHashMap繼承自Node類,而並非HashMap中的整合自LinkedHashMap.EntryTreeBin
這個類並不負責包裝使用者的key、value資訊,而是包裝的很多TreeNode節點。它代替了TreeNode的根節點,也就是說在實際的ConcurrentHashMap“陣列”中,存放的是TreeBin物件,而不是TreeNode物件,這是與HashMap的區別。ForwardingNode
一個用於連線兩個table的節點類。它包含一個nextTable指標,用於指向下一張表。而且這個節點的key value next指標全部為null,它的hash值為-1.
這裡面定義的find的方法是從nextTable裡進行查詢節點,而不是以自身為頭節點進行查詢
建構函式
public ConcurrentHashMap() {
}
public ConcurrentHashMap(int initialCapacity) {
if (initialCapacity < 0)
throw new IllegalArgumentException();
int cap = ((initialCapacity >= (MAXIMUM_CAPACITY >>> 1)) ?
MAXIMUM_CAPACITY :
tableSizeFor(initialCapacity + (initialCapacity >>> 1) + 1));
this.sizeCtl = cap;
}
public ConcurrentHashMap(Map<? extends K, ? extends V> m) {
this.sizeCtl = DEFAULT_CAPACITY;
putAll(m);
}
public ConcurrentHashMap(int initialCapacity, float loadFactor) {
this(initialCapacity, loadFactor, 1);
}
public ConcurrentHashMap(int initialCapacity,
float loadFactor, int concurrencyLevel) {
if (!(loadFactor > 0.0f) || initialCapacity < 0 || concurrencyLevel <= 0)
throw new IllegalArgumentException();
if (initialCapacity < concurrencyLevel) // Use at least as many bins
initialCapacity = concurrencyLevel; // as estimated threads
long size = (long)(1.0 + (long)initialCapacity / loadFactor);
int cap = (size >= (long)MAXIMUM_CAPACITY) ?
MAXIMUM_CAPACITY : tableSizeFor((int)size);
this.sizeCtl = cap;
}
Java1.8版本的 ConcurrentHashMap 在建構函式中不會初始化 Node 陣列,而是第一次 put 操作的時候初始化。
整個 Map 第一次 put 的時候,map 中用於存放資料的 Node[] 還是null。
Unsafe與CAS
在ConcurrentHashMap中,大量使用了U.compareAndSwapXXX的方法,這個方法是利用一個CAS演算法實現無鎖化的修改值的操作,他可以大大降低鎖代理的效能消耗。這個演算法的基本思想就是不斷地去比較當前記憶體中的變數值與你指定的一個變數值是否相等,如果相等,則接受你指定的修改的值,否則拒絕你的操作。因為當前執行緒中的值已經不是最新的值,你的修改很可能會覆蓋掉其他執行緒修改的結果。這一點與樂觀鎖,SVN的思想是比較類似的。
unsafe程式碼塊控制了一些屬性的修改工作,比如最常用的SIZECTL 。 在這一版本的concurrentHashMap中,大量應用來的CAS方法進行變數、屬性的修改工作。 利用CAS進行無鎖操作,可以大大提高效能。
初始化函式initTable
呼叫ConcurrentHashMap的構造方法僅僅是設定了一些引數而已,而整個table的初始化是在向ConcurrentHashMap中插入元素的時候發生的。如呼叫put、computeIfAbsent、compute、merge等方法的時候,呼叫時機是檢查table==null。
初始化方法主要應用了關鍵屬性sizeCtl 如果這個值 < 0,表示其他執行緒正在進行初始化,就放棄這個操作。
在這也可以看出ConcurrentHashMap的初始化只能由一個執行緒完成。如果獲得了初始化許可權,就用CAS方法將sizeCtl置為-1,防止其他執行緒進入。初始化陣列後,將sizeCtl的值改為0.75*n
sizeCtl含義
1.負數代表正在進行初始化或擴容操作
2.-1代表正在初始化
3.-N 表示有N-1個執行緒正在進行擴容操作
4.正數或0代表hash表還沒有被初始化,這個數值表示初始化或下一次進行擴容的大小,這一點類似於擴容閾值的概念。還後面可以看到,它的值始終是當前ConcurrentHashMap容量的0.75倍,這與loadfactor是對應的。
/**
* Initializes table, using the size recorded in sizeCtl.
*/
private final Node<K,V>[] initTable() {
Node<K,V>[] tab; int sc;
while ((tab = table) == null || tab.length == 0) {
//sizeCtl表示有其他執行緒正在進行初始化操作,把執行緒掛起。對於table的初始化工作,只能有一個執行緒在進行。
if ((sc = sizeCtl) < 0)
Thread.yield(); // lost initialization race; just spin
else if (U.compareAndSwapInt(this, SIZECTL, sc, -1)) {//利用CAS方法把sizectl的值置為-1 表示本執行緒正在進行初始化
try {
if ((tab = table) == null || tab.length == 0) {
int n = (sc > 0) ? sc : DEFAULT_CAPACITY;
@SuppressWarnings("unchecked")
Node<K,V>[] nt = (Node<K,V>[])new Node<?,?>[n];
table = tab = nt;
sc = n - (n >>> 2);//相當於0.75*n 設定一個擴容的閾值
}
} finally {
sizeCtl = sc;
}
break;
}
}
return tab;
}
擴容方法transfer
支援多執行緒進行擴容操作,並沒有加鎖 ,這樣做的目的不僅僅是為了滿足concurrent的要求,而是希望利用併發處理去減少擴容帶來的時間影響。
單執行緒擴容的大體思想就是遍歷、複製的過程。首先根據運算得到需要遍歷的次數i,然後利用tabAt方法獲得i位置的元素:
- 如果這個位置為空,就在原table中的i位置放入forwardNode節點,這個也是觸發併發擴容的關鍵點;
- 如果這個位置是Node節點(fh>=0),如果它是一個連結串列的頭節點,就構造一個反序連結串列,把他們分別放在nextTable的i和i+n的位置上
- 如果這個位置是TreeBin節點(fh<0),也做一個反序處理,並且判斷是否需要untreefi,把處理的結果分別放在nextTable的i和i+n的位置上
- 遍歷過所有的節點以後就完成了複製工作,這時讓nextTable作為新的table,並且更新sizeCtl為新容量的0.75倍,完成擴容。
多執行緒遍歷節點,處理了一個節點,就把對應點的值set為forward,另一個執行緒看到forward,就向後繼續遍歷,再加上給節點上鎖的機制,就完成了多執行緒的控制。這樣交叉就完成了複製工作。而且還很好的解決了執行緒安全的問題。
/**
* 一個過渡的table表 只有在擴容的時候才會使用
*/
private transient volatile Node<K,V>[] nextTable;
/**
* Moves and/or copies the nodes in each bin to new table. See
* above for explanation.
*/
private final void transfer(Node<K,V>[] tab, Node<K,V>[] nextTab) {
int n = tab.length, stride;
if ((stride = (NCPU > 1) ? (n >>> 3) / NCPU : n) < MIN_TRANSFER_STRIDE)
stride = MIN_TRANSFER_STRIDE; // subdivide range
if (nextTab == null) { // initiating
try {
@SuppressWarnings("unchecked")
Node<K,V>[] nt = (Node<K,V>[])new Node<?,?>[n << 1];//構造一個nextTable物件 它的容量是原來的兩倍
nextTab = nt;
} catch (Throwable ex) { // try to cope with OOME
sizeCtl = Integer.MAX_VALUE;
return;
}
nextTable = nextTab;
transferIndex = n;
}
int nextn = nextTab.length;
ForwardingNode<K,V> fwd = new ForwardingNode<K,V>(nextTab);//構造一個連節點指標 用於標誌位
boolean advance = true;//併發擴容的關鍵屬性 如果等於true 說明這個節點已經處理過
boolean finishing = false; // to ensure sweep before committing nextTab
for (int i = 0, bound = 0;;) {
Node<K,V> f; int fh;
//這個while迴圈體的作用就是在控制i-- 通過i--可以依次遍歷原hash表中的節點
while (advance) {
int nextIndex, nextBound;
if (--i >= bound || finishing)
advance = false;
else if ((nextIndex = transferIndex) <= 0) {
i = -1;
advance = false;
}
else if (U.compareAndSwapInt
(this, TRANSFERINDEX, nextIndex,
nextBound = (nextIndex > stride ?
nextIndex - stride : 0))) {
bound = nextBound;
i = nextIndex - 1;
advance = false;
}
}
if (i < 0 || i >= n || i + n >= nextn) {
int sc;
if (finishing) {
//如果所有的節點都已經完成複製工作 就把nextTable賦值給table 清空臨時物件nextTable
nextTable = null;
table = nextTab;
sizeCtl = (n << 1) - (n >>> 1);//擴容閾值設定為原來容量的1.5倍 依然相當於現在容量的0.75倍
return;
}
//利用CAS方法更新這個擴容閾值,在這裡面sizectl值減一,說明新加入一個執行緒參與到擴容操作
if (U.compareAndSwapInt(this, SIZECTL, sc = sizeCtl, sc - 1)) {
if ((sc - 2) != resizeStamp(n) << RESIZE_STAMP_SHIFT)
return;
finishing = advance = true;
i = n; // recheck before commit
}
}
//如果遍歷到的節點為空 則放入ForwardingNode指標
else if ((f = tabAt(tab, i)) == null)
advance = casTabAt(tab, i, null, fwd);
//如果遍歷到ForwardingNode節點 說明這個點已經被處理過了 直接跳過 這裡是控制併發擴容的核心
else if ((fh = f.hash) == MOVED)
advance = true; // already processed
else {
//節點上鎖
synchronized (f) {
if (tabAt(tab, i) == f) {
Node<K,V> ln, hn;
//如果fh>=0 證明這是一個Node節點
if (fh >= 0) {
int runBit = fh & n;
//以下的部分在完成的工作是構造兩個連結串列 一個是原連結串列 另一個是原連結串列的反序排列
Node<K,V> lastRun = f;
for (Node<K,V> p = f.next; p != null; p = p.next) {
int b = p.hash & n;
if (b != runBit) {
runBit = b;
lastRun = p;
}
}
if (runBit == 0) {
ln = lastRun;
hn = null;
}
else {
hn = lastRun;
ln = null;
}
for (Node<K,V> p = f; p != lastRun; p = p.next) {
int ph = p.hash; K pk = p.key; V pv = p.val;
if ((ph & n) == 0)
ln = new Node<K,V>(ph, pk, pv, ln);
else
hn = new Node<K,V>(ph, pk, pv, hn);
}
//在nextTable的i位置上插入一個連結串列
setTabAt(nextTab, i, ln);
//在nextTable的i+n的位置上插入另一個連結串列
setTabAt(nextTab, i + n, hn);
//在table的i位置上插入forwardNode節點 表示已經處理過該節點
setTabAt(tab, i, fwd);
//設定advance為true 返回到上面的while迴圈中 就可以執行i--操作
advance = true;
}
//對TreeBin物件進行處理 與上面的過程類似
else if (f instanceof TreeBin) {
TreeBin<K,V> t = (TreeBin<K,V>)f;
TreeNode<K,V> lo = null, loTail = null;
TreeNode<K,V> hi = null, hiTail = null;
int lc = 0, hc = 0;
//構造正序和反序兩個連結串列
for (Node<K,V> e = t.first; e != null; e = e.next) {
int h = e.hash;
TreeNode<K,V> p = new TreeNode<K,V>
(h, e.key, e.val, null, null);
if ((h & n) == 0) {
if ((p.prev = loTail) == null)
lo = p;
else
loTail.next = p;
loTail = p;
++lc;
}
else {
if ((p.prev = hiTail) == null)
hi = p;
else
hiTail.next = p;
hiTail = p;
++hc;
}
}
//如果擴容後已經不再需要tree的結構 反向轉換為連結串列結構
ln = (lc <= UNTREEIFY_THRESHOLD) ? untreeify(lo) :
(hc != 0) ? new TreeBin<K,V>(lo) : t;
hn = (hc <= UNTREEIFY_THRESHOLD) ? untreeify(hi) :
(lc != 0) ? new TreeBin<K,V>(hi) : t;
//在nextTable的i位置上插入一個連結串列
setTabAt(nextTab, i, ln);
//在nextTable的i+n的位置上插入另一個連結串列
setTabAt(nextTab, i + n, hn);
//在table的i位置上插入forwardNode節點 表示已經處理過該節點
setTabAt(tab, i, fwd);
//設定advance為true 返回到上面的while迴圈中 就可以執行i--操作
advance = true;
}
}
}
}
}
}
put函式
put方法依然沿用HashMap的put方法的思想,根據hash值計算這個新插入的點在table中的位置i,如果i位置是空的,直接放進去,否則進行判斷,如果i位置是樹節點,按照樹的方式插入新的節點,否則把i插入到連結串列的末尾。ConcurrentHashMap中依然沿用這個思想,有一個最重要的不同點就是ConcurrentHashMap不允許key或value為null值。另外由於涉及到多執行緒,put方法就要複雜一點。在多執行緒中可能有以下兩個情況:
- 如果一個或多個執行緒正在對ConcurrentHashMap進行擴容操作,當前執行緒也要進入擴容的操作中。這個擴容的操作之所以能被檢測到,是因為transfer方法中在空結點上插入forward節點,如果檢測到需要插入的位置被forward節點佔有,就幫助進行擴容。
- 如果檢測到要插入的節點是非空且不是forward節點,就對這個節點加鎖,這樣就保證了執行緒安全。儘管這個有一些影響效率,但是還是會比hashTable的synchronized要好得多。
整體流程就是首先定義不允許key或value為null的情況放入 對於每一個放入的值,首先利用spread方法對key的hashcode進行一次hash計算,由此來確定這個值在table中的位置。如果這個位置是空的,那麼直接放入,而且不需要加鎖操作。
如果這個位置存在結點,說明發生了hash碰撞,首先判斷這個節點的型別。如果是連結串列節點(fh>0),則得到的結點就是hash值相同的節點組成的連結串列的頭節點。需要依次向後遍歷確定這個新加入的值所在位置。如果遇到hash值與key值都與新加入節點是一致的情況,則只需要更新value值即可。否則依次向後遍歷,直到連結串列尾插入這個結點。 如果加入這個節點以後連結串列長度大於8,就把這個連結串列轉換成紅黑樹。如果這個節點的型別已經是樹節點的話,直接呼叫樹節點的插入方法進行插入新的值。
final V putVal(K key, V value, boolean onlyIfAbsent) {
//不允許 key或value為null
if (key == null || value == null) throw new NullPointerException();
//計算hash值
int hash = spread(key.hashCode());
int binCount = 0;
for (Node<K,V>[] tab = table;;) {
Node<K,V> f; int n, i, fh;
// 第一次 put 操作的時候初始化,如果table為空的話,初始化table
if (tab == null || (n = tab.length) == 0)
tab = initTable();
//根據hash值計算出在table裡面的位置
else if ((f = tabAt(tab, i = (n - 1) & hash)) == null) {
// 根據對應的key hash 到具體的索引,如果該索引對應的 Node 為 null,則採用 CAS 操作更新整個 table
// 如果這個位置沒有值 ,直接放進去,不需要加鎖
if (casTabAt(tab, i, null,
new Node<K,V>(hash, key, value, null)))
break; // no lock when adding to empty bin
}
//當遇到表連線點時,需要進行整合表的操作
else if ((fh = f.hash) == MOVED)
tab = helpTransfer(tab, f);
else {
V oldVal = null;
// 結點上鎖,只是對連結串列頭結點作鎖操作
synchronized (f) {
if (tabAt(tab, i) == f) {
//fh > 0 說明這個節點是一個連結串列的節點 不是樹的節點
if (fh >= 0) {
binCount = 1;
//在這裡遍歷連結串列所有的結點
for (Node<K,V> e = f;; ++binCount) {
K ek;
//如果hash值和key值相同 則修改對應結點的value值
if (e.hash == hash &&
((ek = e.key) == key ||
(ek != null && key.equals(ek)))) {
oldVal = e.val;
if (!onlyIfAbsent)
e.val = value;
break;
}
Node<K,V> pred = e;
//如果遍歷到了最後一個結點,那麼就證明新的節點需要插入 就把它插入在連結串列尾部
if ((e = e.next) == null) {
// 插入到連結串列尾
pred.next = new Node<K,V>(hash, key,
value, null);
break;
}
}
}
//如果這個節點是樹節點,就按照樹的方式插入值
else if (f instanceof TreeBin) {
// 如果是紅黑樹結點,按照紅黑樹的插入
Node<K,V> p;
binCount = 2;
if ((p = ((TreeBin<K,V>)f).putTreeVal(hash, key,
value)) != null) {
oldVal = p.val;
if (!onlyIfAbsent)
p.val = value;
}
}
}
}
if (binCount != 0) {
// 如果這個連結串列結點達到了臨界值8,那麼把這個連結串列轉換成紅黑樹
if (binCount >= TREEIFY_THRESHOLD)
treeifyBin(tab, i);
if (oldVal != null)
return oldVal;
break;
}
}
}
//將當前ConcurrentHashMap的元素數量+1,table的擴容是在這裡發生的
addCount(1L, binCount);
return null;
}
協助擴容函式helpTransfer
這是一個協助擴容的方法。這個方法被呼叫的時候,當前ConcurrentHashMap一定已經有了nextTable物件,首先拿到這個nextTable物件,呼叫上面講到的transfer方法來進行擴容。
final Node<K,V>[] helpTransfer(Node<K,V>[] tab, Node<K,V> f) {
Node<K,V>[] nextTab; int sc;
if (tab != null && (f instanceof ForwardingNode) &&
(nextTab = ((ForwardingNode<K,V>)f).nextTable) != null) {
int rs = resizeStamp(tab.length);//計算一個操作校驗碼
while (nextTab == nextTable && table == tab &&
(sc = sizeCtl) < 0) {
if ((sc >>> RESIZE_STAMP_SHIFT) != rs || sc == rs + 1 ||
sc == rs + MAX_RESIZERS || transferIndex <= 0)
break;
if (U.compareAndSwapInt(this, SIZECTL, sc, sc + 1)) {
transfer(tab, nextTab);
break;
}
}
return nextTab;
}
return table;
}
紅黑樹轉換
在putVal函式中,treeifyBin是在連結串列長度達到一定閾值(8)後轉換成紅黑樹的函式。 但是並不是直接轉換,而是進行一次容量判斷,如果容量沒有達到轉換的要求,直接進行擴容操作並返回;如果滿足條件才將連結串列的結構轉換為TreeBin ,這與HashMap不同的是,它並沒有把TreeNode直接放入紅黑樹,而是利用了TreeBin這個小容器來封裝所有的TreeNode。
private final void treeifyBin(Node<K,V>[] tab, int index) {
Node<K,V> b; int n, sc;
if (tab != null) {
if ((n = tab.length) < MIN_TREEIFY_CAPACITY)
tryPresize(n << 1);
else if ((b = tabAt(tab, index)) != null && b.hash >= 0) {
synchronized (b) {
if (tabAt(tab, index) == b) {
TreeNode<K,V> hd = null, tl = null;
for (Node<K,V> e = b; e != null; e = e.next) {
TreeNode<K,V> p =
new TreeNode<K,V>(e.hash, e.key, e.val,
null, null);
if ((p.prev = tl) == null)
hd = p;
else
tl.next = p;
tl = p;
}
setTabAt(tab, index, new TreeBin<K,V>(hd));
}
}
}
}
}
get方法
給定一個key來確定value的時候,必須滿足兩個條件 key相同 hash值相同,對於節點可能在連結串列或樹上的情況,需要分別去查詢。
public V get(Object key) {
Node<K,V>[] tab; Node<K,V> e, p; int n, eh; K ek;
//計算hash值
int h = spread(key.hashCode());
//根據hash值確定節點位置
if ((tab = table) != null && (n = tab.length) > 0 &&
(e = tabAt(tab, (n - 1) & h)) != null) {
//如果搜尋到的節點key與傳入的key相同且不為null,直接返回這個節點
if ((eh = e.hash) == h) {
if ((ek = e.key) == key || (ek != null && key.equals(ek)))
return e.val;
}
//如果eh<0 說明這個節點在樹上 直接尋找
else if (eh < 0)
return (p = e.find(h, key)) != null ? p.val : null;
//否則遍歷連結串列 找到對應的值並返回
while ((e = e.next) != null) {
if (e.hash == h &&
((ek = e.key) == key || (ek != null && key.equals(ek))))
return e.val;
}
}
return null;
}