併發concurrent---3
背景:併發知識是一個程式設計師段位升級的體現,同樣也是進入BAT的必經之路,有必要把併發知識重新梳理一遍。
ConcurrentHashMap :
在有了併發的基礎知識以後,再來研究concurrent包。普通的HashMap為非執行緒安全的,在高併發場景下要使用執行緒安全版本的ConcurrentHashMap;
眾所周知HashTable可以保證執行緒安全但卻效率低下,而HashMap是非執行緒安全但效率卻高於HashTable,於是ConcurrentHashMap就孕育而生成為二者的結合體,為了更好的理解ConcurrentHashMap先看下這兩個Map。
HashMap:
HashMap之所以具有很快的訪問速度,因為它是根據鍵的hashCode值來儲存資料,在大多數情況下可以直接定位到它的值,但遍歷的順序是不確定的;HashMap的key可以為null,但是最多隻允許一條記錄的鍵為null,另外允許多條記錄(value)的值為null,key為null的鍵值對永遠都放在一table[0]為頭節點的連結串列中;HashMap為非執行緒安全的,適用於單執行緒環境下,即在任一時刻都可以有多個執行緒同時對HashMap進行讀或寫操作,可以會導致資料的不一致;如果一定要使用HashMap又要保證執行緒安全,則可以用Collection的synchronizedMap方法或ConcurrentHashMap都OK;HashMap是基於雜湊實表實現的,每一個元素是一個key-value對,其內部通過單鏈表結局衝突問題的,當Map容量不足(超過了閥值)時連結串列會自動增長;HashMap實現了Serializable介面,因此其支援序列化,並且實現了Cloneable介面,可以被克隆;
HashMap儲存資料的過程:
HashMap內部維護了一個儲存資料的Entry陣列,HashMap採用連結串列解決衝突,每一個Entry本質上其實是一個單向連結串列;當要新增一個key-value對時,首先會通過hash(key)方法技術hash值,然後通過indexFor(hash,length)求該key-value對的儲存位置,其計算方法是先用Hash&0x7FFFFFFF後,再對length取模,這就保證了每一個key-value對都能存入HashMap,當計算出相同的位置是,由於存入位置是一個連結串列,所以把這個key-value對插入連結串列頭。
如上圖1 所示,最左邊豎列排的多個方格就代表 雜湊表,也叫雜湊陣列,陣列的每個元素都是一個單鏈表的頭節點,連結串列是用來解決衝突的,如果不同的key對映到了陣列的同一位置處,就將其放入單鏈表中;HashMap記憶體儲資料的Entry陣列預設是16,如果沒有對Entry擴容機制的話,當儲存的資料一多,Entry內部的連結串列會很長,這就失去了HashMap的儲存意義了,所以HasnMap內部有自己的擴容機制(當size大於threshold時,對HashMap進行擴容)。 上圖2 是HashMap的連結串列儲存結構,其中E*代表一個Node節點,每個Node節點就對應著一個key-value的mapping對映;每個Node除了儲存了key和value的對映之外,還儲存了它下一Node的引用( Eb儲存了Ebb的引用,而Ebb儲存了Ebbb的引用 );圖2中,每一個連結串列如Ec-->Ecc-->Eccc,這三個節點的key是不相等的。
分析HashMap原始碼會發現其內部有幾個重要的變數如:size用於 記錄HashMap的底層陣列中已用槽的數量、 threshold用於HashMap的閾值判斷,看是否需要調整HashMap的容量( threshold = 容量*載入因子 )、 DEFAULT_LOAD_FACTOR = 0.75f,即載入因子預設0.75。 HashMap 的擴容 是是新建了一個HashMap的底層陣列,通過 呼叫transfer方法,將就HashMap的全部元素新增到新的HashMap中 (此步需要 重新計算元素在新的陣列中的索引位置,導致HashMap 擴容成為一個相當耗時的操作 ),So 我們在用HashMap的時,最好能提前預估下 HashMap中元素的個數,這樣有助於提高HashMap的效能 。
HashTable:
HashMap的功能與HashMap類似,如同樣是基於雜湊表實現的、內部也是通過單鏈表解決衝突問題、容量不足時也會自動增加、同樣實現了Seriablizable介面支援序列化、實現了Cloneable介面可克隆;不同的是HashTable繼承自Dictionary類且為執行緒安全的(任一時間只有一個執行緒可以寫HashTable,但效能不如
ConcurrentHashMap),而HashMap繼承AbstractMap類且非執行緒安全。
如圖3,HashTable只有一把鎖,當一個執行緒訪問HashTable的同步方法時,會將整張table 鎖住,當其他執行緒也想訪問HashTable 同步方法時,就會進入阻塞或輪詢狀態。也就是確保同一時間只有一個執行緒對同步方法的佔用,避免多個執行緒同時對資料的修改,由此確保執行緒的安全性;但HashTable 對get,put,remove 方法都使用了同步操作,這就造成如果兩個執行緒都只想使用get 方法去讀取資料時,因為一個執行緒先到進行了鎖操作,另一個執行緒就不得不等待,這樣必然導致效率低下,而且競爭越激烈,效率越低下。
ConcurrentHashMap(併發且執行緒安全):
ConcourrentHashMap是通過 分段鎖技術 來保證執行緒安全的[case:一個人到酒店開房可直接在前臺辦理入住,三個陌生人到酒店開房登記入住,另外兩個則要先排隊等第一個辦理結束(普通的Map),要是三個人所住的每個樓層都有一個可以辦理入住的前臺就無需排隊了(ConcurrentHashMap)];ConcurrentHashMap主要由Segment(桶)和HashEntry(節點)兩大資料組成,如下圖:
在hashMap 的基礎上,ConcurrentHashMap將資料分為多個segment( 預設16個 ),然後每次操作對一個segment 加鎖,HashTable 在競爭激烈的併發環境下表現出效率低下的原因是由於所有訪問HashTable的執行緒都必須競爭同一把鎖,而ConcurrentHashMap將資料分到多個segment 中( 預設16,也可在申明時自己設定,不過一旦設定就不能更改,擴容都是擴充各個segment 的容量 ),由於每個segment 都有一個自己的鎖,只要多個執行緒訪問的不是同一個segment 就沒有鎖爭用,就沒有堵塞,也就是允許16個執行緒併發的更新並且不存在鎖爭用現象。除此之外,ConcurrentHashMap的segment就類似一個HashTable,但比HashTable又更進一步優化,因為HashTable對get,put,remove方法都會使用鎖,而ConcurrnetHashMap中get方法是不涉及到鎖的;並且 ConcurrentHashMap 內部在併發讀取時,除了key 對應的value為null的情況下會用到鎖,其它的場景下都沒有用到鎖,所以對於讀操作無論多少執行緒併發都是安全高效的。