1. 程式人生 > >【深入理解JVM】:Java物件的建立、記憶體佈局、訪問定位

【深入理解JVM】:Java物件的建立、記憶體佈局、訪問定位

物件的建立

一個簡單的建立物件語句Clazz instance = new Clazz();包含的主要過程包括了類載入檢查、物件分配記憶體、併發處理、記憶體空間初始化、物件設定、執行ini方法等。

主要流程如下:

java物件建立流程

1. 類載入檢查

JVM遇到一條new指令時,首先檢查這個指令的引數是否能在常量池中定位到一個類的符號引用,並且檢查這個符號引用代表的類是否已被載入、解析和初始化過。如果沒有,那必須先執行相應的類的載入過程。

2. 物件分配記憶體

物件所需記憶體的大小在類載入完成後便完全確定(物件記憶體佈局),為物件分配空間的任務等同於把一塊確定大小的記憶體從Java堆中劃分出來。

根據Java堆中是否規整有兩種記憶體的分配方式:(Java堆是否規整由所採用的垃圾收集器是否帶有壓縮整理功能決定)

  • 指標碰撞(Bump the pointer)
    Java堆中的記憶體是規整的,所有用過的記憶體都放在一邊,空閒的記憶體放在另一邊,中間放著一個指標作為分界點的指示器,分配記憶體也就是把指標向空閒空間那邊移動一段與記憶體大小相等的距離。例如:Serial、ParNew等收集器。
  • 空閒列表(Free List)
    Java堆中的記憶體不是規整的,已使用的記憶體和空閒的記憶體相互交錯,就沒有辦法簡單的進行指標碰撞了。虛擬機器必須維護一張列表,記錄哪些記憶體塊是可用的,在分配的時候從列表中找到一塊足夠大的空間劃分給物件例項,並更新列表上的記錄。例如:CMS這種基於Mark-Sweep演算法的收集器。

3. 併發處理

物件建立在虛擬機器中時非常頻繁的行為,即使是僅僅修改一個指標指向的位置,在併發情況下也並不是執行緒安全的,可能出現正在給物件A分配記憶體,指標還沒來得及修改,物件B又同時使用了原來的指標來分配記憶體的情況。

  • 同步
    虛擬機器採用CAS配上失敗重試的方式保證更新操作的原子性
  • 本地執行緒分配緩衝(Thread Local Allocation Buffer, TLAB)
    把記憶體分配的動作按照執行緒劃分為在不同的空間之中進行,即每個執行緒在Java堆中預先分配一小塊記憶體(TLAB)。哪個執行緒要分配記憶體,就在哪個執行緒的TLAB上分配。只有TLAB用完並分配新的TLAB時,才需要同步鎖定。

4. 記憶體空間初始化

虛擬機器將分配到的記憶體空間都初始化為零值(不包括物件頭),如果使用了TLAB,這一工作過程也可以提前至TLAB分配時進行。

記憶體空間初始化保證了物件的例項欄位在Java程式碼中可以不賦初始值就直接使用,程式能訪問到這些欄位的資料型別所對應的零值。

注意:類的成員變數可以不顯示地初始化(Java虛擬機器都會先自動給它初始化為預設值)。方法中的區域性變數如果只負責接收一個表示式的值,可以不初始化,但是參與運算和直接輸出等其它情況的區域性變數需要初始化。

5. 物件設定

虛擬機器對物件進行必要的設定,例如這個物件是哪個類的例項、如何才能找到類的元資料資訊、物件的雜湊碼、物件的GC分代年齡等資訊。這些資訊存放在物件的物件頭之中。

6. 執行init()

在上面的工作都完成之後,從虛擬機器的角度看,一個新的物件已經產生了。但是從Java程式的角度看,物件的建立才剛剛開始init()方法還沒有執行,所有的欄位都還是零。

所以,一般來說(由位元組碼中是否跟隨invokespecial指令所決定),執行new指令之後會接著執行init()方法,把物件按照程式設計師的意願進行初始化,這樣一個真正可用的物件才算產生出來。

物件記憶體佈局

在HotSpot虛擬機器中,物件在記憶體中儲存的佈局可以分為3塊區域:物件頭(Header)、例項資料(Instance Data)和對齊填充(Padding)。

物件頭

HotSpot虛擬機器的物件頭包括兩部分資訊:執行時資料和型別指標。

執行時資料

用於儲存物件自身的執行時資料,如雜湊碼(HashCode)、GC分代年齡、鎖狀態標誌、執行緒持有的鎖、偏向執行緒ID、偏向時間戳等。

物件頭

型別指標

即物件指向它的類元資料的指標,虛擬機器通過這個指標來確定這個物件是哪個類的例項。

如果物件是一個Java陣列,那在物件頭中還必須有一塊用於記錄陣列長度的資料,因為虛擬機器可以通過普通Java物件的元資料資訊確定Java物件的大小,但是從陣列的元資料中無法確定陣列的大小。
(並不是所有的虛擬機器實現都必須在物件資料上保留型別指標,換句話說,查詢物件的元資料並不一定要經過物件本身,可參考物件的訪問定位)

例項資料

例項資料部分是物件真正儲存的有效資訊,也是在程式程式碼中所定義的各種型別的欄位內容。無論是從父類中繼承下來的,還是在子類中定義的,都需要記錄下來。HotSpot虛擬機器預設的分配策略為longs/doubles、ints、shorts/chars、bytes/booleans、oop,從分配策略中可以看出,相同寬度的欄位總是分配到一起。

對齊填充

HotSpot虛擬機器要求物件的起始地址必須是8位元組的整數倍,也就是物件的大小必須是8位元組的整數倍。而物件頭部分正好是8位元組的倍數(1倍或者2倍),因此,當物件例項資料部分沒有對齊的時候,就需要通過對齊填充來補全。

物件訪問定位

Java程式需要通過棧上的引用資料來操作堆上的具體物件。物件的訪問方式取決於虛擬機器實現,目前主流的訪問方式有使用控制代碼和直接指標兩種。

控制代碼,可以理解為指向指標的指標,維護指向物件的指標變化,而物件的控制代碼本身不發生變化;指標,指向物件,代表物件的記憶體地址。

控制代碼
Java堆中劃分出一塊記憶體來作為控制代碼池,引用中儲存物件的控制代碼地址,而控制代碼中包含了物件例項資料與型別資料各自的具體地址資訊。

控制代碼訪問物件

優勢:引用中儲存的是穩定的控制代碼地址,在物件被移動(垃圾收集時移動物件是非常普遍的行為)時只會改變控制代碼中的例項資料指標,而引用本身不需要修改。

直接指標

如果使用直接指標訪問,那麼Java堆物件的佈局中就必須考慮如何放置訪問型別資料的相關資訊,而引用中儲存的直接就是物件地址。

直接記憶體訪問物件

優勢:速度更快,節省了一次指標定位的時間開銷。由於物件的訪問在Java中非常頻繁,因此這類開銷積少成多後也是非常可觀的執行成本。(例如HotSpot)

參考
1、周志明,深入理解Java虛擬機器:JVM高階特性與最佳實踐,機械工業出版社