1. 程式人生 > >Java常量池的大概理解

Java常量池的大概理解

     java常量池是一個經久不衰的話題,也是面試官的最愛,題目花樣百出,小菜早就對常量池有所耳聞,這次好好總結一下。

理論

     小菜先拙劣的表達一下jvm虛擬記憶體分佈:

jvm虛擬記憶體分佈

     程式計數器是jvm執行程式的流水線,存放一些跳轉指令,這個太高深,小菜不懂。

     本地方法棧是jvm呼叫作業系統方法所使用的棧。

     虛擬機器棧是jvm執行java程式碼所使用的棧。

     方法區存放了一些常量、靜態變數、類資訊等,可以理解成class檔案在記憶體中的存放位置。

     虛擬機器堆是jvm執行java程式碼所使用的堆。

     Java中的常量池,實際上分為兩種形態:靜態常量池

執行時常量池

     所謂靜態常量池,即*.class檔案中的常量池,class檔案中的常量池不僅僅包含字串(數字)字面量,還包含類、方法的資訊,佔用class檔案絕大部分空間。

     而執行時常量池,則是jvm虛擬機器在完成類裝載操作後,將class檔案中的常量池載入到記憶體中,並儲存在方法區中,我們常說的常量池,就是指方法區中的執行時常量池。

     接下來我們引用一些網路上流行的常量池例子,然後藉以講解。

複製程式碼
 1 String s1 = "Hello";
 2 String s2 = "Hello";
 3 String s3 = "Hel" + "lo";
 4 String s4 = "Hel" + new
String("lo"); 5 String s5 = new String("Hello"); 6 String s6 = s5.intern(); 7 String s7 = "H"; 8 String s8 = "ello"; 9 String s9 = s7 + s8; 10 11 System.out.println(s1 == s2); // true 12 System.out.println(s1 == s3); // true 13 System.out.println(s1 == s4); // false 14 System.out.println(s1 == s9); //
false 15 System.out.println(s4 == s5); // false 16 System.out.println(s1 == s6); // true
複製程式碼

     首先說明一點,在java 中,直接使用==操作符,比較的是兩個字串的引用地址,並不是比較內容,比較內容請用String.equals()。

     s1 == s2這個非常好理解,s1、s2在賦值時,均使用的字串字面量,說白話點,就是直接把字串寫死,在編譯期間,這種字面量會直接放入class檔案的常量池中,從而實現複用,載入執行時常量池後,s1、s2指向的是同一個記憶體地址,所以相等。

     s1 == s3這個地方有個坑,s3雖然是動態拼接出來的字串,但是所有參與拼接的部分都是已知的字面量,在編譯期間,這種拼接會被優化,編譯器直接幫你拼好,因此String s3 = "Hel" + "lo";在class檔案中被優化成String s3 = "Hello";,所以s1 == s3成立。

     s1 == s4當然不相等,s4雖然也是拼接出來的,但new String("lo")這部分不是已知字面量,是一個不可預料的部分,編譯器不會優化,必須等到執行時才可以確定結果,結合字串不變定理,鬼知道s4被分配到哪去了,所以地址肯定不同。配上一張簡圖理清思路:

java字串不變     s1 == s9也不相等,道理差不多,雖然s7、s8在賦值的時候使用的字串字面量,但是拼接成s9的時候,s7、s8作為兩個變數,都是不可預料的,編譯器畢竟是編譯器,不可能當直譯器用,所以不做優化,等到執行時,s7、s8拼接成的新字串,在堆中地址不確定,不可能與方法區常量池中的s1地址相同。
jvm常量池,堆,棧記憶體分佈

     s4 == s5已經不用解釋了,絕對不相等,二者都在堆中,但地址不同。

     s1 == s6這兩個相等完全歸功於intern方法,s5在堆中,內容為Hello ,intern方法會嘗試將Hello字串新增到常量池中,並返回其在常量池中的地址,因為常量池中已經有了Hello字串,所以intern方法直接返回地址;而s1在編譯期就已經指向常量池了,因此s1和s6指向同一地址,相等。

     至此,我們可以得出三個非常重要的結論:

           必須要關注編譯期的行為,才能更好的理解常量池。

           執行時常量池中的常量,基本來源於各個class檔案中的常量池。

           程式執行時,除非手動向常量池中新增常量(比如呼叫intern方法),否則jvm不會自動新增常量到常量池。

     以上所講僅涉及字串常量池,實際上還有整型常量池、浮點型常量池等等,但都大同小異,只不過數值型別的常量池不可以手動新增常量,程式啟動時常量池中的常量就已經確定了,比如整型常量池中的常量範圍:-128~127,只有這個範圍的數字可以用到常量池。

實踐

     說了這麼多理論,接下來讓我們觸控一下真正的常量池。

     前文提到過,class檔案中存在一個靜態常量池,這個常量池是由編譯器生成的,用來儲存java原始檔中的字面量(本文僅僅關注字面量),假設我們有如下java程式碼:

1 String s = "hi";

     為了方便起見,就這麼簡單,沒錯!將程式碼編譯成class檔案後,用winhex開啟二進位制格式的class檔案。如圖:

 二進位制格式的class檔案

     簡單講解一下class檔案的結構,開頭的4個位元組是class檔案魔數,用來標識這是一個class檔案,說白話點就是檔案頭,既:CA FE BA BE。

     緊接著4個位元組是java的版本號,這裡的版本號是34,因為筆者是用jdk8編譯的,版本號的高低和jdk版本的高低相對應,高版本可以相容低版本,但低版本無法執行高版本。所以,如果哪天讀者想知道別人的class檔案是用什麼jdk版本編譯的,就可以看這4個位元組。

     接下來就是常量池入口,入口處用2個位元組標識常量池常量數量,本例中數值為00 1A,翻譯成十進位制是26,也就是有25個常量,其中第0個常量是特殊值,所以只有25個常量。

     常量池中存放了各種型別的常量,他們都有自己的型別,並且都有自己的儲存規範,本文只關注字串常量,字串常量以01開頭(1個位元組),接著用2個位元組記錄字串長度,然後就是字串實際內容。本例中為:01 00 02 68 69。

     接下來再說說執行時常量池,由於執行時常量池在方法區中,我們可以通過jvm引數:-XX:PermSize、-XX:MaxPermSize來設定方法區大小,從而間接限制常量池大小。

     假設jvm啟動引數為:-XX:PermSize=2M -XX:MaxPermSize=2M,然後執行如下程式碼:

複製程式碼
1 //保持引用,防止自動垃圾回收
2 List<String> list = new ArrayList<String>();
3         
4 int i = 0;
5         
6 while(true){
7     //通過intern方法向常量池中手動新增常量
8     list.add(String.valueOf(i++).intern());
9 }
複製程式碼

     程式立刻會丟擲:Exception in thread "main" java.lang.outOfMemoryError: PermGen space異常。PermGen space正是方法區,足以說明常量池在方法區中。

     在jdk8中,移除了方法區,轉而用Metaspace區域替代,所以我們需要使用新的jvm引數:-XX:MaxMetaspaceSize=2M,依然執行如上程式碼,丟擲:java.lang.OutOfMemoryError: Metaspace異常。同理說明執行時常量池是劃分在Metaspace區域中。具體關於Metaspace區域的知識,請讀者自行搜尋。

     本文所有程式碼均在jdk7、jdk8下測試通過,其他版本jdk可能會略有差異,請讀者自行探索。

     參考文獻:《深入理解java虛擬機器———jvm高階特性與最佳實踐》