1. 程式人生 > >深入理解Java:String

深入理解Java:String

args 學習 局部變量 its 建立 floating 分布式 生存 源碼

在講解String之前,我們先了解一下Java的內存結構。

一、Java內存模型

按照官方的說法:Java 虛擬機具有一個堆,堆是運行時數據區域,所有類實例和數組的內存均從此處分配。

JVM主要管理兩種類型內存:堆和非堆,堆內存(Heap Memory)是在 Java 虛擬機啟動時創建,非堆內存(Non-heap Memory)是在JVM堆之外的內存。

簡單來說,非堆包含方法區、JVM內部處理或優化所需的內存(如 JITCompiler,Just-in-time Compiler,即時編譯後的代碼緩存)、每個類結構(如運行時常數池、字段和方法數據)以及方法和構造方法的代碼。

Java的堆是一個運行時數據區,類的(對象從中分配空間。這些對象通過new、newarray、 anewarray和multianewarray等指令建立,它們不需要程序代碼來顯式的釋放。堆是由垃圾回收來負責的,堆的優勢是可以動態地分配內存大小,生存期也不必事先告訴編譯器,因為它是在運行時動態分配內存的,Java的垃圾收集器會自動收走這些不再使用的數據。但缺點是,由於要在運行時動態分配內存,存取速度較慢。 

  棧的優勢是,存取速度比堆要快,僅次於寄存器,棧數據可以共享。但缺點是,存在棧中的數據大小與生存期必須是確定的,缺乏靈活性。棧中主要存放一些基本類型的變量數據(int, short, long, byte, float, double, boolean, char)和對象句柄(引用)。

虛擬機必須為每個被裝載的類型維護一個常量池。常量池就是該類型所用到常量的一個有序集合,包括直接常量(string,integer和 floating point常量)和對其他類型,字段和方法的符號引用。 

  對於String常量,它的值是在常量池中的。而JVM中的常量池在內存當中是以表的形式存在的, 對於String類型,有一張固定長度的CONSTANT_String_info表用來存儲文字字符串值,註意:該表只存儲文字字符串值,不存儲符號引用。說到這裏,對常量池中的字符串值的存儲位置應該有一個比較明了的理解了。在程序執行的時候,常量池會儲存在Method Area,而不是堆中。常量池中保存著很多String對象; 並且可以被共享使用,因此它提高了效率

具體關於JVM和內存等知識請參考:

JVM 基礎知識

Java 內存模型及GC原理

二、案例解析

復制代碼
復制代碼
public static void main(String[] args) {
/**

  • 情景一:字符串池
  • JAVA虛擬機(JVM)中存在著一個字符串池,其中保存著很多String對象;
  • 並且可以被共享使用,因此它提高了效率。
  • 由於String類是final的,它的值一經創建就不可改變。
  • 字符串池由String類維護,我們可以調用intern()方法來訪問字符串池。
    */
    String s1 = "abc";
    //↑ 在字符串池創建了一個對象
    String s2 = "abc";
    //↑ 字符串pool已經存在對象“abc”(共享),所以創建0個對象,累計創建一個對象
    System.out.println("s1 == s2 : "+(s1==s2));
    //↑ true 指向同一個對象,
    System.out.println("s1.equals(s2) : " + (s1.equals(s2)));
    //↑ true 值相等
    //↑------------------------------------------------------over
    /**
  • 情景二:關於new String("")
  •  */  
    String s3 = new String("abc");  
    //↑ 創建了兩個對象,一個存放在字符串池中,一個存在與堆區中;  
    //↑ 還有一個對象引用s3存放在棧中  
    String s4 = new String("abc");  
    //↑ 字符串池中已經存在“abc”對象,所以只在堆中創建了一個對象  
    System.out.println("s3 == s4 : "+(s3==s4));  
    //↑false   s3和s4棧區的地址不同,指向堆區的不同地址;  
    System.out.println("s3.equals(s4) : "+(s3.equals(s4)));  
    //↑true  s3和s4的值相同  
    System.out.println("s1 == s3 : "+(s1==s3));  
    //↑false 存放的地區多不同,一個棧區,一個堆區  
    System.out.println("s1.equals(s3) : "+(s1.equals(s3)));  
    //↑true  值相同  
    //↑------------------------------------------------------over  
    /** 
  • 情景三:
  • 由於常量的值在編譯的時候就被確定(優化)了。
  • 在這裏,"ab"和"cd"都是常量,因此變量str3的值在編譯時就可以確定。
  • 這行代碼編譯後的效果等同於: String str3 = "abcd";
    */
    String str1 = "ab" + "cd"; //1個對象
    String str11 = "abcd";
    System.out.println("str1 = str11 : "+ (str1 == str11));
    //↑------------------------------------------------------over
    /**
  • 情景四:
  • 局部變量str2,str3存儲的是存儲兩個拘留字符串對象(intern字符串對象)的地址。
  • 第三行代碼原理(str2+str3):
  • 運行期JVM首先會在堆中創建一個StringBuilder類,
  • 同時用str2指向的拘留字符串對象完成初始化,
  • 然後調用append方法完成對str3所指向的拘留字符串的合並,
  • 接著調用StringBuilder的toString()方法在堆中創建一個String對象,
  • 最後將剛生成的String對象的堆地址存放在局部變量str3中。
  • 而str5存儲的是字符串池中"abcd"所對應的拘留字符串對象的地址。
  • str4與str5地址當然不一樣了。
  • 內存中實際上有五個字符串對象:
  • 三個拘留字符串對象、一個String對象和一個StringBuilder對象。
    */
    String str2 = "ab"; //1個對象
    String str3 = "cd"; //1個對象
    String str4 = str2+str3;
    String str5 = "abcd";
    System.out.println("str4 = str5 : " + (str4==str5)); // false
    //↑------------------------------------------------------over
    /**
  • 情景五:
  • JAVA編譯器對string + 基本類型/常量 是當成常量表達式直接求值來優化的。
  • 運行期的兩個string相加,會產生新的對象的,存儲在堆(heap)中
    */
    String str6 = "b";
    String str7 = "a" + str6;
    String str67 = "ab";
    System.out.println("str7 = str67 : "+ (str7 == str67));
    //↑str6為變量,在運行期才會被解析。
    final String str8 = "b";
    String str9 = "a" + str8;
    String str89 = "ab";
    System.out.println("str9 = str89 : "+ (str9 == str89));
    //↑str8為常量變量,編譯期會被優化
    //↑------------------------------------------------------over
    }
    復制代碼
    復制代碼

總結:

1.String類初始化後是不可變的(immutable)

這一說又要說很多,大家只要知道String的實例一旦生成就不會再改變了,比如說:String str=”kv”+”ill”+” “+”ans”; 就是有4個字符串常量,首先”kv”和”ill”生成了”kvill”存在內存中,然後”kvill”又和” ” 生成 “kvill “存在內存中,最後又和生成了”kvill ans”;並把這個字符串的地址賦給了str,就是因為String的”不可變”產生了很多臨時變量,這也就是為什麽建議用StringBuffer的原 因了,因為StringBuffer是可改變的。

  下面是一些String相關的常見問題:

  String中的final用法和理解
  final StringBuffer a = new StringBuffer("111");
  final StringBuffer b = new StringBuffer("222");
  a=b;//此句編譯不通過 final StringBuffer a = new StringBuffer("111");
  a.append("222");// 編譯通過

  可見,final只對引用的"值"(即內存地址)有效,它迫使引用只能指向初始指向的那個對象,改變它的指向會導致編譯期錯誤。至於它所指向的對象的變化,final是不負責的。

2.代碼中的字符串常量在編譯的過程中收集並放在class文件的常量區中,如"123"、"123"+"456"等,含有變量的表達式不會收錄,如"123"+a。

3.JVM在加載類的時候,根據常量區中的字符串生成常量池,每個字符序列如"123"會生成一個實例放在常量池裏,這個實例是不在堆裏的,也不會被GC,這個實例的value屬性從源碼的構造函數看應該是用new創建數組置入123的,所以按我的理解此時value存放的字符數組地址是在堆裏,如果有誤的話歡迎大家指正。

4.使用String不一定創建對象

在執行到雙引號包含字符串的語句時,如String a = "123",JVM會先到常量池裏查找,如果有的話返回常量池裏的這個實例的引用,否則的話創建一個新實例並置入常量池裏。如果是 String a = "123" + b (假設b是"456"),前半部分"123"還是走常量池的路線,但是這個+操作符其實是轉換成[SringBuffer].Appad()來實現的,所以最終a得到是一個新的實例引用,而且a的value存放的是一個新申請的字符數組內存空間的地址(存放著"123456"),而此時"123456"在常量池中是未必存在的。

要註意: 我們在使用諸如String str = "abc";的格式定義類時,總是想當然地認為,創建了String類的對象str。擔心陷阱!對象可能並沒有被創建!而可能只是指向一個先前已經創建的對象。只有通過new()方法才能保證每次都創建一個新的對象

5.使用new String,一定創建對象

在執行String a = new String("123")的時候,首先走常量池的路線取到一個實例的引用,然後在堆上創建一個新的String實例,走以下構造函數給value屬性賦值,然後把實例引用賦值給a:

復制代碼
復制代碼
public String(String original) {
int size = original.count;
char[] originalValue = original.value;
char[] v;
if (originalValue.length > size) {
// The array representing the String is bigger than the new
// String itself. Perhaps this constructor is being called
// in order to trim the baggage, so make a copy of the array.
int off = original.offset;
v = Arrays.copyOfRange(originalValue, off, off+size);
} else {
// The array representing the String is the same
// size as the String, so no point in making a copy.
v = originalValue;
}
this.offset = 0;
this.count = size;
this.value = v;
}
復制代碼
復制代碼
從中我們可以看到,雖然是新創建了一個String的實例,但是value是等於常量池中的實例的value,即是說沒有new一個新的字符數組來存放"123"。

如果是String a = new String("123"+b)的情況,首先看回第4點,"123"+b得到一個實例後,再按上面的構造函數執行。

6.String.intern()

String對象的實例調用intern方法後,可以讓JVM檢查常量池,如果沒有實例的value屬性對應的字符串序列比如"123"(註意是檢查字符串序列而不是檢查實例本身),就將本實例放入常量池,如果有當前實例的value屬性對應的字符串序列"123"在常量池中存在,則返回常量池中"123"對應的實例的引用而不是當前實例的引用,即使當前實例的value也是"123"。

public native String intern();
存在於.class文件中的常量池,在運行期被JVM裝載,並且可以擴充。String的 intern()方法就是擴充常量池的 一個方法;當一個String實例str調用intern()方法時,Java 查找常量池中 是否有相同Unicode的字符串常量,如果有,則返回其的引用,如果沒有,則在常 量池中增加一個Unicode等於str的字符串並返回它的引用;看示例就清楚了

復制代碼
復制代碼
public static void main(String[] args) {
String s0 = "kvill";
String s1 = new String("kvill");
String s2 = new String("kvill");
System.out.println( s0 == s1 ); //false
System.out.println( "**" );
s1.intern(); //雖然執行了s1.intern(),但它的返回值沒有賦給s1
s2 = s2.intern(); //把常量池中"kvill"的引用賦給s2
System.out.println( s0 == s1); //flase
System.out.println( s0 == s1.intern() ); //true//說明s1.intern()返回的是常量池中"kvill"的引用
System.out.println( s0 == s2 ); //true
}
復制代碼
復制代碼
最後我再破除一個錯誤的理解:有人說,“使用 String.intern() 方法則可以將一個 String 類的保存到一個全局 String 表中 ,如果具有相同值的 Unicode 字符串已經在這個表中,那麽該方法返回表中已有字符串的地址,如果在表中沒有相同值的字符串,則將自己的地址註冊到表中”如果我把他說的這個全局的 String 表理解為常量池的話,他的最後一句話,”如果在表中沒有相同值的字符串,則將自己的地址註冊到表中”是錯的:

復制代碼
復制代碼
public static void main(String[] args) {
String s1 = new String("kvill");
String s2 = s1.intern();
System.out.println( s1 == s1.intern() ); //false
System.out.println( s1 + " " + s2 ); //kvill kvill
System.out.println( s2 == s1.intern() ); //true
}
復制代碼
復制代碼
在這個類中我們沒有聲名一個”kvill”常量,所以常量池中一開始是沒有”kvill”的,當我們調用s1.intern()後就在常量池中新添加了一 個”kvill”常量,原來的不在常量池中的”kvill”仍然存在,也就不是“將自己的地址註冊到常量池中”了。

  s1==s1.intern() 為false說明原來的”kvill”仍然存在;s2現在為常量池中”kvill”的地址,所以有s2==s1.intern()為true。

StringBuffer與StringBuilder的區別,它們的應用場景是什麽?

jdk的實現中StringBuffer與StringBuilder都繼承自AbstractStringBuilder,對於多線程的安全與非安全看到StringBuffer中方法前面的一堆synchronized就大概了解了。
這裏隨便講講AbstractStringBuilder的實現原理:我們知道使用StringBuffer等無非就是為了提高java中字符串連接的效率,因為直接使用+進行字符串連接的話,jvm會創建多個String對象,因此造成一定的開銷。AbstractStringBuilder中采用一個char數組來保存需要append的字符串,char數組有一個初始大小,當append的字符串長度超過當前char數組容量時,則對char數組進行動態擴展,也即重新申請一段更大的內存空間,然後將當前char數組拷貝到新的位置,因為重新分配內存並拷貝的開銷比較大,所以每次重新申請內存空間都是采用申請大於當前需要的內存空間的方式,這裏是2倍


StringBuffer 始於 JDK 1.0
StringBuilder 始於 JDK 1.5

從 JDK 1.5 開始,帶有字符串變量的連接操作(+),JVM 內部采用的是 
StringBuilder 來實現的,而之前這個操作是采用 StringBuffer 實現的。

我們通過一個簡單的程序來看其執行的流程:
復制代碼
復制代碼
public class Buffer {
public static void main(String[] args) {
String s1 = "aaaaa";
String s2 = "bbbbb";
String r = null;
int i = 3694;
r = s1 + i + s2;

        for(int j=0;i<10;j++){  
            r+="23124";  
        }  
 }  

}
復制代碼
復制代碼
使用命令javap -c Buffer查看其字節碼實現:

將清單1和清單2對應起來看,清單2的字節碼中ldc指令即從常量池中加載“aaaaa”字符串到棧頂,istore_1將“aaaaa”存到變量1中,後面的一樣,sipush是將一個短整型常量值(-32768~32767)推送至棧頂,這裏是常量“3694”,更多的Java指令集請查看另一篇文章“Java指令集”。

讓我們直接看到13,13~17是new了一個StringBuffer對象並調用其初始化方法,20~21則是先通過aload_1將變量1壓到棧頂,前面說過變量1放的就是字符串常量“aaaaa”,接著通過指令invokevirtual調用StringBuffer的append方法將“aaaaa”拼接起來,後續的24~30同理。最後在33調用StringBuffer的toString函數獲得String結果並通過astore存到變量3中。

看到這裏可能有人會說,“既然JVM內部采用了StringBuffer來連接字符串了,那麽我們自己就不用用StringBuffer,直接用”+“就行了吧!“。是麽?當然不是了。俗話說”存在既有它的理由”,讓我們繼續看後面的循環對應的字節碼。

37~42都是進入for循環前的一些準備工作,37,38是將j置為1。44這裏通過if_icmpge將j與10進行比較,如果j大於10則直接跳轉到73,也即return語句退出函數;否則進入循環,也即47~66的字節碼。這裏我們只需看47到51就知道為什麽我們要在代碼中自己使用StringBuffer來處理字符串的連接了,因為每次執行“+”操作時jvm都要new一個StringBuffer對象來處理字符串的連接,這在涉及很多的字符串連接操作時開銷會很大。 歡迎工作一到五年的Java工程師朋友們加入Java群: 891219277
群內提供免費的Java架構學習資料(裏面有高可用、高並發、高性能及分布式、Jvm性能調優、Spring源碼,MyBatis,Netty,Redis,Kafka,Mysql,Zookeeper,Tomcat,Docker,Dubbo,Nginx等多個知識點的架構資料)合理利用自己每一分每一秒的時間來學習提升自己,不要再用"沒有時間“來掩飾自己思想上的懶惰!趁年輕,使勁拼,給未來的自己一個交代!

深入理解Java:String