1. 程式人生 > >謎題14:轉義字符的潰敗

謎題14:轉義字符的潰敗

沒有 \n java cap rdquo 是你 常量 pan nic

下面的程序使用了兩個Unicode的轉義字符,它們是用其十六進制代碼來表示Unicode字符。那麽,這個程序會打印什麽呢?


public class EscapeRout{

    public static void main(String[] args){

        // \u0022 是雙引號的Unicode轉義字符

        System.out.println("a\u0022.length()+\u0022b".length());

    }

}

對該程序的一種很膚淺的分析會認為它應該打印出26,因為在由兩個雙引號"a\u0022.length()+\u0022b"標識的字符串之間總共有26個字符。

稍微深入一點的分析會認為該程序應該打印16,因為兩個Unicode轉義字符每一個在源文件中都需要用6個字符來表示,但是它們只表示字符串中的一個字符。因此這個字符串應該比它的外表看其來要短10個字符。 如果你運行這個程序,就會發現事情遠不是這麽回事。它打印的既不是26也不是16,而是2。

理解這個謎題的關鍵是要知道:Java對在字符串字面常量中的Unicode轉義字符沒有提供任何特殊處理。編譯器在將程序解析成各種符號之前,先將Unicode轉義字符轉換成為它們所表示的字符[JLS 3.2]。因此,程序中的第一個Unicode轉義字符將作為一個單字符字符串字面常量("a")的結束引號,而第二個Unicode轉義字符將作為另一個單字符字符串字面常量("b")的開始引號。程序打印的是表達式"a".length()+"b".length(),即2。

如果該程序的作者確實希望得到這種行為,那麽下面的語句將要清楚得多:


System.out.println("a".length()+"b".length());

更有可能的情況是該作者希望將兩個雙引號字符置於字符串字面常量的內部。使用Unicode轉義字符你是不能實現這一點的,但是你可以使用轉義字符序列來實現[JLS 3.10.6]。表示一個雙引號的轉義字符序列是一個反斜杠後面緊跟著一個雙引號(\”)。如果將最初的程序中的Unicode轉義字符用轉義字符序列來替換,那麽它將打印出所期望的16:


System.out.println("a\".length()+\"b".length());

許多字符都有相應的轉義字符序列,包括單引號(\‘)、換行(\n)、制表符(\t)和反斜線(\)。你可以在字符字面常量和字符串字面常量中使用轉義字符序列。

實際上,你可以通過使用被稱為八進制轉義字符的特殊類型的轉義字符序列,將任何ASCII字符置於一個字符串字面常量或一個字符字面常量中,但是最好是盡可能地使用普通的轉義字符序列。

普通的轉義字符序列和八進制轉義字符都比Unicode轉義字符要好得多,因為與Unicode轉義字符不同,轉義字符序列是在程序被解析為各種符號之後被處理的。

ASCII是字符集的最小公共特性集,它只有128個字符,但是Unicode有超過65,000個字符。一個Unicode轉義字符可以被用來在只使用ASCII字符的程序中插入一個Unicode字符。一個Unicode轉義字符精確地等價於它所表示的字符。

Unicode轉義字符被設計為用於在程序員需要插入一個不能用源文件字符集表示的字符的情況。它們主要用於將非ASCII字符置於標識符、字符串字面常量、字符字面常量以及註釋中。偶爾地,Unicode轉義字符也被用來在看起來頗為相似的數個字符中明確地標識其中的某一個,從而增加程序的清晰度。

總之,在字符串和字符字面常量中要優先選擇的是轉義字符序列,而不是Unicode轉義字符。Unicode轉義字符可能會因為它們在編譯序列中被處理得過早而引起混亂。不要使用Unicode轉義字符來表示ASCII字符。在字符串和字符字面常量中,應該使用轉義字符序列;對於除這些字面常量之外的情況,應該直接將ASCII字符插入到源文件中。

謎題14:轉義字符的潰敗