1. 程式人生 > >Java IO(1)基礎知識——字節與字符

Java IO(1)基礎知識——字節與字符

tle 大端模式 解密 延伸到 ascii spl 一段 end -a

  正所謂怕什麽來什麽,這是知名的“墨菲定律”。Java基礎涵蓋各個方面,敢說Java基礎紮實的人不是剛畢業的學生,就是工作N年的程序員。工作N年的程序員甚至也不敢人人都說Java基礎紮實,甚至精通,往往只是“無他唯熟爾”——熟手而已。

  IO這塊我確實怕,它不難,只有兩個方面:輸入/輸出。但你說它用得多不多,我相信沒有你寫的並發多,並發往往是處處可見,寫著寫著就熟了,而IO卻往往只是某個模塊會涉及,所以也就並不是每個程序員在開發維護自己的模塊時都會用到有關IO的API,而碰到的時候常常陷入窘迫,不知道怎麽寫。

  我想研究IO這塊願意正是想鞏固自己的Java基礎,並希望能成為精通Java的那個人。 本文作為Java IO系列的開篇,首先要介紹幾個概念:字節與字符。原因在於,Java IO的API分為字節流和字符流,了解什麽是字節和字符有助於我們後續IO的理解。

字節(Byte)

  計算機中存儲數據的一個單位。比它小的是位(bit,也叫比特),這是在計算機中數據存儲的最小計量單位,1位存放的是二進制的數據0和1,如下所示。

技術分享圖片

  當然比字節更大的是KB(千字節),1KB = 1024B,再到後面就是MB(兆字節),1MB = 1024KB,GB、TB……

  Java中有用於表示字節的數據類型——byte,再次不妨回顧下有關在Java中有關byte的一些知識。

  前面提到1個字節等於8個二進制位,那麽也就是說1個字節能表示的最大數為[0, 255](閉區間),但是,在Java中byte類型是有符號型的,也就是說在它的最高位是符號位。也就是說除去最高位符號位,還剩下7個二進制位,那麽7個二進制所能表示的最大數為[0, 127],這是正數,加上最高位為1表示負數時,byte型數據類型所能表示的最大數為[-127, 0],也就是說byte型的數據範圍是[-127, 127],真的是這樣嗎?錯了。上面的分析是錯誤的。Java中byte型數據類型的取值範圍為[-128, 127]。

  錯誤的原因是沒有考慮到計算機中數值存儲的編碼問題。所以這又會繼續延伸到原碼、反碼、補碼的概念。

  • 原碼:最高位表示符號位,0表示正數,1表示負數,其余位表示真實數值。前面的錯誤分析正是將計算機中數值存儲定義為了原碼,所以才會得到Java中byte型數據類型的取值範圍是[-127, 127]。
  • 反碼:同樣最高位表示符號位,正數的反碼與原碼相同,而負數的反碼除符號位外,其余位取反。
  • 補碼:同樣最高位表示符號位,正數的反碼與原碼相同,而負數的補碼除符號位外,其余位取反+1。計算機中數值的存儲正是補碼。

  可以通過程序來觀察體會,計算機中數值存儲是通過補碼來存儲的。

System.out.println("正數3的二進制原碼為:11,其補碼與原碼相同為:" + Integer.toBinaryString(3));
System.out.println(
"負數-3的二進制原碼為:111,其補碼與為(int型占4bytes=32bits,只看最後的3位):" + Integer.toBinaryString(-3) + "(不信將最後三位補碼-1取反得到原碼)");

  通過運算結果可以看到,計算機中的數值確實是以補碼方式存儲的。

技術分享圖片

  在了解了原碼、反碼、補碼,以及知道計算機中數值是以補碼方式存儲過後,現在回到Java中byte型數據類型的範圍上來。就算是以補碼方式的存儲,可以確定的是在byte型數組中正數(最高位為0)的範圍是[0, 127]一共128個數,那麽負數(最高位為1)的原碼範圍則是[-127, -0],二進制也就是[11111111, 10000000],註意這是原碼,並且這個地方有點沖突,也就是出現了-0這種表示,這顯然是不合理的或者說0已經在正數中已經包括了,在這裏實際上byte型數組做了一定的處理,也就是把把-0的補碼當做了-128,-0的原碼是10000000,它的反碼則是11111111,它的補碼則還是10000000,反碼+1過後需要進位,但是最高位表示符號位,所以被擠掉了,總之此時負數的範圍則是[-128, 0),byte型數組的範圍則是[-128, 127]。原因是由於-0和0表示的都是0為避免浪費,將-0表示為-128擴大了範圍。

  這一段我們通過字節(Byte)這種表示計算機數據存儲的單位,延伸了Java中byte型數據類型的取值範圍,進而回顧了計算機中數值存儲的編碼方式,應該是能更好的理解字節這個概念。下面將介紹什麽又是字符。

字符(Char)

  字符表示文字和符號。人與人之間通過人類語言進行溝通,計算機通過二進制來進行溝通,當人-計算機-人,中間多了計算機的媒介過後,中間就需要計算機對我們人類的語言符號“編碼”進行傳輸,而計算機-人這個過程又稱之為“解碼”。這有點類似“加密”“解密”的過程。

  在計算機剛出現的時候只能傳輸英文字符,這裏的傳輸包括是顯示和存儲,前面提到要進行編碼存儲,既然要編碼就需要一張表來表示A是什麽,B是什麽,就好比摩斯密碼中的密碼本一樣。那時的“碼表”也就是編碼方式叫做ASCII。

技術分享圖片  

  計算機繼續在發展,需要發展到其他國家和地區,此時就需要對漢字、日文、韓文等進行編碼,但原有的ASCII肯定不能滿足,它的設計是包括了英文和符號,此時就出現了ANSI編碼(也叫做ASCII擴展),這實際上是一種規範,一種本地化的規範編碼,例如在中文操作系統中ANSI代表的就是GB2312編碼(當然也有它的擴展叫做GBK編碼),在日文操作系統中ANSI代表的就是JIS等等。ANSI編碼采用2個字節來表示一個字符(範圍在0x80-0xFF),兩個字節也就是16個二進制位,理論上可以表示216個字符,當然這需要減去0x00-0x79這個範圍,這就能表示很多很多的字符了。GB2312編碼也就才表示了6000多個常用漢字。不過這種編碼方式還是帶來了新的問題,這只是做了本地化,也就是說在GB2312的編碼環境下,無法對日文進行編碼。所以還需要做國際化。

  隨著計算機的繼續發展,國際化越來越重要這當然也就包括編碼方式的改變,為避免ANSI不兼容的狀況,又制定了新的編碼規則——UNICODE。在Java中使用的就是UNICODE編碼,這符合Java跨平臺的特性,這也就解釋了Java中char字符的數據類型占用的是2個字節,因為Java使用UNICODE編碼,而UNICODE是2個字節表示1個字符。UNICODE解決了不同語言在不同平臺不兼容的情況,但也有一個小小的弊端,也就是稍微比前面兩種要占空間,以UNICODE字符集在內存中存儲的字符串我們稱之為為“寬字節字符串”,實際上之後對於字符編碼的工作就集中在了如何縮短字節空間上。 這裏就著重介紹UNICODE編碼,UNICODE編碼之所以略占空間,是因為它使用2個字節來表示1個字符。就算是英文也是使用2個字節。而ACSII和ANSI則使用1個字節表示英文。空間的占用就體現在了這個地方,如下圖所示。

技術分享圖片

  可以看出,這就白白地浪費掉了1個字節的空間,在這裏實際上又可以繼續延伸出有關計算機基礎的知識,也就是在計算機中的數據在內存中的存儲方式是大端模式(Big-Endian,也稱高字節在前),還是小端模式(Little-Endian,也稱低字節在前)。所謂大端模式就是高位字節在內存的低地址端,低位字節在內存的高地址端。而小端模式則是高位字節在內存的高地址端,低位字節在內存的低地址端。上圖所示方式就是大端模式,可以看到低位字節跑到了地址的左邊也就是高地址端。需要清楚的是Java中采用的是大端模式。

  繼續回到編碼上來,由於UNICODE給任意字符都是采用的2個字節表示1個字符,會造成空間浪費,所以在UNICODE編碼基礎上,又出現了可變長編碼的UTF-8編碼,這種編碼方式會靈活地進行字符的空間分配,不同字符所占用的內存空間不相同,在保證兼容性的同時,也保證了空間的最合理使用。

  這就是Java IO的基礎知識,為的是便於後面Java IO中有關字節流和字符流的更好理解。

這是一個能給程序員加buff的公眾號

技術分享圖片

Java IO(1)基礎知識——字節與字符