1. 程式人生 > >浮點數在記憶體中的表示

浮點數在記憶體中的表示

根據國際標準IEEE 754,任意一個二進位制浮點數V可以表示成下面的形式:

(1)(-1)^s表示符號位,當s=0,V為正數;當s=1,V為負數。

(2)2^E表示指數位。

(3)M表示有效數字,大於等於1,小於2。

IEEE 754規定,對於32位的浮點數,最高的1位是符號位s,接著的8位是指數E,剩下的23位為有效數字M。

對於64位的浮點數,最高的1位是符號位S,接著的11位是指數E,剩下的52位為有效數字M。

舉例來說,十進位制的5.0,寫成二進位制是101.0,相當於1.01×2^2。那麼,按照上面的格式,可以得出s=0,M=1.01,E=2。

十進位制的-5.0,寫成二進位制是-101.0,相當於-1.01×2^2。那麼,s=1,M=1.01,E=2。

IEEE 754對有效數字M和指數E,還有一些特別規定。

1.對有效數字M的規定:

前面說過,1≤M<2,也就是說,M可以寫成1.xxxxxx的形式,其中xxxxxx表示小數部分。IEEE 754規定,在計算機內部儲存M時,預設這個數的第一位總是1,因此可以被捨去,只儲存後面的xxxxxx部分。比如儲存1.01的時候,只儲存01,等到讀取的時候,再把第一位的1加上去。這樣做的目的,是節省1位有效數字。以32位浮點數為例,留給M只有23位,將第一位的1捨去以後,等於可以儲存24位有效數字。

2.至於指數E,情況就比較複雜。

首先,E為一個無符號整數(unsigned int)。這意味著,如果E為8位,它的取值範圍為0~255;如果E為11位,它的取值範圍為0~2047。但是,我們知道,科學計數法中的E是可以出現負數的,所以IEEE 754規定,E的真實值必須再減去一箇中間數,對於8位的E,這個中間數是127;對於11位的E,這個中間數是1023。

 比如,1.011^10的E是10,所以儲存成32位浮點數時,必須儲存成10+127=137,即10001001。

然後,指數E還可以再分成三種情況:

(1)E不全為0或不全為1。這時,浮點數就採用上面的規則表示,即指數E的計算值減去127(或1023),得到真實值,再將有效數字M前加上第一位的1。

(2)E全為0。這時,浮點數的指數E等於1-127(或者1-1023),有效數字M不再加上第一位的1,而是還原為0.xxxxxx的小數。這樣做是為了表示±0,以及接近於0的很小的數字。

(3)E全為1。這時,如果有效數字M全為0,表示±無窮大(正負取決於符號位s);如果有效數字M不全為0,表示這個數不是一個數(NaN

)。

實戰答疑1:

c語言: 

#include <stdio.h>

  void main(void){
       
        //問題1:整型轉浮點型
    int num=9; /* num是整型變數,設為9 */

    float* pFloat=&num; /* pFloat表示num的記憶體地址,但是設為浮點數 */

    printf("num的值為:%d\n",num); /* 顯示num的整型值 */ //結果:9

    printf("*pFloat的值為:%f\n",*pFloat); /* 顯示num的浮點值 */ //結果:0.000000

        //問題2:浮點型轉整型
    *pFloat=9.0; /* 將num的值改為浮點數 */

    printf("num的值為:%d\n",num); /* 顯示num的整型值 */ //結果:1091567616

    printf("*pFloat的值為:%f\n",*pFloat); /* 顯示num的浮點值 */  //結果:9.000000
       getchar();

  }

執行結果: 

num的值為:9
*pFloat的值為:0.000000
num的值為:1091567616
*pFloat的值為:9.000000

問題1:整型轉浮點型,為什麼輸出的浮點型結果是0.000000?

(為什麼00000000 00000000 00000000 00001001還原成浮點數,就成了0.000000?)

型別為int,值為9(二進位制寫法為1001)。普通的32位計算機,用4個位元組表示int變數,所以9就被儲存為00000000 00000000 00000000 00001001

首先,將00000000 00000000 00000000 00001001拆分,得到第一位符號位s=0,後面8位的指數E=00000000,最後23位的有效數字M=000 0000 0000 0000 0000 1001。

由於指數E全為0,所以符合上一節的第二種情況。因此,浮點數V就寫成:

V=(-1)^0×0.000 0000 0000 0000 0000 1001×2^(-126)=1.001×2^(-146)

顯然,V是一個很小的接近於0的正數,所以用十進位制小數表示就是0.000000。

問題2:浮點型轉整型,為什麼輸出的整型結果是1091567616?

請問浮點數9.0,如何用二進位制表示?還原成十進位制又是多少?

首先,浮點數9.0等於二進位制的1001.0,即1.001×2^3。

那麼,第一位的符號位s=0,指數E等於3+127=130,即10000010,有效數字M等於001後面再加20個0,湊滿23位。

所以,寫成二進位制形式,應該是s+E+M,即0   10000010   001 0000 0000 0000 0000 0000

這個32位的二進位制數,還原成十進位制,正是1091567616。

實戰答疑2:

c++中,型別轉換關鍵字:reinterpret_cast

reinterpret_cast屬於比較底層的型別轉換,它會把變數中儲存的二進位制數字原封不動的拷貝到另一個變數中

#include<iostream>
using namespace std;

int main() {
	//0x00 00 00 09
	float f = 9;
	//0x40 24 00 00 00 00 00 00 00
	int  i = f;//不是簡簡單單的二進位制拷貝
	cout <<"f = " << f << endl;//9
	cout <<"i = " << i << endl;//9

	cout << "--------------" << endl;

	//0x 41 10 00 00
	float f2 = 9.0;
	cout << "float大小:"<< sizeof(f2) << endl;
	//0x 41 10 00 00
	int i2 = reinterpret_cast<int&>(f2);
	cout << "int大小:" <<sizeof(i2) << endl;
	cout << "f2 = " << f2 << endl;//9
	cout << "i2 = " << i2 << endl;// 1091567616

	cout << "--------------" << endl;
	//00 00 00 00 00 00 22 40
	double d = 9.0;
	cout << "double大小:" << sizeof(d) << endl;
	//00 00 00 00(因為int大小為4個位元組,double大小為8個位元組,會丟失00 00 22 40)
	int i3 = reinterpret_cast<int&>(d);
	cout << "int大小:" << sizeof(i3) << endl;
	cout << "d = " << d << endl;//9
	cout << "i3 = " << i3 << endl;// 0
	getchar();
}

輸出結果:

f = 9
i = 9
--------------
float大小:4
int大小:4
f2 = 9
i2 = 1091567616
--------------
double大小:8
int大小:4
d = 9
i3 = 0

分析和實戰答疑1的問題2一樣

總結:reinterpret_cast的原理其實和實戰答疑1的問題2是一樣的性質.