組合語言學習筆記(十二)-浮點指令

阿新 • • 發佈：2019-02-11

浮點數如何儲存

浮點數的運算完全不同於整數，從暫存器到指令，都有一套獨特的處理流程，浮點單元也稱作x87 FPU。

現在看浮點數的表示方式，我們所知道的，計算機使用二進位制儲存資料，所表示的數字都具有確定性，那是如何表示浮點這種具有近似效果的資料呢，答案是通過科學計數，科學計數由符號，尾數和指數表示，這三部分都是一個整數值，具體來看一下IEEE二進位制浮點標準：

格式	說明
單精度	32位：符號佔1位，指數佔8位，尾數中的小數部分佔23位
雙精度	64位：符號佔1位，指數佔11位，尾數中的小數部分佔52位
擴充套件精度	80位：符號佔1位，指數佔16位，尾數中的小數部分佔63位

以單精度為例，在記憶體中的儲存格式如下（左邊為高位）：

	| 1位符號 | 8位指數 | 23位尾數 |

其中符號位1表示負數，0表示正數，這與整數形式的符號位意義相同；科學計數法表示形式如 m * (b ^ e)，m為尾數，b為基數，e是指數，再二進位制中，基數毫無疑問是2，對單精度，指數為中間8位二進位制表示的數字，其中的尾數是形如1.1101 小數點後面的整數值。

關於指數，由於需要表示正負兩種資料，IEEE標準規定單精度指數以127為分割線，實際儲存的資料是指數加127所得結果，127為高位為零，後7位為1所得，其他雙精度也以此方式計算。

為了解釋記憶體中浮點數的儲存方式，舉一個浮點數的例子說明：

float test = 123.456;

int main()
{
    return 0;
}

例子再簡單不過了，僅僅定義了一個全域性的float型別，我們通過gcc -S test.c來生成彙編，看看123.456是如何儲存的，開啟反彙編後的檔案，看到符號_test後定義的數字是 1123477881（這裡gcc定義成了long型別，不過沒有關係，因為都是四位元組數字，具體的型別還得看如何使用）。可以使用計算器把十進位制數字轉化為二進位制：0 10000101 11101101110100101111001，這裡根據單精度的劃分方式把32位劃分成三部分，符號位為0，為正數，指數為 133，減去127得6，尾數加上1.，形式為1.11101101110100101111001，擴大2 ^ 23次方為111101101110100101111001

，十進位制16181625，後除以

2
 ^ (23 – 6) = 131072

，結果為123.45600128173828125，與我們所定義的浮點數正好相符。

浮點暫存器

這裡介紹了浮點數的二進位制表示，前面說過浮點單元計算使用獨立的暫存器，在暫存器那篇也稍有提及，這裡詳細說明一下浮點單元的暫存器設施。

FPU有 8 個獨立定址的80位暫存器，名稱分別為r0, r1, …, r7，他們以堆疊形式組織在一起，統稱為暫存器棧，編寫浮點指令時棧頂也寫為st(0)，最後一個暫存器寫作st(7)。

FPU另有3個16位的暫存器，分別為控制暫存器、狀態暫存器、標記暫存器，現一一詳細說明此三個暫存器的作用：

狀態暫存器，為使用者記錄浮點計算過程中的狀態，其中各位的含義如下：

0 —— 非法操作異常
1 —— 非規格化運算元異常
2 —— 除數為0異常
3 —— 溢位標誌異常
4 —— 下溢標誌異常
5 —— 精度異常標誌
6 —— 堆疊錯誤
7 —— 錯誤彙總狀態
8 —— 條件程式碼位0（c0）
9 —— 條件程式碼位1（c1）
10 —— 條件程式碼位2 （c2）
11-13 —— 堆疊頂指標
14 —— 條件程式碼位3（c3）
15 —— 繁忙標誌

其中讀取狀態暫存器內容可使用 fstsw %ax

控制暫存器的位含義如下：

0 —— 非法操作異常掩碼 
1 —— 非法格式化異常掩碼 
2 —— 除數為0異常掩碼 
3 —— 溢位異常掩碼 
4 —— 下溢異常掩碼 
5 —— 精度異常亞曼 
6-7 —— 保留 
8-9 —— 精度控制（00單精度，01未使用，10雙精度，11擴充套件精度） 
10-11 —— 舍入控制（00舍入到最近，01向下舍入，10向上舍入，11向0舍入） 
12 —— 無窮大控制 
13–15 —— 保留

其中讀取控制暫存器和設定控制暫存器的指令如下：

# 載入到記憶體
fstcw control
# 載入到控制器
fldcw control

最後的標誌暫存器最為簡單，分別0-15位分別標誌r0-r7共8個暫存器，每個暫存器佔2位，這兩位的含義如下：

11 —— 合法擴充套件精度 
01 —— 零 
10 —— 特殊浮點 
11 —— 無內容

另外對浮點暫存器的一些控制指令如下：

# 初始化fpu，控制、狀態設為預設值，但不改變fpu的資料
finit

# 恢復儲存環境
fldenv buffer
fstenv buffer

#清空浮點異常
fnclex

#fpu狀態儲存
fssave

fstenv 儲存控制暫存器、狀態暫存器、標記暫存器、FPU指令指標偏移量、FPU資料指標，FPU最後執行的操作碼到記憶體中。

浮點數指令

接下來將要詳細說明其計算過程，要計算資料首先得看如何從記憶體中載入資料到暫存器，同時把結果從暫存器取出到記憶體，除了載入記憶體中的浮點資料指令，另外還有一些常量的載入，現列舉如下：

指令	說明
finit	初始化控制和狀態暫存器，不改變fpu資料暫存器
fstcw control	將控制暫存器內容放到記憶體control處
fstsw status	將狀態暫存器內容放到記憶體status處
flds value	載入記憶體中的單精浮點到fpu暫存器堆疊
fldl value	載入記憶體中的雙精浮點到fpu暫存器堆疊
fldt value	載入記憶體中的擴充套件精度點到fpu暫存器堆疊
fld %st(i)	將%st(i)暫存器資料壓入fpu暫存器堆疊
fsts value	單精度資料儲存到value，不出棧
fstl value	雙精度資料儲存到value，不出棧
fstt value	擴充套件精度資料儲存到value，不出棧
fstps value	單精度資料儲存到value，出棧
fstpl value	雙精度資料儲存到value，出棧
fstpt value	擴充套件精度資料儲存到value，出棧
fxch %st(i)	交換%st(0)和%st(i)
fld1	把 +1.0 壓入 FPU 堆疊中
fldl2t	把 10 的對數(底數2)壓入 FPU 堆疊中
fldl2e	把 e 的對數(底數2)壓入 FPU 堆疊中
fldpi	把 pi 的值壓入 FPU 堆疊中
fldlg2	把 2 的對數(底數10)壓入 FPU 堆疊中
fldln2	把 2 的對數(底數e) 壓入堆疊中
fldz	把 +0.0 壓入壓入堆疊中

以上指令雖多，但是還是很有規律，字首f表示fpu操作，ld載入，st儲存設定，p字尾彈出堆疊，s、l、t字尾表示單精度，雙精度，擴充套件精度，c字尾表示控制暫存器，s字尾表示狀態暫存器。當然這僅僅是對AT&T語法而言，對MASM語法沒有s，l，t之分，需要使用type ptr來指明精度，即記憶體大小。

學會靈活的載入彈出資料堆疊後，接下來就要看一些基本的計算：

fadd    浮點加法
fdiv    浮點除法
fdivr   反向浮點除法
fmul    浮點乘法
fsub    浮點減法
fsubr   反向浮點減法

對於以上的每種指令，有幾種指令格式，以fadd為例，列舉如下：

# 內從中的32位或者64位值和%st(0)相加
fadd source

# 把%st(x)和%st(0)相加，結果存入%st(0)
fadd %st(x), %st(0)

# 把%st(0)和%st(x)相加，結果存入%st(x)
fadd %st(0), %st(x)

# 把%st(0)和%st(x)相加，結果存入%st(x)，彈出%st(0)
faddp %st(0), %st(x)

# 把%st(0)和%st(1)相加，結果存入%st(1)，彈出%st(0)
faddp

# 把16位或32位整數與%st(0)相加，結果存入%st(0)
fiadd source

這僅僅是對AT&T語法而言，對MASM源運算元與目的運算元相反！另外，對AT&T，與記憶體相關指令可加s、l指定記憶體精度。其中反向加法和反向除法是計算過程中目的與源反向計算。

浮點計算例子

接下來舉一個AT&T語法的例子，來計算表示式的值 ( 12.34 * 13 ) + 334.75 ) / 17.8 ：

# ( 12.34 * 13 ) + 334.75 ) / 17.8
.section .data
    values: .float 12.34, 13, 334.75, 17.8
    result: .double 0.0

    outstring: .asciz "result is %f\n"
.section .text
.globl _main
_main:
    leal values, %ebx
    flds 12(%ebx)
    flds 8(%ebx)
    flds 4(%ebx)
    flds (%ebx)

    fmulp
    faddp
    fdivp %st(0), %st(1)

    fstl result

    leal result, %ebx
    pushl 4(%ebx)
    pushl (%ebx)
    pushl $outstring
    call _printf
end:
    pushl $0
    call _exit

前四個flds載入所有的資料到暫存器堆疊，可以單步執行並是用gdb的print $st0列印堆疊暫存器的值，可以看到為什麼是堆疊暫存器。需要說明的是由於printf的%f是double型別的輸出，所以最後要把一個8位元組浮點放到棧中傳遞，最終結果為27.818541，可以看到與計算器計算的結果近似相等。

浮點高階運算

除了基本的浮點計算，x87還提供了一些諸如餘弦運算等高階計算功能：

指令	說明
f2xm1	計算2的乘方（次數為st0中的值，減去1
fabs	計算st0中的絕對值
fchs	改變st0中的值的符號
fcos	計算st0中的值的餘弦
fpatan	計算st0中的值的部分反正切
fprem	計算st0中的值除以st1的值的部分餘數
fprem1	計算st0中的值除以st1的值的IEEE部分餘弦
fptan	計算st0中的值的部分正切
frndint	把st0中的值舍入到最近的整數
fscale	計算st0乘以2的st1次方
fsin	計算st0中的值的正弦
fsincos	計算st0中的值的正弦和餘弦
fsqrt	計算st0中的值的平方根
fyl2x	計算st1*log st0 以2為底
fyl2xp1	計算st1*log (st0 + 1) 以2為底

下面來看一下浮點條件分支，浮點數的比較不像整數，可以容易的使用cmp指令比較，判斷eflags的值，關於浮點數比較，fpu提供獨立的比較機制和指令，現對這組比較指令進行說明：

指令	說明
fcom	比較st0和st1暫存器的值
fcom %st(x)	比較st0和stx暫存器的值
fcom source	比較st0和32/64位記憶體值
fcomp	比較st0和st1暫存器的值，並彈出堆疊
fcomp %st(x)	比較st0和stx暫存器的值，並彈出堆疊
fcomp source	比較st0和32/64位記憶體值，並彈出堆疊
fcompp	比較st0和st1暫存器的值，並兩次彈出堆疊
ftst	比較st0和0.0

浮點數比較的結果放入狀態暫存器的c0，c2，c3條件程式碼位中，其值如下：

結果	c3	c0
st0 > source	0	0
st0 < source	0	1
st0 = source	1	0

如此倘若直接判斷c0，c2，c3的值比較繁瑣，所以可以使用一些技巧，首先使用fstsw指令獲得fpu狀態暫存器的值並存入ax，再使用sahf指令把 ah暫存器中的值載入到eflags暫存器中，sahf指令把ah暫存器的第0、2、4、6、7分別傳送至進位、奇偶、對準、零、符號位，不影響其他標志，ah暫存器中這些位剛好包含fpu狀態暫存器的條件程式碼值，所以通過fstsw和sahf指令組合，可以傳送如下值：

把c0位傳送到eflags的進位標誌 
把c2位傳送到eflags的奇偶校驗標誌 
把c3位傳送到eflags的零標誌

傳送完畢後，可以用條件跳轉使用不同的結果值，另外需要說明的是浮點數相等判斷，因為浮點數本身儲存結構決定了它僅僅是一個近似值，所以不能直接判斷是否相等，這樣可能與自己預期的結果不同，應該判斷兩個浮點數之差是否在一個很小的誤差範圍內，來決定這兩個浮點數是否相等。

根據上面的技巧，使用fstsw和fpu指令組合，可以方便的使用浮點判斷結果，這對我們是一種便利，而intel的工程師又為我們設計了一個組合指令，fcomi指令執行浮點比較結果並把結果存放到eflags暫存器的進位，奇偶，和零標誌。

指令	說明
fcomi	比較st0和stx暫存器的值
fcomip	比較st0和stx暫存器，並彈出堆疊
fucomi	比較之前檢查無序值
fucomip	比較之前檢查無序值，之後彈出堆疊

判斷結束後eflags的標誌設定如下：

結果	ZF	CF
st0 > st(x)	0	0
st0 < st(x)	0	1
st0 = st(x)	1	0

CMOV移動指令

最後介紹的是類似cmov的指令，根據判斷結果決定是否需要移動資料，其AT&T格式為 fcmovxx source, destination，其中source是st(x)暫存器，destination是st(0)暫存器。

指令	說明
fcmovb	如果st(0)小於st(x)，則進行傳送
fcmove	如果st(0)等於st(x)，則進行傳送
fcmovbe	如果st(0)小於或等於st(x)，則進行傳送
fcmovu	如果st(0)無序，則進行傳送
fcmovnb	如果st(0)不小於st(x)，則進行傳送
fcmovne	如果st(0)不等於st(x)，則進行傳送
fcmovnbe	如果st(0)不小於或等於st(x)，則進行傳送
fcmovnu	如果st(0)非無序，則進行傳送

以上可以看出，無論從暫存器的操作，還是計算過程，都比整數運算要繁瑣的多，而且看似很簡單的一個表示式，轉化成浮點彙編需要做很多工作，由於其複雜性，同一個表示式可以有多種運算過程，當然其中的效率相差很大，這依賴於對浮點彙編的理解程度，好在有高階語言處理相關工作，編寫浮點指令的情況比較少見。

組合語言學習筆記(十二)-浮點指令

浮點數如何儲存

浮點暫存器

浮點數指令

浮點計算例子

浮點高階運算

CMOV移動指令

組合語言學習筆記(十二)-浮點指令

odoo10學習筆記十二：web controller

python學習筆記(十二)-網絡編程

Linux學習筆記十二周一次課（4月23日）

Linux學習筆記十二周三次課（4月25日）

Linux學習筆記十二周四次課（4月26日）

Linux學習筆記十二周五次課（4月27日）

IOS開發學習筆記十二實現一個簡單的答題器

webservice學習筆記(十二):js與jquery利用ajax獲取webservice返回值

設計模式學習筆記十二------組合模式

Zookeeper學習筆記十二之網路配置與叢集配置

ReactiveCocoa 學習筆記十二（RACEvent）

Go語言學習筆記(十二)之Map型別

JavaWeb學習（十二）JSP指令簡介

EF6學習筆記十二：Update操作、批量數據操作

機器學習筆記(十二)計算學習理論

Python學習筆記(十二)—Python3中pip包管理工具的安裝

Micropython+ESP8266學習筆記（二）點亮一盞燈

Java學習筆記(十二)--idea配置的jdk是1.8,依舊報錯Diamond types are not supported at this language level

組合語言學習第十二章-內中斷

組合語言學習筆記(十二)-浮點指令

浮點數如何儲存

浮點暫存器

浮點數指令

浮點計算例子

浮點高階運算

CMOV移動指令

相關推薦