1. 程式人生 > >匯編浮點指令

匯編浮點指令

操作碼 struct 應該 簡單 stx ldp 格式 保留 指數

  • 浮點數如何存儲
  • 浮點寄存器
  • 浮點數指令
  • 浮點計算例子
  • 浮點高級運算
  • CMOV移動指令

浮點數如何存儲

浮點數的運算完全不同於整數,從寄存器到指令,都有一套獨特的處理流程,浮點單元也稱作x87 FPU。

現在看浮點數的表示方式,我們所知道的,計算機使用二進制存儲數據,所表示的數字都具有確定性,那是如何表示浮點這種具有近似效果的數據呢,答案是通過科學計數,科學計數由符號,尾數和指數表示,這三部分都是一個整數值,具體來看一下IEEE二進制浮點標準:

格式說明
單精度 32位:符號占1位,指數占8位,尾數中的小數部分占23位
雙精度 64位:符號占1位,指數占11位,尾數中的小數部分占52位
擴展精度 80位:符號占1位,指數占16位,尾數中的小數部分占63位

以單精度為例,在內存中的儲存格式如下(左邊為高位):

	| 1位符號 | 8位指數 | 23位尾數 |

其中符號位1表示負數,0表示正數,這與整數形式的符號位意義相同; 科學計數法表示形式如 m * (b ^ e),m為尾數,b為基數,e是指數,再二進制中,基數毫無疑問是2,對單精度,指數為中間8位二進制表示的數字,其中的尾數是形如1.1101 小數點後面的整數值。

關於指數,由於需要表示正負兩種數據,IEEE標準規定單精度指數以127為分割線,實際存儲的數據是指數加127所得結果,127為高位為零,後7位為1所得,其他雙精度也以此方式計算。

為了解釋內存中浮點數的存儲方式,舉一個浮點數的例子說明:

float test = 123.456;

int main()
{
    return 0;
}

例子再簡單不過了,僅僅定義了一個全局的float類型,我們通過gcc -S test.c來生成匯編,看看123.456是如何存儲的,打開反匯編後的文件,看到符號_test後定義的數字是 1123477881(這裏gcc定義成了long類型,不過沒有關系,因為都是四字節數字,具體的類型還得看如何使用)。可以使用計算器把十進制數字轉化為二進制:0 10000101 11101101110100101111001,這裏根據單精度的劃分方式把32位劃分成三部分,符號位為0,為正數,指數為 133,減去127得6,尾數加上1.,形式為1.11101101110100101111001

,擴大2 ^ 23次方為111101101110100101111001,十進制16181625,後除以2 ^ (23 – 6) = 131072,結果為123.45600128173828125,與我們所定義的浮點數正好相符。

浮點寄存器

這裏介紹了浮點數的二進制表示,前面說過浮點單元計算使用獨立的寄存器,在寄存器那篇也稍有提及,這裏詳細說明一下浮點單元的寄存器設施。

FPU有 8 個獨立尋址的80位寄存器,名稱分別為r0, r1, …, r7,他們以堆棧形式組織在一起,統稱為寄存器棧,編寫浮點指令時棧頂也寫為st(0),最後一個寄存器寫作st(7)。

FPU另有3個16位的寄存器,分別為控制寄存器、狀態寄存器、標記寄存器,現一一詳細說明此三個寄存器的作用:

狀態寄存器,為用戶記錄浮點計算過程中的狀態,其中各位的含義如下:

0 —— 非法操作異常
1 —— 非規格化操作數異常
2 —— 除數為0異常
3 —— 溢出標誌異常
4 —— 下溢標誌異常
5 —— 精度異常標誌
6 —— 堆棧錯誤
7 —— 錯誤匯總狀態
8 —— 條件代碼位0(c0)
9 —— 條件代碼位1(c1)
10 —— 條件代碼位2 (c2)
11-13 —— 堆棧頂指針
14 —— 條件代碼位3(c3)
15 —— 繁忙標誌

其中讀取狀態寄存器內容可使用 fstsw %ax

控制寄存器的位含義如下:

0 —— 非法操作異常掩碼 
1 —— 非法格式化異常掩碼 
2 —— 除數為0異常掩碼 
3 —— 溢出異常掩碼 
4 —— 下溢異常掩碼 
5 —— 精度異常亞曼 
6-7 —— 保留 
8-9 —— 精度控制(00單精度,01未使用,10雙精度,11擴展精度) 
10-11 —— 舍入控制(00舍入到最近,01向下舍入,10向上舍入,11向0舍入) 
12 —— 無窮大控制 
13–15 —— 保留

其中讀取控制寄存器和設置控制寄存器的指令如下:

# 加載到內存
fstcw control
# 加載到控制器
fldcw control

最後的標誌寄存器最為簡單,分別0-15位分別標誌r0-r7共8個寄存器,每個寄存器占2位,這兩位的含義如下:

11 —— 合法擴展精度 
01 —— 零 
10 —— 特殊浮點 
11 —— 無內容

另外對浮點寄存器的一些控制指令如下:

# 初始化fpu,控制、狀態設為默認值,但不改變fpu的數據
finit

# 恢復保存環境
fldenv buffer
fstenv buffer

#清空浮點異常
fnclex

#fpu狀態保存
fssave

fstenv 保存控制寄存器、狀態寄存器、標記寄存器、FPU指令指針偏移量、FPU數據指針,FPU最後執行的操作碼到內存中。

浮點數指令

接下來將要詳細說明其計算過程,要計算數據首先得看如何從內存中加載數據到寄存器,同時把結果從寄存器取出到內存,除了加載內存中的浮點數據指令,另外還有一些常量的加載,現列舉如下:

指令說明
finit 初始化控制和狀態寄存器,不改變fpu數據寄存器
fstcw control 將控制寄存器內容放到內存control處
fstsw status 將狀態寄存器內容放到內存status處
flds value 加載內存中的單精浮點到fpu寄存器堆棧
fldl value 加載內存中的雙精浮點到fpu寄存器堆棧
fldt value 加載內存中的擴展精度點到fpu寄存器堆棧
fld %st(i) 將%st(i)寄存器數據壓入fpu寄存器堆棧
fsts value 單精度數據保存到value,不出棧
fstl value 雙精度數據保存到value,不出棧
fstt value 擴展精度數據保存到value,不出棧
fstps value 單精度數據保存到value,出棧
fstpl value 雙精度數據保存到value,出棧
fstpt value 擴展精度數據保存到value,出棧
fxch %st(i) 交換%st(0)和%st(i)
fld1 把 +1.0 壓入 FPU 堆棧中
fldl2t 把 10 的對數(底數2)壓入 FPU 堆棧中
fldl2e 把 e 的對數(底數2)壓入 FPU 堆棧中
fldpi 把 pi 的值壓入 FPU 堆棧中
fldlg2 把 2 的對數(底數10)壓入 FPU 堆棧中
fldln2 把 2 的對數(底數e) 壓入堆棧中
fldz 把 +0.0 壓入壓入堆棧中

以上指令雖多,但是還是很有規律,前綴f表示fpu操作,ld加載,st保存設置,p後綴彈出堆棧,s、l、t後綴表示單精度,雙精度,擴展精度,c後綴表 示控制寄存器,s後綴表示狀態寄存器。當然這僅僅是對AT&T語法而言,對MASM語法沒有s,l,t之分,需要使用type ptr來指明精度,即內存大小。

學會靈活的加載彈出數據堆棧後,接下來就要看一些基本的計算:

fadd    浮點加法
fdiv    浮點除法
fdivr   反向浮點除法
fmul    浮點乘法
fsub    浮點減法
fsubr   反向浮點減法

對於以上的每種指令,有幾種指令格式,以fadd為例,列舉如下:

# 內從中的32位或者64位值和%st(0)相加
fadd source

# 把%st(x)和%st(0)相加,結果存入%st(0)
fadd %st(x), %st(0)

# 把%st(0)和%st(x)相加,結果存入%st(x)
fadd %st(0), %st(x)

# 把%st(0)和%st(x)相加,結果存入%st(x),彈出%st(0)
faddp %st(0), %st(x)

# 把%st(0)和%st(1)相加,結果存入%st(1),彈出%st(0)
faddp

# 把16位或32位整數與%st(0)相加,結果存入%st(0)
fiadd source

這僅僅是對AT&T語法而言,對MASM源操作數與目的操作數相反!另外,對AT&T,與內存相關指令可加s、l指定內存精度。其中反向加法和反向除法是計算過程中目的與源反向計算。

浮點計算例子

接下來舉一個AT&T語法的例子,來計算表達式的值 ( 12.34 * 13 ) + 334.75 ) / 17.8 :

# ( 12.34 * 13 ) + 334.75 ) / 17.8
.section .data
    values: .float 12.34, 13, 334.75, 17.8
    result: .double 0.0

    outstring: .asciz "result is %f\n"
.section .text
.globl _main
_main:
    leal values, %ebx
    flds 12(%ebx)
    flds 8(%ebx)
    flds 4(%ebx)
    flds (%ebx)

    fmulp
    faddp
    fdivp %st(0), %st(1)

    fstl result

    leal result, %ebx
    pushl 4(%ebx)
    pushl (%ebx)
    pushl $outstring
    call _printf
end:
    pushl $0
    call _exit

前四個flds加載所有的數據到寄存器堆棧,可以單步運行並是用gdb的print $st0打印堆棧寄存器的值,可以看到為什麽是堆棧寄存器。需要說明的是由於printf的%f是double類型的輸出,所以最後要把一個8字節浮點放 到棧中傳遞,最終結果為27.818541,可以看到與計算器計算的結果近似相等。

浮點高級運算

除了基本的浮點計算,x87還提供了一些諸如余弦運算等高級計算功能:

指令說明
f2xm1 計算2的乘方(次數為st0中的值,減去1
fabs 計算st0中的絕對值
fchs 改變st0中的值的符號
fcos 計算st0中的值的余弦
fpatan 計算st0中的值的部分反正切
fprem 計算st0中的值除以st1的值的部分余數
fprem1 計算st0中的值除以st1的值的IEEE部分余弦
fptan 計算st0中的值的部分正切
frndint 把st0中的值舍入到最近的整數
fscale 計算st0乘以2的st1次方
fsin 計算st0中的值的正弦
fsincos 計算st0中的值的正弦和余弦
fsqrt 計算st0中的值的平方根
fyl2x 計算st1*log st0 以2為底
fyl2xp1 計算st1*log (st0 + 1) 以2為底

下面來看一下浮點條件分支,浮點數的比較不像整數,可以容易的使用cmp指令比較,判斷eflags的值,關於浮點數比較,fpu提供獨立的比較機制和指令,現對這組比較指令進行說明:

指令說明
fcom 比較st0和st1寄存器的值
fcom %st(x) 比較st0和stx寄存器的值
fcom source 比較st0和32/64位內存值
fcomp 比較st0和st1寄存器的值,並彈出堆棧
fcomp %st(x) 比較st0和stx寄存器的值,並彈出堆棧
fcomp source 比較st0和32/64位內存值,並彈出堆棧
fcompp 比較st0和st1寄存器的值,並兩次彈出堆棧
ftst 比較st0和0.0

浮點數比較的結果放入狀態寄存器的c0,c2,c3條件代碼位中,其值如下:

結果c3c2c0
st0 > source 0 0 0
st0 < source 0 0 1
st0 = source 1 0 0

如此倘若直接判斷c0,c2,c3的值比較繁瑣,所以可以使用一些技巧,首先使用fstsw指令獲得fpu狀態寄存器的值並存入ax,再使用sahf指令把 ah寄存器中的值加載到eflags寄存器中,sahf指令把ah寄存器的第0、2、4、6、7分別傳送至進位、奇偶、對準、零、符號位,不影響其他標 誌,ah寄存器中這些位剛好包含fpu狀態寄存器的條件代碼值,所以通過fstsw和sahf指令組合,可以傳送如下值:

把c0位傳送到eflags的進位標誌 
把c2位傳送到eflags的奇偶校驗標誌 
把c3位傳送到eflags的零標誌

傳送完畢後,可以用條件跳轉使用不同的結果值,另外需要說明的是浮點數相等判斷,因為浮點數本身存儲結構決定了它僅僅是一個近似值,所以不能直接判斷是否相 等,這樣可能與自己預期的結果不同,應該判斷兩個浮點數之差是否在一個很小的誤差範圍內,來決定這兩個浮點數是否相等。

根據上面的技巧,使用fstsw和fpu指令組合,可以方便的使用浮點判斷結果,這對我們是一種便利,而intel的工程師又為我們設計了一個組合指令,fcomi指令執行浮點比較結果並把結果存放到eflags寄存器的進位,奇偶,和零標誌。

指令說明
fcomi 比較st0和stx寄存器的值
fcomip 比較st0和stx寄存器,並彈出堆棧
fucomi 比較之前檢查無序值
fucomip 比較之前檢查無序值,之後彈出堆棧

判斷結束後eflags的標誌設置如下:

結果ZFPFCF
st0 > st(x) 0 0 0
st0 < st(x) 0 0 1
st0 = st(x) 1 0 0

CMOV移動指令

最後介紹的是類似cmov的指令,根據判斷結果決定是否需要移動數據,其AT&T格式為 fcmovxx source, destination,其中source是st(x)寄存器,destination是st(0)寄存器。

指令說明
fcmovb 如果st(0)小於st(x),則進行傳送
fcmove 如果st(0)等於st(x),則進行傳送
fcmovbe 如果st(0)小於或等於st(x),則進行傳送
fcmovu 如果st(0)無序,則進行傳送
fcmovnb 如果st(0)不小於st(x),則進行傳送
fcmovne 如果st(0)不等於st(x),則進行傳送
fcmovnbe 如果st(0)不小於或等於st(x),則進行傳送
fcmovnu 如果st(0)非無序,則進行傳送

以上可以看出,無論從寄存器的操作,還是計算過程,都比整數運算要繁瑣的多,而且看似很簡單的一個表達式,轉化成浮點匯編需要做很多工作,由於其復雜性,同 一個表達式可以有多種運算過程,當然其中的效率相差很大,這依賴於對浮點匯編的理解程度,好在有高級語言處理相關工作,編寫浮點指令的情況比較少見。

匯編浮點指令