1. 程式人生 > >關於指令集和cpu

關於指令集和cpu

轉載自:http://blog.csdn.net/yu132563/article/details/55251534

無論處於上層的軟體多麼的高階, 想要在CPU執行, 就必須被翻譯成"機器碼", 翻譯這個工作由編譯器來執行. 編譯器在這個過程中, 要經過"編譯", "彙編", "連結"幾個步驟, 最後生成"可執行檔案". 可執行檔案中儲存的是二進位制機器碼. 這串機器碼可以直接被CPU讀取和執行. 


軟體意義上, "指令集"實際上是一個規範, 規範彙編的檔案格式.
以下為一條x86彙編程式碼:
mov word ptr es:[eax + ecx * 8 + 0x11223344], 0x12345678

這裡可以體現出指令集的格式限制:

1. 可以使用mov指令, 但它只能有2個運算元.
2. 它的運算元長度是16 (word), 不要看到後面0x12345678就認為是32位運算元.
3. 它帶有段超越字首, 這裡使用了es, 還可以使用ds, cs, ss, fs, gs. 但是隻能用這幾個.
4. 第一個運算元是一個記憶體地址, 第二個是立即數. 但是, 這個記憶體地址不能亂寫, 寫成[eax+ecx*10+0x11223344]就錯了.

實際上, 一條彙編指令與一段機器碼是一一對應的. 上面這段匯, 可以被x86編譯器翻譯成幾乎唯一的一段機器碼:
26 66 c7 84 c8 44 33 22 11 78 56
上面提到的1,2,3,4點如果有一個弄錯, 這一步就會失敗.


可以看出來, 指令集的作用, 就是告訴程式設計師/編譯器, 彙編一定要有格式. 支援什麼指令, 指令帶什麼限制條件, 用什麼運算元, 用什麼地址, 都是指令集規範的內容, 要是寫錯了, 就無法翻譯成機器碼.
指令集規範彙編, 彙編可以翻譯成機器碼, 機器碼告訴CPU每個週期去做什麼. 因此, CPU指令集是描述CPU能實現什麼功能的一個集合, 就是描述"CPU能使用哪些機器碼"的集合".

那機器碼進入到CPU後又做什麼呢?
=====================編譯器和CPU的分界線========================

需要被執行的機器碼先要被OS排程到記憶體之中, 程式執行時, 機器碼依次經過了Memory--Cache--CPU fetch, 進入CPU流水線, 接著就要對它進行譯碼了, 譯碼工作生成的象是CPU內部資料格式, 微碼(或者類似的格式, 這個格式不同的廠商會自己設計). 


這個過程畫成圖就是:

軟體層: 組合語言
------------------------------------------------------------------------
介面: 組合語言所對應的機器碼
------------------------------------------------------------------------
硬體層: CPU使用內部資料結構進行運算

如果機器碼代表的功能是在指令集規範內的, 這條機器碼就可以生產微碼, 並在CPU內正常流動. 假設機器碼是錯誤的, 是不可以通過CPU的譯碼階段的, 控制電路一定會報錯. 這種情況反映在Windows裡往往都是藍屏, 因為CPU無法繼續執行, 它連下一條指令在哪都不知道.

那麼指令集在CPU裡就代表: 只有CPU指令集範圍內的指令可以被成功的譯碼, 並送往CPU流水線後端去執行.
和常規的想法不一樣, CPU不需要任何形式的儲存介質去儲存指令集, 因為"譯碼"這個步驟就是在對指令集裡規範的機器碼做解碼. 硬體上, 譯碼這件事需要龐大數目的邏輯閘陣列來實現.

跳出格式這個圈子來看待這個問題. 可以說, CPU執行單元的能力, 決定了指令集的範圍. 比如, CPU的執行單元有能力執行16位加法, 32位加法, 64位加法, 那麼指令集裡一般就會有ADD 16, ADD 32, ADD 64這樣的表達方式. 如果CPU的執行單元沒有電路執行AVX指令, 那麼指令集裡一般就沒有VINSERTF128這樣的指令供使用. 所以, 強有力的執行單元能夠提供更多的指令集.

再來看"CPU指令集在哪裡"這個問題, 回答是, CPU本身就是CPU指令集. 指令集規定CPU可以做什麼事, CPU就是具體做這件事的工具. 如果一定要指定一個狹義的CPU指令集的存放位置. 那就是CPU中的"譯碼電路".

=======================================================================================================================
=======================================================================================================================
作者:Cascade
連結:https://www.zhihu.com/question/20793038/answer/16198162
來源:知乎
著作權歸作者所有,轉載請聯絡作者獲得授權。

是,這個解釋起來有點長。Be patient
現代的CPU沒拆過,我只在計算機組成原理實驗課上用VHDL在某個實驗平臺上做過一個模擬的CPU。舉個例子你可能比較好理解。
比如我們設計一套指令集,其中肯定有條加法指令。比如Add R1 R2 。我們可以認為這條指令的意思是計算暫存器R1中的內容和R2的和,然後把結果存到R1暫存器中。
那麼經過編譯後這條指令會變成二進位制,比如010100010010 。這條二進位制指令一共12位。明顯可以分為三大部分。最前面的0101表示這是條加法指令,後面0001說的是第一個運算元是暫存器1,最後0010說的是第二個數就是暫存器2(其實實際沒有這麼簡單的指令,至少應該區分運算元是暫存器還是直接的資料,但為了把這說的更容易理解作了簡化)。我們可以通過十二根導線把這條指令輸入一個CPU中。導線通電就是1,不通電就是0 。為了敘述方便我們從左到右用A0-A11給這12根導線編上號。
然後計算機會分析這條指令。步驟如下:
  1. 最開始的兩根導線A0和A1,第一根有電第二根沒電,就能知道這是一條運算指令(而非儲存器操作或者跳轉等指令)。那麼指令將被送入邏輯運算單元(ALU)去進行計算。其實很簡單。只要這兩根線控制接下來那部分電路開關即可。
  2. 接下來的A2和A3,01表示加法,那麼就走加法運算那部分電路,關閉減法等運算電路。
  3. A4-A7將被送入暫存器電路,從中讀取暫存器儲存的值。送到ALU的第一個資料介面電路上。
  4. 後面的A8-A11同樣被送入暫存器選擇電路,接通R2暫存器,然後R2就把值送出來,放到ALU的第二個資料介面上。
  5. ALU開始運算,把兩個介面電路上的資料加起來,然後輸出。
  6. 最後結果又被送回R1。
基本上簡單的運算計算機就是這麼操作的。他其實不知道你那些指令都是什麼意思。具體的指令程式設計機器碼後就會變成數位電路的開關訊號。其中某幾段會作為控制訊號,控制其他部分的資料走不同的電路以執行運算。他沒有一個地方儲存著如何翻譯這些機器碼的字典,所有機器碼的意義都被體現在整個電路的設計中了。
當然,從彙編到機器碼這步是彙編程式翻譯的。彙編程式當然知道某條指令要翻譯成什麼樣的機器碼。