java開發C語言編譯器：jvm的return指令以及區域性變數的操作

阿新 • • 發佈：2019-01-13

請結合視訊閱讀本文以便獲得更清晰的理解。
更詳細的講解和程式碼除錯演示過程，請參看視訊
用java開發C語言編譯器

如果你對機器學習感興趣，請參看一下連結：
機器學習：神經網路導論

jvm執行位元組碼時，程式碼的執行必須圍繞兩種資料結構，一種是堆疊，一種是佇列，如果jvm執行某條指令時，該指令需要對資料進行操作，那麼被操作的資料在指令執行前，必須要壓倒堆疊上。如果堆疊上的資料需要暫時保持起來時，它就會被載入到區域性變數佇列上。

java程式碼中，每個方法裡面的區域性變數包括函式的輸入引數都會儲存在佇列上。我們看下面一個方法：

int f() {
    int a;
    int 
 b;
    a = 1;
    b = 2;
}

jvm在執行上面程式碼時，首先會分配一個堆疊和一個佇列，一開始堆疊和佇列都為空：

stack: null
list: null

要執行語句 a = 1; 時，首先需要把常量1壓到堆疊上：

stack: 1

區域性變數a對應於佇列的第0個元素，把1賦值給變數a，就相當於把堆疊頂部的數值1轉移到佇列的第0個元素，因此語句a =1;執行後佇列和堆疊的情況如下：
stack: null
list: 1,

執行第二條語句b = 2; 時同理，先把常量2壓到堆疊上：
stack: 2
list: 1

由於變數b是函式的第二個區域性變數，因此它對應佇列的第1個元素，把常量2賦值給變數b,就需要把堆疊頂部的數值2移到堆疊的第1個元素：

stack:
list: 1, 2

由此，當我們把C語言編譯成java位元組碼時，在解析函式時，函式中的區域性變數都需要對應到虛擬機器區域性變數佇列中的對應元素，在一會給出的例子中，我們會通過程式碼看看，在解析C語言函式的區域性變數時，程式是如何把變數和jvm的變數佇列對應起來的。

在此，我們還需要介紹的jvm的return指令, 無論是C程式碼還是java程式碼，一旦函式有返回值時，都需要通過關鍵字return把資料返回給函式的呼叫者，程式碼中的return語句在編譯成java位元組碼後，對應著多條語句。如果return 語句返回的資料型別是整形，那麼該return語句對應的位元組碼指令是ireturn, 前面的i表示整形，同理，如果return 返回的資料型別是浮點數，那麼對應的java位元組碼指令就是freturn, 前面的f表示float，如果return 返回的資料型別是double,對應的位元組碼指令就是dreturn, 前面的d表示double。

需要注意的是return 語句對應的位元組碼指令必須跟函式的返回值宣告相一致，如果函式宣告時返回的資料型別是整形，結果函式編譯後使用的return指令是freturn,也就是要返回一個浮點數，這種不一致性會被jvm檢測到，一旦發現指令的邏輯不一致，虛擬機器就會拒絕執行給定的程式碼。

介紹完理論後，我們看看如何把理論付諸實踐。下面的程式碼將是我們要編譯成java位元組碼的C語言程式碼：

int f() {
    int a;
    int b;
    a = 1;
    b = 2;

    return a+b;
}

void main() {
    int c; 
    c = f();
    printf("result of calling f is :%d", c);
}

函式f的返回值是int,因此在編譯成java位元組碼時，f 裡面的return語句編譯後要對應上jvm的ireturn指令，同時f中含有兩個區域性變數a,b,根據前面講述的理論，在解析到這兩個變數時，編譯器需要把他們對應到java虛擬機器中區域性變數佇列的相應元素。

我們看看，區域性變數是如何對應到虛擬機器佇列的相應元素的，在ProgramGenerator.java中，新增程式碼如下：

public class ProgramGenerator extends CodeGenerator {
    private static ProgramGenerator instance = null;
    private  String funcName = "";
    ....
    public int getLocalVariableIndex(Symbol symbol) {
        TypeSystem typeSys = TypeSystem.getTypeSystem();
        ArrayList<Symbol> list = typeSys.getSymbolsByScope(symbol.getScope());
        Collections.reverse(list);
        for (int i = 0; i < list.size(); i++) {
            if (list.get(i) == symbol) {
                return i;
            }
        }

        return -1;
    }
    ....
}

每個變數都對應著一個符號物件Symbol, 同時每個變數都有給定的作用範圍，getSymbolsByScope把同一作用範圍內的變數全部取出來，形成一個佇列，例如在f中，有兩個具備變數a,b , 他們的作用範圍都是f, 如果把a對應的Symbol物件傳入上面函式後，list會得到一個佇列，該佇列包含兩個Symbol物件，這兩個物件就是變數a和b所對應的Symbol物件。得到這個佇列後，我們通過變數符號物件在佇列中的位置來對應他們在虛擬機器佇列中的位置。

第二處需要改動的程式碼在UnaryNodeExecutor.java中：

public class UnaryNodeExecutor extends BaseExecutor implements IExecutorReceiver{
    private Symbol structObjSymbol = null;
    private Symbol monitorSymbol = null;

    @Override
    public Object Execute(ICodeNode root) {
        executeChildren(root);
        ....
        switch (production) {
        ....
        case CGrammarInitializer.Name_TO_Unary:
            symbol = (Symbol)root.getAttribute(ICodeKey.SYMBOL);
            if (symbol != null) {
                root.setAttribute(ICodeKey.VALUE, symbol.getValue());
                root.setAttribute(ICodeKey.TEXT, symbol.getName());

                ICodeNode func = CodeTreeBuilder.getCodeTreeBuilder().getFunctionNodeByName(symbol.getName());
                if (func == null && symbol.getValue() != null) {
                    ProgramGenerator generator = ProgramGenerator.getInstance();
                    int idx = generator.getLocalVariableIndex(symbol);
                    generator.emit(Instruction.ILOAD, "" + idx);    
                }

            }
            break;
            .....
            }
            ....
    }
    .....
}

在解析到某個變數是，我們先看該變數是否已經賦值了，也就是symbol.getValue()返回值不是null, 如果賦值了，那麼通過呼叫getLocalVariableIndex得到該變數在遍歷佇列裡的位置，這個位置將作為它對應在虛擬機器變數佇列裡的位置。假設該變數對應的位置是x, 那麼上面程式碼將輸出指令：
iload x
也就是把變數佇列中第x個元素載入到堆疊頂端。

第三處需要改動的程式碼在FunctDeclExecutor.java:

public class FunctDeclExecutor extends BaseExecutor {
    private ArrayList<Object> argsList = null;
    private ICodeNode currentNode;
    ProgramGenerator generator = ProgramGenerator.getInstance();
    ....
    private String emitArgs(Symbol funSymbol) {
        argsList = FunctionArgumentList.getFunctionArgumentList().getFuncArgList(true);
        String args = "(";
        for (int i = 0; i < argsList.size(); i++) {
            Symbol symbol = (Symbol)argsList.get(i);
            String arg = "";
            if (symbol.getDeclarator(Declarator.ARRAY) != null) {
                arg += "[";
            }

            if (symbol.hasType(Specifier.INT)) {
                arg += "I";
            }

            args += arg;
        }

        if (funSymbol.hasType(Specifier.INT)) {
            args += ")I";
        } else {
            args += ")V";
        }

        return args;
    }
    .....
}

這裡我們要把C語言中的函式宣告編譯成java位元組碼的函式宣告，原來我們一直預設函式返回值都是void型，現在我們函式可以返回整形了，一個函式本質上也是一個變數，因此函式f也對應著一個Symbol物件，我們通過判斷該Symbol物件的型別就可以得知函式的返回值，以例子程式碼為例： int f() 由於f前面有關鍵字int來修飾，因此f對應的Symbol物件它包含一個型別為int的specifier,一旦我們判斷到返回值是整形時，在把函式宣告編譯成位元組碼時，需要在函式引數列表後面加上一個I,用於表明返回值是整形，由此C程式碼中的函式宣告int f()編譯成java位元組碼後對應的程式碼為：
.method public static f()I。

第四處需要修改的程式碼還是在UnaryNodeExecutor.java中：

public class UnaryNodeExecutor extends BaseExecutor implements IExecutorReceiver{
....
   public Object Execute(ICodeNode root) {
   ....
   case CGrammarInitializer.Unary_LP_RP_TO_Unary:
   case CGrammarInitializer.Unary_LP_ARGS_RP_TO_Unary:
   ....
   emitReturnInstruction(symbol);
   ....
   }

  private void emitReturnInstruction(Symbol symbol) {
        if (symbol.hasType(Specifier.INT)) {
            ProgramGenerator.getInstance().emit(Instruction.IRETURN);
        } else {
            ProgramGenerator.getInstance().emit(Instruction.RETURN);
        }
    }

前面我們提到過，函式宣告時，指明瞭返回值型別的話，那麼return必須根據返回值型別對應到位元組碼相應的xreturn語句，在這裡我們通過函式的符號物件，獲得函式的返回值型別，如果函式的返回值型別是整形，那麼編譯器就要輸出ireturn語句，如果返回值是void型別，那麼輸出return指令就可以了。

第五處需要修改的是Symbol.java:

public class Symbol implements IValueSetter{
....
public void setValue(Object obj) {
        if (obj != null) {
            System.out.println("Assign Value of " + obj.toString() + " to Variable " + name);   
        }

        this.value = obj;

        if (this.value != null) {
            ProgramGenerator generator = ProgramGenerator.getInstance();
            int idx = generator.getLocalVariableIndex(this);

            generator.emit(Instruction.ISTORE, "" + idx);   
        }

    }
    ....
}

在變數被賦值時，上面的程式碼會被呼叫，前面我們講過，如果給區域性變數賦值，區域性變數對應的是虛擬機器佇列中的某個元素，對其賦值，相當於把堆疊頂部的資料轉移到佇列的對應位置上，假設例子中變數b對應在佇列中的位置為1，上面程式碼執行後，編譯器會輸出指令：
istore 1

也就是把堆疊頂部的整形數值轉移給佇列中的第一個元素。

上面程式碼執行後，我們的編譯器會把給定的C語言程式編譯成如下java彙編程式碼：

.class public CSourceToJava
.super java/lang/Object

.method public static main([Ljava/lang/String;)V
    invokestatic    CSourceToJava/f()I
    istore  0
    iload   0
    getstatic   java/lang/System/out Ljava/io/PrintStream;
    ldc "result of calling f is :"
    invokevirtual   java/io/PrintStream/print(Ljava/lang/String;)V
    istore  2
    getstatic   java/lang/System/out Ljava/io/PrintStream;
    iload   2
    invokevirtual   java/io/PrintStream/print(I)V
    getstatic   java/lang/System/out Ljava/io/PrintStream;
    ldc "
"
    invokevirtual   java/io/PrintStream/print(Ljava/lang/String;)V
    return
.end method
.method public static f()I
    sipush  1
    istore  0
    sipush  2
    istore  1
    iload   0
    iload   1
    iadd
    ireturn
.end method

.end class

上面彙編程式碼編譯成位元組碼後執行，其結果如下：
這裡寫圖片描述

通過執行結果可見，我們編譯器對程式碼的編譯結果應該是正確的。由於本節將是內容有點抽象，請結合視訊演示一起來閱讀本文，以便獲得更清晰的理解。

更多技術資訊，包括作業系統，編譯器，面試演算法，機器學習，人工智慧，請關照我的公眾號：
這裡寫圖片描述

java開發C語言編譯器：jvm的return指令以及區域性變數的操作

java開發C語言編譯器：jvm的return指令以及區域性變數的操作

java實現C語言編譯器：實現有引數的函式呼叫

嵌入式C語言編譯器：GCC

【軟體開發底層知識修煉】五 gcc-C語言編譯器

學習較底層程式設計：動手寫一個C語言編譯器

手把手教你做一個 C 語言編譯器（8）：表示式

手把手教你做一個 C 語言編譯器（7）：語句

手把手教你做一個 C 語言編譯器（9）：總結

較底層程式設計：自己動手寫一個C語言編譯器

手把手教你做一個 C 語言編譯器（2）：虛擬機器

手把手教你做一個 C 語言編譯器（6）：函式定義

手把手教你做一個 C 語言編譯器（4）：遞迴下降

手把手教你做一個 C 語言編譯器（3）：詞法分析器

手把手教你做一個 C 語言編譯器（0）：前言

手把手教你做一個 C 語言編譯器（1）：設計

手把手教你做一個 C 語言編譯器（5）：變數定義

C語言基礎：遞歸函數，全局(局)變量

第5課嵌入式C語言編譯器

Ubuntu下用glade和GTK+開發C語言界面程序(一)

C語言考題：Find the key in the picture,good luck..

java開發C語言編譯器：jvm的return指令以及區域性變數的操作

相關推薦