1. 程式人生 > >JVM編譯原理(一個".java"檔案轉變為".class"檔案的過程)

JVM編譯原理(一個".java"檔案轉變為".class"檔案的過程)

程式碼編譯是由Javac編譯器來完成,流程如下圖1所示:

        圖1

        Javac是一種編譯器,能將一種語言規範轉化成另外一種語言規範,通常編譯器都是將便於人理解的語言規範轉化成機器容易理解的語言規範,如C/C++或者組合語言都是將原始碼直接編譯成目標機器碼,這個目標機器程式碼是CPU直接執行的指令集合。這些指令集合也就是底層的一種語言規範。

        Javac的編譯器也是將Java這種對人非常友好的程式語言編譯成對對所有機器都非常友好的一種語言。這種語言不是針對某種機器或某個平臺。怎麼消除不同種類,不同平臺之間的差異這個任務就有JVM來完成,而Javac的任務就是將Java原始碼語言轉化為JVM能夠識別的一種語言

,然後由JVM將JVM語言再轉化成當前這個機器能夠識別的機器語言。

        Javac的任務就是將Java原始碼編譯成Java位元組碼,也就是JVM能夠識別的二進位制程式碼,從表面看是將.java檔案轉化為.class檔案。而實際上是將Java原始碼轉化成一連串二進位制數字,這些二進位制數字是有格式的,只有JVM能夠真確的識別他們到底代表什麼意思。

        編譯器把一種語言規範轉化為另一種語言規範的這個過程需要哪些步驟?回答這個問題需要參照《編譯原理》,總結過程如下:

        1)詞法分析:讀取原始碼,一個位元組一個位元組的讀進來,找出這些詞法中我們定義的語言關鍵詞如:if、else、while等,識別哪些if是合法的哪些是不合法的。這個步驟就是詞法分析過程。

        詞法分析的結果:就是從原始碼中找出了一些規範化的token流,就像人類語言中,給你一句話你要分辨出哪些是一個詞語,哪些是標點符號,哪些是動詞,哪些是名詞。

        2)語法分析:就是對詞法分析中得到的token流進行語法分析,這一步就是檢查這些關鍵詞組合在一起是不是符合Java語言規範。如if的後面是不是緊跟著一個布林型判斷表示式。

        語法分析的結果:就是形成一個符合Java語言規定的抽象語法樹,抽象語法樹是一個結構化的語法表達形式,它的作用是把語言的主要詞法用一個結構化的形式組織在一起。這棵語法樹可以被後面按照新的規則再重新組織。

        3)語義分析:語法分析完成之後也就不存在語法問題了,語義分析的主要工作就是把一些難懂的,複雜的語法轉化成更簡單的語法。就如難懂的文言文轉化為大家都懂的百話文,或者是註釋一下一些不懂的成語。

        語義分析結果:就是將複雜的語法轉化為簡單的語法,對應到Java就是將foreach轉化為for迴圈,還有一些註釋等。最後生成一棵抽象的語法樹,這棵語法樹也就更接近目標語言的語法規則。

        4)位元組碼生成:將會根據經過註釋的抽象語法樹生成位元組碼,也就是將一個數據結構轉化為另外一個數據結構。就像將所有的中文詞語翻譯成英文單詞後按照英文語法組裝文英文語句。程式碼生成器的結果就是生成符合java虛擬機器規範的位元組碼。這個過程中的需要的元件如下圖2所示:

        圖2

        從上面的描述中我們知道編譯就是將一種語言通過分析分解,再按照一定的方式先形成一個簡單的框架(將Java原始檔的位元組流轉化為對應的token流)然後在通過詳細的分析按照一定的規定在這個框架裡新增東西使這個token流形成更加結構化的語法樹(就是將前面生成的token流中的一個個單片語裝成一句話),但是這棵樹離我們的目標—Java位元組碼還有點差距,所以再進行語義分析使那顆粗糙的樹更加完整完善(給類新增預設的建構函式,檢查變數在使用前有沒有初始化,檢查操作變數型別是否匹配),然後javac編譯器呼叫com.sun.tools.javac.jvm.Gen類遍歷這棵語法樹將java方法中的程式碼塊轉換成符合JVM語法的命令形式的二進位制資料。按照JVM的檔案組織格式將位元組碼輸出到以class為副檔名的檔案中,也就是生成最終的java位元組碼。詞法分析就是將關鍵片語織成token流即檢查原始碼中的的關鍵詞是否真確並組織成token流,而語法分析就是檢查原始碼是否符合java語法規範並將片語成語句。語義分析就是簡化複雜的新增缺少的,檢查變數型別是否合法。程式碼生成器就是遍歷這棵樹生成符合JVM規範的程式碼