1. 程式人生 > >Java 程式碼優化過程的例項介紹

Java 程式碼優化過程的例項介紹

簡介: 通過筆者經歷的一個專案例項,本文介紹了 Java 程式碼優化的過程,總結了優化 Java 程式的一些最佳實踐,分析了進行優化的方法,並解釋了效能提升的原因。從多個角度分析導致效能低的原因,並逐個進行優化,最終使得程式的效能得到極大提升,程式碼的可讀性、可擴充套件性更強。

衡量一個程式是否優質,可以從多個角度進行分析。其中,最常見的衡量標準是程式的時間複雜度、空間複雜度,以及程式碼的可讀性、可擴充套件性。針對程式的時間複雜度和空間複雜度,想要優化程式程式碼,需要對資料結構與演算法有深入的理解,並且熟悉計算機系統的基本概念和原理;而針對程式碼的可讀性和可擴充套件性,想要優化程式程式碼,需要深入理解軟體架構設計,熟知並會應用合適的設計模式。

首先,如今計算機系統的儲存空間已經足夠大了,達到了 TB 級別,因此相比於空間複雜度,時間複雜度是程式設計師首要考慮的因素。為了追求高效能,在某些頻繁操作執行時,甚至可以考慮用空間換取時間。其次,由於受到處理器製造工藝的物理限制、成本限制,CPU 主頻的增長遇到了瓶頸,摩爾定律已漸漸失效,每隔 18 個月 CPU 主頻即翻倍的時代已經過去了,程式設計師的程式設計方式發生了徹底的改變。在目前這個多核多處理器的時代,湧現了原生支援多執行緒的語言(如 Java)以及分散式平行計算框架(如 Hadoop)。為了使程式充分地利用多核 CPU,簡單地實現一個單執行緒的程式是遠遠不夠的,程式設計師需要能夠編寫出併發或者並行的多執行緒程式。最後,大型軟體系統的程式碼行數達到了百萬級,如果沒有一個設計良好的軟體架構,想在已有程式碼的基礎上進行開發,開發代價和維護成本是無法想象的。一個設計良好的軟體應該具有可讀性和可擴充套件性,遵循“開閉原則”、“依賴倒置原則”、“面向介面程式設計”等。

專案介紹

本文將介紹筆者經歷的一個專案中的一部分,通過這個例項剖析程式碼優化的過程。下面簡要地介紹該系統的相關部分。

該系統的開發語言為 Java,部署在共擁有 4 核 CPU 的 Linux 伺服器上,相關部分主要有以下操作:通過某外部系統 D 提供的 REST API 獲取資訊,從中提取出有效的資訊,並通過 JDBC 儲存到某資料庫系統 S 中,供系統其他部分使用,上述操作的執行頻率為每天一次,一般在午夜當系統空閒時定時執行。為了實現高可用性(High Availability),外部系統 D 部署在兩臺伺服器上,因此需要分別從這兩臺伺服器上獲取資訊並將資訊插入資料庫中,有效資訊的條數達到了上千條,資料庫插入操作次數則為有效資訊條數的兩倍。


圖 1. 系統體系結構圖
圖 1. 系統體系結構圖

為了快速地實現預期效果,在最初的實現中優先考慮了功能的實現,而未考慮系統性能和程式碼可讀性等。系統大致有以下的實現:(1)REST API 獲取資訊、資料庫操作可能丟擲的異常資訊都被記錄到日誌檔案中,作為除錯用;(2)共有 5 次資料庫連線操作,包括第一次清空資料庫表,針對兩個外部系統 D 各有兩次資料庫插入操作,這 5 個連線都是獨立的,用完之後即釋放;(3)所有的資料庫插入語句都是使用 java.sql.Statement 類生成的;(4)所有的資料庫插入語句,都是單條執行的,即生成一條執行一條;(5)整個過程都是在單個執行緒中執行的,包括資料庫表清空操作,資料庫插入操作,釋放資料庫連線;(6)資料庫插入操作的 JDBC 程式碼散佈在程式碼中。雖然這個版本的系統可以正常執行,達到了預期的效果,但是效率很低,從通過 REST API 獲取資訊,到解析並提取有效資訊,再到資料庫插入操作,總共耗時 100 秒左右。而預期的時間應該在一分鐘以內,這顯然是不符合要求的。

筆者開始分析整個過程有哪些耗時操作,以及如何提升效率,縮短程式執行的時間。通過 REST API 獲取資訊,因為是使用外部系統提供的 API,所以無法在此處提升效率;取得資訊之後解析出有效部分,因為是對特定格式的資訊進行解析,所以也無效率提升的空間。所以,效率可以大幅度提升的空間在資料庫操作部分以及程式控制部分。下面,分條敘述對耗時操作的改進方法。

關閉日誌記錄,或者更改日誌輸出級別。因為從兩臺伺服器的外部系統 D 上獲取到的資訊是相同的,所以資料庫插入操作會丟擲異常,異常資訊類似於“Attempt to insert duplicate record”,這樣的異常資訊跟有效資訊的條數相等,有上千條。這種情況是能預料到的,所以可以考慮關閉日誌記錄,或者不關閉日誌記錄而是更改日誌輸出級別,只記錄嚴重級別(severe level)的錯誤資訊,並將此類操作的日誌級別調整為警告級別(warning level),這樣就不會記錄以上異常資訊了。本專案使用的是 Java 自帶的日誌記錄類,以下配置檔案將日誌輸出級別設定為嚴重級別。


清單 1. log.properties 設定日誌輸出級別的片段
				 
 # default file output is in user ’ s home directory. 
 # levels can be: SEVERE, WARNING, INFO, FINE, FINER, FINEST 
 java.util.logging.ConsoleHandler.level=SEVERE 
 java.util.logging.FileHandler.formatter=java.util.logging.SimpleFormatter 
 java.util.logging.FileHandler.append=true 

通過上述的優化之後,效能有了大幅度的提升,從原來的 100 秒左右降到了 50 秒左右。為什麼僅僅不記錄日誌就能有如此大幅度的效能提升呢?查閱資料,發現已經有人做了相關的研究與實驗。經常聽到 Java 程式比 C/C++ 程式慢的言論,但是執行速度慢的真正原因是什麼,估計很多人並不清楚。對於 CPU 密集型的程式(即程式中包含大量計算),Java 程式可以達到 C/C++ 程式同等級別的速度,但是對於 I/O 密集型的程式(即程式中包含大量 I/O 操作),Java 程式的速度就遠遠慢於 C/C++ 程式了,很大程度上是因為 C/C++ 程式能直接訪問底層的儲存裝置。因此,不記錄日誌而得到大幅度效能提升的原因是,Java 程式的 I/O 操作較慢,是一個很耗時的操作。

共享資料庫連線。共有 5 次資料庫連線操作,每次都需重新建立資料庫連線,資料庫插入操作完成之後又立即釋放了,資料庫連線沒有被複用。為了做到共享資料庫連線,可以通過單例模式(Singleton Pattern)獲得一個相同的資料庫連線,每次資料庫連線操作都共享這個資料庫連線。這裡沒有使用資料庫連線池(Database Connection Pool)是因為在程式只有少量的資料庫連線操作,只有在大量併發資料庫連線的時候才需要連線池。


清單 2. 共享資料庫連線的程式碼片段
				 
 public class JdbcUtil { 
    private static Connection con; 
    // 從配置檔案讀取連線資料庫的資訊
    private static String driverClassName; 
    private static String url; 
    private static String username; 
    private static String password; 
    private static String currentSchema; 
    private static Properties properties = new Properties(); 

    static { 
    // driverClassName, url, username, password, currentSchema 等從配置檔案讀取,程式碼略去
        try { 
            Class.forName(driverClassName); 
        } catch (ClassNotFoundException e) { 
            e.printStackTrace(); 
        } 
        properties.setProperty("user", username); 
        properties.setProperty("password", password); 
        properties.setProperty("currentSchema", currentSchema); 
        try { 
            con = DriverManager.getConnection(url, properties); 
        } catch (SQLException e) { 
            e.printStackTrace(); 
        } 
    } 
    private JdbcUtil() {} 
 // 獲得一個單例的、共享的資料庫連線
 public static Connection getConnection() { 
        return con; 
    } 
    public static void close() throws SQLException { 
        if (con != null) 
            con.close(); 
 } 
 } 

通過上述的優化之後,效能有了小幅度的提升,從 50 秒左右降到了 40 秒左右。共享資料庫連線而得到的效能提升的原因是,資料庫連線是一個耗時耗資源的操作,需要同遠端計算機進行網路通訊,建立 TCP 連線,還需要維護連線狀態表,建立資料緩衝區。如果共享資料庫連線,則只需要進行一次資料庫連線操作,省去了多次重新建立資料庫連線的時間。

使用預編譯 SQL。具體做法是使用 java.sql.PreparedStatement 代替 java.sql.Statement 生成 SQL 語句。PreparedStatement 使得資料庫預先編譯好 SQL 語句,可以傳入引數。而 Statement 生成的 SQL 語句在每次提交時,資料庫都需進行編譯。在執行大量類似的 SQL 語句時,可以使用 PreparedStatement 提高執行效率。使用 PreparedStatement 的另一個好處是不需要拼接 SQL 語句,程式碼的可讀性更強。通過上述的優化之後,效能有了小幅度的提升,從 40 秒左右降到了 30~35 秒左右。


清單 3. 使用 Statement 的程式碼片段
				 
        // 需要拼接 SQL 語句,執行效率不高,程式碼可讀性不強
        StringBuilder sql = new StringBuilder(); 
        sql.append("insert into table1(column1,column2) values('"); 
        sql.append(column1Value); 
        sql.append("','"); 
        sql.append(column2Value); 
        sql.append("');"); 

        Statement st; 
        try { 
            st = con.createStatement(); 
            st.executeUpdate(sql.toString()); 
        } catch (SQLException e) { 
            e.printStackTrace(); 
        } 


清單 4. 使用 PreparedStatement 的程式碼片段
				 
        // 預編譯 SQL 語句,執行效率高,可讀性強
String sql = “insert into table1(column1,column2) values(?,?)”; 
PreparedStatement pst = con.prepareStatement(sql); 
pst.setString(1,column1Value); 
pst.setString(2,column2Value); 
pst.execute(); 

使用 SQL 批處理。通過 java.sql.PreparedStatement 的 addBatch 方法將 SQL 語句加入到批處理,這樣在呼叫 execute 方法時,就會一次性地執行 SQL 批處理,而不是逐條執行。通過上述的優化之後,效能有了小幅度的提升,從 30~35 秒左右降到了 30 秒左右。

使用多執行緒實現併發 / 並行。清空資料庫表的操作、把從 2 個外部系統 D 取得的資料插入資料庫記錄的操作,是相互獨立的任務,可以給每個任務分配一個執行緒執行。清空資料庫表的操作應該先於資料庫插入操作完成,可以通過 java.lang.Thread 類的 join 方法控制執行緒執行的先後次序。在單核 CPU 時代,作業系統中某一時刻只有一個執行緒在執行,通過程序 / 執行緒排程,給每個執行緒分配一小段執行的時間片,可以實現多個程序 / 執行緒的併發(concurrent)執行。而在目前的多核多處理器背景下,作業系統中同一時刻可以有多個執行緒並行(parallel)執行,大大地提高了計算速度。


清單 5. 使用多執行緒的程式碼片段
				 
Thread t0 = new Thread(new ClearTableTask()); 
Thread t1 = new Thread(new StoreServersTask(ADDRESS1)); 
Thread t2 = new Thread(new StoreServersTask(ADDRESS2)); 

try { 
    t0.start(); 
    // 執行完清空操作後,再進行後續操作
    t0.join(); 
    t1.start(); 
    t2.start(); 
    t1.join(); 
    t2.join(); 
} catch (InterruptedException e) { 
    e.printStackTrace(); 
} 

// 斷開資料庫連線
try { 
    JdbcUtil.close(); 
} catch (SQLException e) { 
    e.printStackTrace(); 
} 

通過上述的優化之後,效能有了大幅度的提升,從 30 秒左右降到了 15 秒以下,10~15 秒之間。使用多執行緒而得到的效能提升的原因是,系統部署所在的伺服器是多核多處理器的,使用多執行緒,給每個任務分配一個執行緒執行,可以充分地利用 CPU 計算資源。

筆者試著給每個任務分配兩個執行緒執行,希望能使程式執行得更快,但是事與願違,此時程式執行的時間反而比每個任務分配一個執行緒執行的慢,大約 20 秒。筆者推測,這是因為執行緒較多(相對於 CPU 的核心數),使得 CPU 忙於執行緒的上下文切換,過多的執行緒上下文切換使得程式的效能反而不如之前。因此,要根據實際的硬體環境,給任務分配適量的執行緒執行。

使用 DAO 模式抽象出資料訪問層。原來的程式碼中混雜著 JDBC 操作資料庫的程式碼,程式碼結構顯得十分凌亂。使用 DAO 模式(Data Access Object Pattern)可以抽象出資料訪問層,這樣使得程式可以獨立於不同的資料庫,即便訪問資料庫的程式碼發生了改變,上層呼叫資料訪問的程式碼無需改變。並且程式設計師可以擺脫單調繁瑣的資料庫程式碼的編寫,專注於業務邏輯層面的程式碼的開發。通過上述的優化之後,效能並未有提升,但是程式碼的可讀性、可擴充套件性大大地提高了。


圖 2. DAO 模式的層次結構
圖 2. DAO 模式的層次結構

清單 6. 使用 DAO 模式的程式碼片段
				 
 // DeviceDAO.java,定義了 DAO 抽象,上層的業務邏輯程式碼引用該介面,面向介面程式設計
 public interface DeviceDAO { 
    public void add(Device device); 
 } 

 // DeviceDAOImpl.java,DAO 實現,具體的 SQL 語句和資料庫操作由該類實現
 public class DeviceDAOImpl implements DeviceDAO { 
    private Connection con; 
    public DeviceDAOImpl() { 
        // 獲得資料庫連線,程式碼略去
    } 
 @Override 
 public void add(Device device) { 
        // 使用 PreparedStatement 進行資料庫插入記錄操作,程式碼略去
    } 
 } 

回顧以上程式碼優化過程:關閉日誌記錄、共享資料庫連線、使用預編譯 SQL、使用 SQL 批處理、使用多執行緒實現併發 / 並行、使用 DAO 模式抽象出資料訪問層,程式執行時間從最初的 100 秒左右降低到 15 秒以下,在效能上得到了很大的提升,同時也具有了更好的可讀性和可擴充套件性。

結束語

通過該專案例項,筆者深深地感到,想要寫出一個性能優化、可讀性可擴充套件性強的程式,需要對計算機系統的基本概念、原理,程式語言的特性,軟體系統架構設計都有較深入的理解。“紙上得來終覺淺,絕知此事要躬行”,想要將這些基本理論、程式設計技巧融會貫通,還需要不斷地實踐,並總結心得體會。