1. 程式人生 > >淺談軟體效能測試中關鍵指標的監控與分析

淺談軟體效能測試中關鍵指標的監控與分析

淺談軟體效能測試中關鍵指標的監控與分析

一、軟體效能測試需要監控哪些關鍵指標?

軟體效能測試的目的主要有以下三點:

Ø  評價系統當前效能,判斷系統是否滿足預期的效能需求。

Ø  尋找軟體系統可能存在的效能問題,定位效能瓶頸並解決問題。

Ø  判定軟體系統的效能表現,預見系統負載壓力承受力,在應用部署之前,評估系統性能。

而對於使用者來說,則最關注的是當前系統:

Ø  是否滿足上線效能要求?

Ø  系統極限承載如何?

Ø  系統穩定性如何?

       因此,針對以上效能測試的目的以及使用者的關注點,要達到以上目的並回答使用者的關注點,就必須首先執行效能測試並明確需要收集、監控哪些關鍵指標,通常情況下,效能測試監控指標主要分為:資源指標和系統指標,如下圖所示,資源指標與硬體資源消耗直接相關,而系統指標則與使用者場景及需求直接相關。

效能測試監控關鍵指標說明:

Ø  資源指標

CPU使用率:指使用者程序與系統程序消耗的CPU時間百分比,長時間情況下,一般可接受上限不超過85%。

記憶體利用率:記憶體利用率=(1-空閒記憶體/總記憶體大小)*100%,一般至少有10%可用記憶體,記憶體使用率可接受上限為85%。

磁碟I/O: 磁碟主要用於存取資料,因此當說到IO操作的時候,就會存在兩種相對應的操作,存資料的時候對應的是寫IO操作,取資料的時候對應的是是讀IO操作,一般使用% Disk Time(磁碟用於讀寫操作所佔用的時間百分比)度量磁碟讀寫效能。

網路頻寬:一般使用計數器Bytes Total/sec來度量,Bytes Total/sec表示為傳送和接收位元組的速率,包括幀字元在內。判斷網路連線速度是否是瓶頸,可以用該計數器的值和目前網路的頻寬比較。

Ø  系統指標:

併發使用者數:某一物理時刻同時向系統提交請求的使用者數。

線上使用者數:某段時間內訪問系統的使用者數,這些使用者並不一定同時向系統提交請求。

平均響應時間:系統處理事務的響應時間的平均值。事務的響應時間是從客戶端提交訪問請求到客戶端接收到伺服器響應所消耗的時間。對於系統快速響應類頁面,一般響應時間為3秒左右。

事務成功率:效能測試中,定義事務用於度量一個或者多個業務流程的效能指標,如使用者登入、儲存訂單、提交訂單操作均可定義為事務,如下圖所示:

單位時間內系統可以成功完成多少個定義的事務,在一定程度上反應了系統的處理能力,一般以事務成功率來度量,計算公式如下所示:

超時錯誤率:

主要指事務由於超時或系統內部其它錯誤導致失敗佔總事務的比率。

二、如何監控關鍵指標?

Ø  資源指標監控

主要針對各伺服器系統平臺(Windows、Linux、Unix等)資源使用進行監控。

可以使用系統自帶的效能監控工具或者第三方工具進行監控,如Windows系統自帶的“系統性能監視器”,如下圖所示:

Linux系統下,free、vmstat、sar、iostat等命令監控記憶體、CPU、磁碟IO等的使用情況,如下圖所示:

第三方監控工具,如spotlight,spotlight是quest公司開發的一款可以針對多種系統平臺及資料庫進行監控的視覺化工具,如下圖所示:

Nmon是IBM提供的監控AIX和Linux系統資源的免費工具,可以對收集的資源資訊通過Excel進行統計分析形成直觀的統計圖,如下圖所示:

Ø  系統指標監控

系統指標監控一般通過效能測試工具(如LoadRunner、Jmeter等)以圖形化方式監控,如下圖所示,併發使用者數與平均響應時間關係圖。

三、如何分析監控的關鍵指標?

通過第二部分監控收集到效能度量關鍵指標,如何進行分析,並判斷是否存在效能瓶頸呢?以下主要從資源指標與系統指標兩方面進行闡述。

Ø   資源指標分析

判斷CPU是否是瓶頸的方法:一般情況下CPU滿負荷工作,有時候並不能判定為CPU出現瓶頸,比如Linux總是試圖要CPU儘可能的繁忙,使得任務的吞吐量最大化,即CPU儘可能最大化使用。因此,一般判斷CPU為瓶頸,主要從兩方面:一是CPU空閒持續為0,二是執行佇列大於CPU核數(經驗值3-4倍),即可判定存在瓶頸,對於CPU高消耗主要由什麼引起的,可能是應用程式不合理造成,也可能是硬體資源不足,需要具體問題具體分析,比如問題SQL語句引起,則需要跟蹤並優化引起CPU使用過高的SQL語句。

判斷記憶體是否是瓶頸的方法:一般至少有10%可用記憶體,記憶體使用率可接受上限為85%。當空閒記憶體變小時,系統開始頻繁地調動磁碟頁面檔案,空閒記憶體過小可能是記憶體不足或記憶體洩漏引起,需要根據系統實際情況監控分析。

判斷磁碟I/O是否是瓶頸的方法:磁碟I/O對於資料庫伺服器、檔案伺服器、流媒體伺服器系統來說,更容易成為瓶頸,一般從以下幾個方面對磁碟I/O進行分析判斷:

①    計算每磁碟I/O數

每磁碟I/O數可用來與磁碟的I/O能力進行對比,如果經過計算得到的每磁碟I/O數超過了磁碟標稱的I/O能力,則說明確實存在磁碟的效能瓶頸,每磁碟I/O計算方法如下表:

RAID型別

計算方法

RAID0

(Reads+Writes)/Numbers of Disks

RAID1

(Reads+2*Writes)/2

RAID5

[Reads+(4*Writes)] /Numbers of Disks

RAID10

[Reads+(2*Writes)] /Numbers of Disks

②    監控磁碟讀寫,如果磁碟長時間進行大資料量讀寫操作,且cpu等待超過20%,則說明磁碟I/O存在問題,考慮提高磁碟I/O讀寫效能。

判斷網路頻寬是否是瓶頸的方法:判斷網路頻寬是否是系統執行效能瓶頸的首要條件是網路頻寬是否會影響系統交易執行效能。例如:減小網路頻寬,併發使用者數、響應時間與事務通過率等效能指標是否不能接受;或者增加網路頻寬,併發使用者數、響應時間與事務通過率等效能指標會得到明顯提高。

在實際效能測試中,如果發現始終報連線超時,而實際手工訪問可以正常訪問,可以通過ping應用伺服器IP或閘道器IP,如果出現網路嚴重延遲或丟包,則說明網路不穩定,需要檢查網路。

通過對資源指標四個指標的分析,實際上各個方面都是互相依賴的,不能孤立的單從某個方面進行排查。當一個方面出現效能問題時,往往會引發其他方面的效能問題,例如,大量的磁碟讀寫勢必消耗CPU和IO資源,而記憶體的不足會導致頻繁地進行記憶體頁寫入磁碟、磁碟寫到記憶體的操作,造成磁碟IO瓶頸,同時,大量的網路流量也會造成CPU過載,所以,在分析效能問題時,需要從各個方面進行考慮。

Ø  系統指標分析

併發使用者數:系統能夠支援的使用者數是系統容量的重要標誌,併發使用者數用於度量系統在高併發量訪問下,系統的並行處理能力,一般如果系統中存在死鎖、資源爭用,在併發訪問下,由於請求處於佇列等待中,系統響應就會隨著時間變慢。

一般情況下,選用高吞吐量、高資料庫I/O、高商業風險的業務功能進行併發使用者訪問測試。

判斷系統能夠承受的最大併發使用者數,通常以滿足以下條件為準:

1、業務功能操作平均響應時間在合理範圍之內

2、事務成功率在合理範圍之內

3、 系統執行無故障(無異常宕機)

4、系統資源指標使用在合理範圍內

平均響應時間:對於客戶端使用者來說,最直觀的體驗就是訪問該頁面快或者慢,即響應時間的長短。比如在持續併發效能測試過程中,客戶感知訪問應用很慢,監控到的平均響應時間也逐漸變長,這時就需要先借助於監控到的資源指標,首先排除資源方面的限制因素,再從應用本身進行定位,如可以採用頁面細分工具(如httpwatch、Loadrunner Anaysis中的頁面元件細分)分析響應比較慢的頁面。

事務成功率、超時出錯率:事務成功率越高,則表明系統處理能力越大;而失敗事務主要由於系統響應慢,導致訪問業務功能超時,或者系統業務功能異常,不能正常訪問等,需要根據事務錯誤提示資訊,具體分析。

綜上所述,軟體效能測試是執行、監控—〉分析—〉調優不斷進行的過程,即監控是為分析提供更多的參考資料,分析是為了進行調優,調優是解決當前系統存在的效能瓶頸,為使用者提供更好、更快的客戶體驗。由於分析、調優需要根據具體問題進行具體分析,本文未做過多說明,只對通用的關鍵指標進行監控分析,建議在實際工作中可從資源指標與系統指標兩個方面,層層檢測、步步排查,效能問題就無處藏身,一旦找到出現問題的原因,效能問題也就迎刃而解!