1. 程式人生 > >ChaosBlade 釋出對 C++ 應用混沌實驗的支援

ChaosBlade 釋出對 C++ 應用混沌實驗的支援

前言

為滿足 C++ 應用系統故障演練,阿里媽媽安全生產團隊開源了 C++ 混沌實驗執行器,填補了 C++ 應用混沌工程實驗的空白,其遵循《混沌實驗模型》,可通過 ChaosBlade 工具直接執行。專案詳情點選這裡! 。

本文重點介紹該執行器的架構圖、支援的實驗場景,並以 Demo 為例介紹具體的使用方式,附錄介紹了阿里媽媽內部混沌實驗流程。

新版本 chaosblade 下載地址在這裡!

實驗場景

目前支援的 C++ 混沌實驗場景如下,具體使用方式可詳見下文:

  • 針對某個方法,或者某行程式碼注入延遲故障;
  • 針對某個方法,或者某行程式碼注入替換變數,或者物件值,可以製造呼叫第三方介面返回結果中包含錯誤碼等等故障;
  • 針對某個方法,或者某行程式碼注入立刻退出方法並返回指定值(可以是錯誤值)的故障;

架構圖


解釋說明:

  • C++ 混沌實驗執行器包括 8 個模組:模型匹配器模組、應用狀態獲取模組、流程控制模組、在應用執行中注入故障模組、應用未啟動狀態啟動應用並注入故障模組、故障恢復模組、解除安裝實驗器模組 和 日誌記錄模組;
  • 模型匹配器模組:會把使用者傳入的引數匹配《混沌實驗模型》,發現不符合規範的引數,將停止執行,並返回使用者相應提示;
  • 應用狀態獲取模組:獲取待注入故障的 C++ 應用目前的狀態;
  • 流程控制模組:可以控制整個實驗器的執行流程;
  • 在應用執行中注入故障模組:在 C++ 應用執行狀態時,在不改變應用原有程式碼,和編譯檔案的情況下,直接注入故障到程序;
  • 應用未啟動狀態啟動應用並注入故障模組:在 C++ 應用未啟動狀態,在不改變應用原有程式碼,和編譯檔案的情況下,啟動應用,並同時注入故障;
  • 故障恢復模組:當某一個實驗或演練場景完成,基於該模組移除該場景的故障;
  • 解除安裝實驗器模組:當所有實驗或演練場景都完成,基於該模組移除應用所有故障,並退出 C++ 混沌實驗執行器的程序;
  • 日誌記錄模組:可以把 C++ 混沌實驗執行器執行過程中的情況記錄到日誌中;
  • C++ 應用:待注入故障的應用,在故障注入過程中,C++ 混沌實驗執行器通過 attach 方式把 C++ 應用做為自己的子程序進行狀態跟蹤;
  • ChaosBlade:混沌實驗注入工具;

使用方法

可以通過如下三種方式對 C++ 應用注入故障:

  • 登入待注入故障的機器,使用 chaosblade 提供的命令列方式實施演練;
  • 登入待注入故障的機器,手動啟動 C++ 應用混沌實驗執行器,直接呼叫執行器提供的 api 實施演練;
  • 通過混沌實驗平臺,可以很方便的對多臺機器,甚至整個分組叢集同時注入故障,阿里雲 AHAS 後續會支援此執行器;

接下來,通過一個 C++ 應用混沌實驗 DEMO 給大家介紹前兩種方式怎樣實現一次 C++ 應用的混沌實驗。

C++ 應用混沌實驗DEMO

這次實驗,我們演練 linux 系統下 C++ 實現的 socket server 應用和 socket client 應用通訊的過程中,socket server 介面延遲 3 秒。接下來我們下載所需要的 Socket Demo:
Socket-server.tar.gz下載地址,詳情參考這裡

下載完成後,解壓並編譯:

g++ -g -c tcp_server.cpp -o tcp_server.o
g++ -g tcp_server.o main.cpp -I. -o server

Socket-client.tar.gz下載地址,詳情參考這裡

下載完成後,解壓並編譯:

g++ -g -c tcp_client.cpp -o tcp_client.o
g++ -g tcp_client.o main.cpp -I. -o client

啟動 socket server:

./server 9527

啟動 socket client:

./client 127.0.0.1 9527

啟動成功以後會提示:"send message to server"

接下來輸入想傳給 socket server 內容比如:666

socket server 應用收到訊息以後提示:

Received a connection from 127.0.0.1

Received message: 666
完成以上步驟表示 socket server 應用和 socket client 應用部署成功。

通過 chaosblade 的命令列方式實施演練
接下來我們要使用 blade 工具進行混沌實驗,在執行實驗前,我們需要先執行 prepare 命令,掛載所需要的 c++ agent:

./blade prepare cplus --port 8370 --wait-time 10

返回以下結果,表示實驗準備成功:

{"code":200,"success":true,"result":"e669d57f079a00cc"}

我們開始實施混沌實驗,呼叫 socket server 介面延遲 3 秒,我們執行以下命令:

./blade create cplus delay --delayDuration 3 --breakLine tcp_server.cpp:33 --fileLocateAndName /home/admin/socketServer/server --forkMode child --processName server --initParams 9527 --libLoad /home/lib

返回以下結果,表示執行成功;

{"code":200,"success":true,"result":"ec695fee1e458fc6"}

對實施實驗的命令進行解析:

  • --delayDuration: 3,表示延遲 3 s;單位是 s (delay action 特有的過濾條件)
  • --breakLine: tcp_server.cpp:33, 加入斷點的位置,可以是某一行,也可以是某個方法名 (對應混沌實驗模型的 Matcher:實驗規則匹配器)
  • --fileLocateAndName: /home/admin/socketServer/server,C++應用可執行檔案的位置和名字 (對應混沌實驗模型的 Matcher:實驗規則匹配器)
  • --forkMode: child,表示我們把故障注入到子程序還是父程序 (對應混沌實驗模型的 Matcher:實驗規則匹配器)
  • --processName: server,可以唯一標識出C++應用程序的標識,比如程序名 (對應混沌實驗模型的 Matcher:實驗規則匹配器)
  • --initParams: 9527,C++ 程序正常啟動的時候,啟動命令中執行檔案後面的引數 (對應混沌實驗模型的 Matcher:實驗規則匹配器)
  • --libLoad: /home/lib,如果啟動C++ 程序的時候如果需要設定類庫資料夾地址,可以在這裡設定(比如 /home/lib),如果啟動時,不需要載入自定義類庫,該項可以填入空格 (對應混沌實驗模型的 Matcher:實驗規則匹配器)

完成實驗後,可以執行如下命令停止當前延遲的混沌實驗:

./blade destroy ec695fee1e458fc6

ec695fee1e458fc6 是之前建立實驗返回的 UID

注:接收到 destroy 請求後,會刪除與 UID 相對應的混沌實驗規則。

不盡興的話,我們再實施對 server 內部變數的修改,把 server 對外開放的監聽埠 9527 改成 9529。

和剛才延遲命令引數差不多,因為相同的引數是演練 C++ 應用所需要的,不同的是沒有了 --delayDuration,多了個 --varaibleName 和 --varaibleValue 引數。我們模擬呼叫剛才的服務對外開放的監聽埠 9527 改成 9529:

./blade c cplus modify --varaibleName listen_port --varaibleValue 9529 --breakLine tcp_server.cpp:11 --fileLocateAndName /home/admin/socketServer/server --forkMode child --processName server --initParams 9527 --libLoad /home/lib

返回以下結果,並在 socket client 可驗證埠是否被修改。

{"code":200,"success":true,"result":"09dd96f4c062df69"}

停止此次試驗:

./blade destroy 09dd96f4c062df69

最後,我們撤銷剛才的實驗準備,即解除安裝 c++ Agent:

./blade revoke e669d57f079a00cc

直接呼叫執行器提供的 api 實施演練
掛載所需要的 c++ agent:

nohup java -jar chaosblade-exec-cplus.jar --server.port=8703 --script.location=/home/staragent/plugins/monkeyking/chaosblade/lib/cplus/ &

開始故障注入,傳送 url 請求:

chaosblade/create?suid=e669d57f079a00cc&target=cplus&action=delay&breakLine=tcp_server.cpp:33&fileLocateAndName=/home/admin/socketServer/server&forkMode=child&processName=server&delayDuration=3&initParams=9527&libLoad=

其中請求引數為

{
    "suid": "e669d57f079a00cc",
    "target": "cplus",
    "action": "delay",
    "breakLine": "tcp_server.cpp:33",
    "fileLocateAndName": "/home/admin/socketServer/server",
    "forkMode": "child",
    "processName": "server",
    "delayDuration": “3”,
    "initParams": "9527",
    "libLoad": ""
}

這種方式增加了幾個引數,解析如下:

create: 建立混沌實驗請求

suid: 請求引數,實驗的 ID,後續停止實驗會用到此 ID

target: 請求引數,實驗的元件目標,cplus 代表 針對 C++ 應用的實驗

action: 請求引數,執行實驗的場景,delay

注:

suid、target、action 是 create 請求的必要引數, breakLine、fileLocateAndName、forkMode、processName、delayDuration、initParams、libLoad 引數根據 target 和 action 的不同而不同。

接收到請求,會根據 target 和 action 呼叫引數校驗器,驗證引數值是否合法,如果合法,則記錄此次試驗;

對應元件埋點觸發時,如果查詢到有此元件的實驗,則獲取匹配器所需引數,和下發的實驗規則進行匹配,匹配成功,則呼叫場景執行器觸發實驗。

停止此次試驗,通過發url 請求:chaosblade/destroy?suid=ec695fee1e458fc6

其中請求引數是:

{
    "suid": "ec695fee1e458fc6"
}

suid: 請求引數,之前建立實驗返回的 UID

最後,我們撤銷剛才的實驗準備,即解除安裝 c++ Agent,通過發url 請求:chaosblade/remove

後續規劃

後續會加入更多混沌實驗場景,也歡迎大家試用,提 issue、pr,star, 一起交流、探索和完善。

chaosblade github 地址點選這裡

github 地址點選這裡

附錄

實驗流程 & 原理


解釋說明:

以上流程中,在實際的故障模擬演練,或突襲演練中,實驗準備階段,故障注入階段,故障恢復階段 和 實驗器解除安裝階段,為故障注入方(或藍軍)操作,故障效果採集監控項有效性驗證,故障處置階段為故障模擬成功以後,故障注入方(或藍軍)確認故障注入效果,也是故障處置方(或紅軍)接收報警,定位,並處置故障的階段;

實驗執行器底層基於 GDB 實現,故障注入階段有提到啟動 gdb 一步。

本文作者:周鵬飛,花名鵬毅(@leonardo669),C++混沌實驗執行器作者,阿里巴巴技術專家。

 

原文連結

本文為雲棲社群原創內容,未經