1. 程式人生 > >Spring Cloud構建微服務架構:分散式服務跟蹤(收集原理)【Dalston版】

Spring Cloud構建微服務架構:分散式服務跟蹤(收集原理)【Dalston版】

               

在本節內容之前,我們已經對如何引入Sleuth跟蹤資訊和搭建Zipkin服務端分析跟蹤延遲的過程做了詳細的介紹,相信大家對於Sleuth和Zipkin已經有了一定的感性認識。接下來,我們介紹一下關於Zipkin收集跟蹤資訊的過程細節,以幫助我們更好地理解Sleuth生產跟蹤資訊以及輸出跟蹤資訊的整體過程和工作原理。

資料模型

我們先來看看Zipkin中關於跟蹤資訊的一些基礎概念。由於Zipkin的實現借鑑了Google的Dapper,所以它們有著類似的核心術語,主要有下面幾個內容:

  • Span:它代表了一個基礎的工作單元。我們以HTTP請求為例,一次完整的請求過程在客戶端和服務端都會產生多個不同的事件狀態(比如下面所說的四個核心Annotation

    所標識的不同階段),對於同一個請求來說,它們屬於一個工作單元,所以同一HTTP請求過程中的四個Annotation同屬於一個Span。每一個不同的工作單元都通過一個64位的ID來唯一標識,稱為Span ID。另外,在工作單元中還儲存了一個用來串聯其他工作單元的ID,它也通過一個64位的ID來唯一標識,稱為Trace ID。在同一條請求鏈路中的不同工作單元都會有不同的Span ID,但是它們的Trace ID是相同的,所以通過Trace ID可以將一次請求中依賴的所有依賴請求串聯起來形成請求鏈路。除了這兩個核心的ID之外,Span中還儲存了一些其他資訊,比如:描述資訊、事件時間戳、Annotation的鍵值對屬性、上一級工作單元的Span ID等。

  • Trace:它是由一系列具有相同Trace ID的Span串聯形成的一個樹狀結構。在複雜的分散式系統中,每一個外部請求通常都會產生一個複雜的樹狀結構的Trace。

  • Annotation:它用來及時地記錄一個事件的存在。我們可以把Annotation理解為一個包含有時間戳的事件標籤,對於一個HTTP請求來說,在Sleuth中定義了下面四個核心Annotation來標識一個請求的開始和結束:

    • cs(Client Send):該Annotation用來記錄客戶端發起了一個請求,同時它也標識了這個HTTP請求的開始。
    • sr(Server Received):該Annotation用來記錄服務端接收到了請求,並準備開始處理它。通過計算sr
      cs兩個Annotation的時間戳之差,我們可以得到當前HTTP請求的網路延遲。
    • ss(Server Send):該Annotation用來記錄服務端處理完請求後準備傳送請求響應資訊。通過計算sssr兩個Annotation的時間戳之差,我們可以得到當前服務端處理請求的時間消耗。
    • cr(Client Received):該Annotation用來記錄客戶端接收到服務端的回覆,同時它也標識了這個HTTP請求的結束。通過計算crcs兩個Annotation的時間戳之差,我們可以得到該HTTP請求從客戶端發起開始到接收服務端響應的總時間消耗。
  • BinaryAnnotation:它用來對跟蹤資訊新增一些額外的補充說明,一般以鍵值對方式出現。比如:在記錄HTTP請求接收後執行具體業務邏輯時,此時並沒有預設的Annotation來標識該事件狀態,但是有BinaryAnnotation資訊對其進行補充。

收集機制

在理解了Zipkin的各個基本概念之後,下面我們結合前面章節中實現的例子來詳細介紹和理解Spring Cloud Sleuth是如何對請求呼叫鏈路完成跟蹤資訊的生產、輸出和後續處理的。

首先,我們來看看Sleuth在請求呼叫時是怎麼樣來記錄和生成跟蹤資訊的。下圖展示了我們在本章節中實現示例的執行全過程:客戶端傳送了一個HTTP請求到trace-1trace-1依賴於trace-2的服務,所以trace-1再發送一個HTTP請求到trace-2,待trace-2返回響應之後,trace-1再組織響應結果返回給客戶端。

在上圖的請求過程中,我們為整個呼叫過程標記了10個標籤,它們分別代表了該請求鏈路執行過程中記錄的幾個重要事件狀態,我們根據事件發生的時間順序我們為這些標籤做了從小到大的編號,1代表請求的開始、10代表請求的結束。每個標籤中記錄了一些我們上面提到過的核心元素:Trace ID、Span ID以及Annotation。由於這些標籤都源自一個請求,所以他們的Trace ID相同,而標籤1和標籤10是起始和結束節點,它們的Trace ID與Span ID是相同的。

根據Span ID,我們可以發現在這些標籤中一共產生了4個不同ID的Span,這4個Span分別代表了這樣4個工作單元:

  • Span T:記錄了客戶端請求到達trace-1trace-1傳送請求響應的兩個事件,它可以計算出了客戶端請求響應過程的總延遲時間。
  • Span A:記錄了trace-1應用在接收到客戶端請求之後呼叫處理方法的開始和結束兩個事件,它可以計算出trace-1應用用於處理客戶端請求時,內部邏輯花費的時間延遲。
  • Span B:記錄了trace-1應用傳送請求給trace-2應用、trace-2應用接收請求,trace-2應用傳送響應、trace-1應用接收響應四個事件,它可以計算出trace-1呼叫trace-2的總體依賴時間(cr - cs),也可以計算出trace-1trace-2的網路延遲(sr - cs),也可以計算出trace-2應用用於處理客戶端請求的內部邏輯花費的時間延遲(ss - sr)。
  • Span C:記錄了trace-2應用在接收到trace-1的請求之後呼叫處理方法的開始和結束兩個事件,它可以計算出trace-2應用用於處理來自trace-1的請求時,內部邏輯花費的時間延遲。

在圖中展現的這個4個Span正好對應了Zipkin檢視跟蹤詳細頁面中的顯示內容,它們的對應關係如下圖所示:

仔細的讀者可能還有這樣一個疑惑:我們在Zipkin服務端查詢跟蹤資訊時(如下圖所示),在查詢結果頁面中顯示的spans是5,而點選進入跟蹤明細頁面時,顯示的Total Spans又是4,為什麼會出現span數量不一致的情況呢?

實際上這兩邊的span數量內容有不同的含義,在查詢結果頁面中的5 spans代表了總共接收的Span數量,而在詳細頁面中的Total Span則是對接收Span進行合併後的結果,也就是前文中我們介紹的4個不同ID的Span內容。下面我們來詳細研究一下Zipkin服務端收集客戶端跟蹤資訊的過程,看看它到底收到了哪些具體的Span內容,從而來理解Zipkin中收集到的Span總數量。

為了更直觀的觀察Zipkin服務端的收集過程,我們可以對之前實現的訊息中介軟體方式收集跟蹤資訊的程式進行除錯。通過在Zipkin服務端的訊息通道監聽程式中增加斷點,我們就能清楚的知道客戶端都發送了一些什麼資訊到Zipkin的服務端。在spring-cloud-sleuth-zipkin-stream依賴包中的程式碼並不多,我們很容易的就能找到定義訊息通道監聽的實現類:org.springframework.cloud.sleuth.zipkin.stream.ZipkinMessageListener。它的具體實現如下所示,其中SleuthSink.INPUT定義了監聽的輸入通道,預設會使用名為sleuth的主題,我們也可以通過Spring Cloud Stream的配置對其進行修改。

@MessageEndpoint@Conditional(NotSleuthStreamClient.class)public class ZipkinMessageListener {   final Collector collector;   @ServiceActivator(inputChannel = SleuthSink.INPUT) public void sink(Spans input) {  List<zipkin.Span> converted = ConvertToZipkinSpanList.convert(input);  this.collector.accept(converted, Callback.NOOP); } ...}

從通道監聽方法的定義中我們可以看到Sleuth與Zipkin在整合的時候是有兩個不同的Span定義的,一個是訊息通道的輸入物件org.springframework.cloud.sleuth.stream.Spans,它是sleuth中定義的用於訊息通道傳輸的Span物件,每個訊息中包含的Span資訊定義在org.springframework.cloud.sleuth.Span物件中,但是真正在zipkin服務端使用的並非這個Span物件,而是zipkin自己的zipkin.Span物件。所以,在訊息通道監聽處理方法中,對sleuth的Span做了處理,每次接收到sleuth的Span之後就將其轉換成Zipkin的Span。

下面我們可以嘗試在sink(Spans input)方法實現的第一行程式碼中加入斷點,並向trace-1傳送一個請求,觸發跟蹤資訊傳送到RabbitMQ上。此時我們通過DEBUG模式可以發現訊息通道中都接收到了兩次輸入,一次來自trace-1,一次來自trace-2。下面兩張圖分別展示了來自trace-1trace-2輸出的跟蹤訊息,其中trace-1的跟蹤訊息包含了3條span資訊,trace-2的跟蹤訊息包含了2條span資訊,所以在這個請求呼叫鏈上,一共傳送了5個span資訊,也就是我們在Zipkin搜尋結果頁面中看到的spans數量資訊。

點開一個具體的Span內容,我們可以看到如下所示的結構,它記錄了Sleuth中定義的Span詳細資訊,包括該Span的開始時間、結束時間、Span的名稱、Trace ID、Span ID、Tags(對應Zipkin中的BinaryAnnotation)、Logs(對應Zipkin中的Annotation)等我們之前提到過的核心跟蹤資訊。

介紹到這裡仔細的讀者可能會有一個這樣的疑惑,在明細資訊中展示的Trace ID和Span ID的值為什麼與列表展示的概要資訊中的Trace ID和Span ID的值不一樣呢?實際上,Trace ID和Span ID都是使用long型別儲存的,在DEBUG模式下檢視其明細時自然是long型別,也就是它的原始值,但是在檢視Span物件的時候,我們看到的是通過toString()函式處理過的值,從sleuth的Span原始碼中我們可以看到如下定義,在輸出Trace ID和Span ID時都呼叫了idToHex函式將long型別的值轉換成了16進位制的字串值,所以在DEBUG時我們會看到兩個不一樣的值。

public String toString() { return "[Trace: " + idToHex(this.traceId) + ", Span: " + idToHex(this.spanId)   + ", Parent: " + getParentIdIfPresent() + ", exportable:" + this.exportable + "]";}public static String idToHex(long id) { return Long.toHexString(id);}

在接收到Sleuth之後我們將程式繼續執行下去,可以看到經過轉換後的Zipkin的Span內容,它們儲存在一個名為converted的列表中,具體內容如下所示:

上圖展示了轉換後的Zipkin Span物件的詳細內容,我們可以看到很多熟悉的名稱,也就是之前我們介紹的關於zipkin中的各個基本概念,而這些基本概念的值我們也都可以在之前sleuth的原始span中找到,其中annotations和binaryAnnotations有一些特殊,在sleuth定義的span中沒有使用相同的名稱,而是使用了logs和tags來命名。從這裡的詳細資訊中,我們可以直觀的看到annotations和binaryAnnotations的作用,其中annotations中儲存了當前Span包含的各種事件狀態以及對應事件狀態的時間戳,而binaryAnnotations則儲存了對事件的補充資訊,比如上圖中儲存的就是該HTTP請求的細節描述資訊,除此之外,它也可以儲存對呼叫函式的詳細描述(如下圖所示)。

下面我們再來詳細看看通過除錯訊息監聽程式接收到的這5個Span內容。首先,我們可以發現每個Span中都包含有3個ID資訊,其中除了標識Span自身的ID以及用來標識整條鏈路的traceId之外,還有一個之前沒有提過的parentId,它是用來標識各Span父子關係的ID(它的值來自與上一步執行單元Span的ID) ,通過parentId的定義我們可以為每個Span找到它的前置節點,從而定位每個Span在請求呼叫鏈中的確切位置。在每條呼叫鏈路中都有一個特殊的Span,它的parentId為null,這類Span我們稱它為Root Span,也就是這條請求呼叫鏈的根節點。為了弄清楚這些Span之間的關係,我們可以從Root Span開始來整理出整條鏈路的Span內容。下表展示了我們從Root Span開始,根據各個Span的父子關係最後整理出的結果:

HostSpan IDParent Span IDAnnotationBinary Annotation
trace-1e9a933ec50d180d6null[sr, ss]
trace-1c48122fa096bffe8e9a933ec50d180d6[trace-1,TraceApplication,trace]
trace-11ae2e9a317faa422c48122fa096bffe8[cs, cr]
trace-21ae2e9a317faa422c48122fa096bffe8[sr, ss]
trace-236194e4182985c4e1ae2e9a317faa422[trace-2,TraceApplication,trace]

上表中的Host代表了該Span是從哪個應用傳送過來的;Span ID是當前Span的唯一標識;Parent Span ID代表了上一執行單元的Span ID;Annotation代表了該Span中記錄的事件(這裡主要用來記錄HTTP請求的四個階段,表中內容作了省略處理,只記錄了Annotation名稱(sr代表服務端接收請求,ss代表服務端傳送請求,cs代表客戶端傳送請求,cr代表客戶端接收請求),省略了一些其他細節資訊,比如服務名、時間戳、IP地址、埠號等資訊);Binary Annotation代表了事件的補充資訊(Sleuth的原始Span記錄更為詳細,Zipkin的Span處理後會去掉一些內容,對於有Annotation標識的資訊,不再使用Binary Annotation補充,在上表中我們只記錄了服務名、類名、方法名,同樣省略了一些其他資訊,比如:時間戳、IP地址、埠號等資訊)。

通過收集到的Zipkin Span詳細資訊,我們很容易的可以將它們與本節開始時介紹的一次呼叫鏈路中的10個標籤內容聯絡起來:

  • Span ID = T的標籤有2個,分別是序號1和10,它們分別表示這次請求的開始和結束。它們對應了上表中ID為e9a933ec50d180d6的Span,該Span的內容在標籤10執行結束後,由trace-1將標籤1和10合併成一個Span傳送給Zipkin Server。
  • Span ID = A的標籤有2個,分別是序號2和9,它們分別表示了trace-1請求接收後,具體處理方法呼叫的開始和結束。該Span的內容在標籤9執行結束後,由trace-1將標籤2和9合併成一個Span傳送給Zipkin Server。
  • Span ID = B的標籤有4個,分別是序號3、4、7、8,該Span比較特殊,它的產生跨越了兩個例項,其中標籤3和8是由trace-1生成的,而標籤4和7則是由trace-2生成的,所以該標籤會拆分成兩個Span內容傳送給Zipkin Server。trace-1會在標籤8結束的時候將標籤3和8合併成一個Span傳送給Zipkin Server,而trace-2會在標籤7結束的時候將標籤4和7合併成一個Span傳送給Zipkin Server。
  • Span ID = C的標籤有2個,分別是序號5和6,它們分別表示了trace-2請求接收後,具體處理方法呼叫的開始和結束。該Span的內容在標籤6執行結束後,由trace-2將標籤2和9合併成一個Span傳送給Zipkin Server。

所以,根據上面的分析,Zipkin總共會收到5個Span:一個Span T,一個Span A,兩個Span B,一個Span C。結合之前請求鏈路的標籤圖和這裡的Span記錄,我們可以總結出如下圖所示的Span收集過程,讀者可以參照此圖來理解Span收集過程的處理邏輯以及各個Span之間的關係。

雖然,Zipkin服務端接收到了5個Span,但就如前文中分析的那樣,其中有兩個Span ID=B的標籤,由於它們來自於同一個HTTP請求(trace-1trace-2的服務呼叫),概念上它們屬於同一個工作單元,因此Zipkin服務端在前端展現分析詳情時會將這兩個Span合併了來顯示,而合併後的Span數量就是在請求鏈路詳情頁面中Total Spans的數量。

下圖是本章示例的一個請求鏈路詳情頁面,在頁面中顯示了各個Span的延遲統計,其中第三條Span資訊就是trace-1trace-2的HTTP請求呼叫,通過點選它可以檢視該Span的詳細資訊,點選後會以模態框的方式彈出Span詳細資訊(如圖下半部分),在彈出框中詳細展示了Span的Annotation和BinaryAnnotation資訊,在Annotation區域我們可以看到它同時包含了trace-1trace-2傳送的Span資訊,而在BinaryAnnotation區域則展示了該HTTP請求的詳細資訊。

完整示例:

讀者可以根據喜好選擇下面的兩個倉庫中檢視trace-1trace-2兩個專案:

如果您對這些感興趣,歡迎star、follow、收藏、轉發給予支援!

原文由程式猿DD-翟永超創作,原文地址:http://blog.didispace.com/spring-cloud-starter-dalston-8-5/