1. 程式人生 > >RPC框架(一)RPC簡介

RPC框架(一)RPC簡介

一、概述

隨著公司規模的擴大,以及業務量的激增,單體應用逐步演化為服務/微服務的架構模式, 服務之間的呼叫大多采用rpc的方式呼叫,或者訊息佇列的方式進行解耦。幾乎每個大廠都會建立自己的rpc框架,或者基於知名的rpc框架進行改造。

目前, rpc框架主要沿著兩條路線發展,一個是目標為了跨語言,服務端可以用不同的語言實現,客戶端也可以用不同的語言實現,不同的語言實現的客戶端和伺服器端可以互相呼叫。很顯然,要支援不同的語言,需要基於那種語言實現相同協議的框架,並且協議設計應該也是跨語言的,其中比較典型的是 grpc,基於同一個IDL,可以生成不同語言的程式碼,並且語言的支援也非常的多。

另一個rpc框架發展的目標是支援服務治理,主要的精力放在服務發現、路由、容錯處理等方面,主要圍繞一個語言開發,可能也有一些第三方曲折的實現服務的呼叫和服務的實現,這其中的代表,也是比較早的開源的框架就是阿里巴巴的dubbo。

有些rpc框架協議的涉及一開始就沒有考慮的跨語言,其中使用了語言的一些特有的屬性,比如Java的ObjectInputStream/ObjectOutputStream, Golang的Gob等,有些在協議的設計上就考慮了通用性, 使用JSON或者Protobuffer作為資料序列化。

有些框架是基於TCP的二進位制流的資料傳輸,有些基於http的request/response模型進行請求,也有基於http2的流式傳輸,更有一些支援可信賴的UDP進行資料傳入,比如quic、kcp等。

有些提供了生態圈的一些框架,比如gateway、agent等,有些restful風格的rpc框架天然支援API gateway進行負載均衡。

二、RPC

2.1、RPC定義

RPC(Remote Procedure Call Protocol)遠端過程呼叫協議。一個通俗的描述是:客戶端在不知道呼叫細節的情況下,呼叫存在於遠端計算機上的某個物件,就像呼叫本地應用程式中的物件一樣。比較正式的描述是:一種通過網路從遠端計算機程式上請求服務,而不需要了解底層網路技術的協議。那麼我們至少從這樣的描述中挖掘出幾個要點:

  • RPC是協議:既然是協議就只是一套規範,那麼就需要有人遵循這套規範來進行實現。目前典型的RPC實現包括:Dubbo、Thrift、GRPC、Hetty等。這裡要說明一下,目前技術的發展趨勢來看,實現了RPC協議的應用工具往往都會附加其他重要功能,例如Dubbo還包括了服務治等功能。

  • 網路協議和網路IO模型對其透明:既然RPC的客戶端認為自己是在呼叫本地物件。那麼傳輸層使用的是TCP/UDP還是HTTP協議,又或者是一些其他的網路協議它就不需要關心了。既然網路協議對其透明,那麼呼叫過程中,使用的是哪一種網路IO模型呼叫者也不需要關心。

  • 資訊格式對其透明:我們知道在本地應用程式中,對於某個物件的呼叫需要傳遞一些引數,並且會返回一個呼叫結果。至於被呼叫的物件內部是如何使用這些引數,並計算出處理結果的,呼叫方是不需要關心的。那麼對於遠端呼叫來說,這些引數會以某種資訊格式傳遞給網路上的另外一臺計算機,這個資訊格式是怎樣構成的,呼叫方是不需要關心的。

  • 應該有跨語言能力:為什麼這樣說呢?因為呼叫方實際上也不清楚遠端伺服器的應用程式是使用什麼語言執行的。那麼對於呼叫方來說,無論伺服器方使用的是什麼語言,本次呼叫都應該成功,並且返回值也應該按照呼叫方程式語言所能理解的形式進行描述。

那麼上面的描述情況可以用下圖表示:

這裡寫圖片描述

2.2、RPC主要組成部分

當然,上圖是作為RPC的呼叫者所觀察到的現象(而實際情況是客戶端或多或少的還是需要知道一些呼叫RPC的細節)。但是我們是要講解RPC的基本概念,所以RPC協議內部是怎麼回事就要說清楚:

這裡寫圖片描述

  • Client:RPC協議的呼叫方。就像上文所描述的那樣,最理想的情況是RPC Client在完全不知道有RPC框架存在的情況下發起對遠端服務的呼叫。但實際情況來說Client或多或少的都需要指定RPC框架的一些細節。

  • Server:在RPC規範中,這個Server並不是提供RPC伺服器IP、埠監聽的模組。而是遠端服務方法的具體實現(在JAVA中就是RPC服務介面的具體實現)。其中的程式碼是最普通的和業務相關的程式碼,甚至其介面實現類本身都不知道將被某一個RPC遠端客戶端呼叫。

  • Stub/ProxyRPC代理存在於客戶端,因為要實現客戶端對RPC框架“透明”呼叫,那麼客戶端不可能自行去管理訊息格式、不可能自己去管理網路傳輸協議,也不可能自己去判斷呼叫過程是否有異常。這一切工作在客戶端都是交給RPC框架中的“代理”層來處理的

  • Message Protocol:在上文我們已經說到,一次完整的client-server的互動肯定是攜帶某種兩端都能識別的,共同約定的訊息格式。RPC的訊息管理層專門對網路傳輸所承載的訊息資訊進行編碼和解碼操作。目前流行的技術趨勢是不同的RPC實現,為了加強自身框架的效率都有一套(或者幾套)私有的訊息格式。

  • Transfer/Network Protocol傳輸協議層負責管理RPC框架所使用的網路協議、網路IO模型。例如Hessian的傳輸協議基於HTTP(應用層協議);而Thrift的傳輸協議基於TCP(傳輸層協議)。傳輸層還需要統一RPC客戶端和RPC服務端所使用的IO模型;

  • Selector/Processor:存在於RPC服務端,用於伺服器端某一個RPC介面的實現的特性(它並不知道自己是一個將要被RPC提供給第三方系統呼叫的服務)。所以在RPC框架中應該有一種“負責執行RPC介面實現”的角色。包括:管理RPC介面的註冊、判斷客戶端的請求許可權、控制介面實現類的執行在內的各種工作。

  • IDL:實際上IDL(介面定義語言)並不是RPC實現中所必須的。但是需要跨語言的RPC框架一定會有IDL部分的存在。這是因為要找到一個各種語言能夠理解的訊息結構、介面定義的描述形式。如果您的RPC實現沒有考慮跨語言性,那麼IDL部分就不需要包括,例如JAVA RMI因為就是為了在JAVA語言間進行使用,所以JAVA RMI就沒有相應的IDL。

一定要說明一點,不同的RPC框架實現都有一定設計差異。例如生成Stub的方式不一樣,IDL描述語言不一樣、服務註冊的管理方式不一樣、執行服務實現的方式不一樣、採用的訊息格式封裝不一樣、採用的網路協議不一樣。但是基本的思路都是一樣的,上圖中的所列出的要素也都是具有的。

三、影響RPC框架效能的因素

這裡寫圖片描述

在物理伺服器效能相同的情況下,以下幾個因素會對一款RPC框架的效能產生直接影響:

  • 使用的網路IO模型:RPC伺服器可以只支援傳統的阻塞式同步IO,也可以做一些改進讓RPC伺服器支援非阻塞式同步IO,或者在伺服器上實現對多路IO模型的支援。這樣的RPC伺服器的效能在高併發狀態下,會有很大的差別。特別是單位處理效能下對記憶體、CPU資源的使用率。

  • 基於的網路協議:一般來說您可以選擇讓您的RPC使用應用層協議,例如HTTP或者HTTP/2協議,或者使用TCP協議,讓您的RPC框架工作在傳輸層。工作在哪一層網路上會對RPC框架的工作效能產生一定的影響,但是對RPC最終的效能影響並不大。但是至少從各種主流的RPC實現來看,沒有采用UDP協議做為主要的傳輸協議的。

  • 訊息封裝格式:選擇或者定義一種訊息格式的封裝,要考慮的問題包括:訊息的易讀性、描述單位內容時的訊息體大小、編碼難度、解碼難度、解決半包/粘包問題的難易度。當然如果您只是想定義一種RPC專用的訊息格式,那麼訊息的易讀性可能不是最需要考慮的。訊息封裝格式的設計是目前各種RPC框架效能差異的最重要原因,這就是為什麼幾乎所有主流的RPC框架都會設計私有的訊息封裝格式的原因。dubbo中訊息體資料包含dubbo版本號、介面名稱、介面版本、方法名稱、引數型別列表、引數、附加資訊

  • Schema 和序列化(Schema & Data Serialization):序列化和反序列化,是物件到二進位制資料的轉換,程式是可以理解物件的,物件一般含有 schema 或者結構,基於這些語義來做特定的業務邏輯處理。考察一個序列化框架一般會關注以下幾點:
    Encoding format 。是 human readable(是否能直觀看懂 json) 還是 binary(二進位制)。
    Schema declaration 。也叫作契約宣告,基於 IDL,比如 Protocol Buffers/Thrift,還是自描述的,比如 JSON、XML。另外還需要看是否是強型別的。
    語言平臺的中立性 。比如 Java 的 Native Serialization 就只能自己玩,而 Protocol Buffers 可以跨各種語言和平臺。
    新老契約的相容性 。比如 IDL 加了一個欄位,老資料是否還可以反序列化成功。
    和壓縮演算法的契合度 。跑 benchmark (基準)和實際應用都會結合各種壓縮演算法,例如 gzip、snappy。
    效能 。這是最重要的,序列化、反序列化的時間,序列化後資料的位元組大小是考察重點。
    序列化方式非常多,常見的有 Protocol Buffers, Avro,Thrift,XML,JSON,MessagePack,Kyro,Hessian,Protostuff,Java Native Serialize,FST 。

  • 實現的服務處理管理方式:在高併發請求下,如何管理註冊的服務也是一個性能影響點。您可以讓RPC的Selector/Processor使用單個執行緒執行服務的具體實現(這意味著上一個客戶端的請求沒有處理完,下一個客戶端的請求就需要等待)、您也可以為每一個RPC具體服務的實現開啟一個獨立的執行緒執行(可以一次處理多個請求,但是作業系統對於“可執行的最大執行緒數”是有限制的)、您也可以執行緒池來執行RPC具體的服務實現(目前看來,在單個服務節點的情況下,這種方式是比較好的)、您還可以通過註冊代理的方式讓多個服務節點來執行具體的RPC服務實現。

四、工業界的 RPC 框架一覽

4.1、國內

4.2、國外

Thrift from facebook https://thrift.apache.org
Avro from hadoop https://avro.apache.org
Finagle by twitter https://twitter.github.I/O/finagle
gRPC by Google http://www.grpc.I/O (Google inside use Stuppy)
Hessian from cuacho http://hessian.caucho.com
Coral Service inside amazon (not open sourced)
上述列出來的都是現在網際網路企業常用的解決方案,暫時不考慮傳統的 SOAP,XML-RPC 等。這些是有網路資料的,實際上很多公司內部都會針對自己的業務場景,以及和公司內的平臺相融合(比如監控平臺等),自研一套框架,但是殊途同歸,都逃不掉剛剛上面所列舉的 RPC 的要考慮的各個部分。

五、如何選擇RPC框架

選擇一個rpc框架會基於多方面的考慮: 框架特性、效能、成熟度、技術支援、社群活躍度等多個方面。最重要一點,這也是往往很多技術人員進入的誤區,“對於技術,不要為了使用而使用,用最簡單合適的技術實現解決問題才是正道”。架構是服務於業務的,能快速方便的滿足業務需求的架構才是好的架構。沒有最好的,只有適合自己的。