1. 程式人生 > >高並發架構消息隊列面試題解析

高並發架構消息隊列面試題解析

scim 系列化 開始 計算 連續 耦合 技巧 是你 apach

面試題

  • 為什麽使用消息隊列?

  • 消息隊列有什麽優點和缺點?

  • Kafka、ActiveMQ、RabbitMQ、RocketMQ 都有什麽區別,以及適合哪些場景?

面試官心理分析

其實面試官主要是想看看:

  • 第一,你知不知道你們系統裏為什麽要用消息隊列這個東西? 不少候選人,說自己項目裏用了 Redis、MQ,但是其實他並不知道自己為什麽要用這個東西。其實說白了,就是為了用而用,或者是別人設計的架構,他從頭到尾都沒思考過。 沒有對自己的架構問過為什麽的人,一定是平時沒有思考的人,面試官對這類候選人印象通常很不好。因為面試官擔心你進了團隊之後只會木頭木腦的幹呆活兒,不會自己思考。

  • 第二,你既然用了消息隊列這個東西,你知不知道用了有什麽好處&壞處? 你要是沒考慮過這個,那你盲目弄個 MQ 進系統裏,後面出了問題你是不是就自己溜了給公司留坑?你要是沒考慮過引入一個技術可能存在的弊端和風險,面試官把這類候選人招進來了,基本可能就是挖坑型選手。就怕你幹 1 年挖一堆坑,自己跳槽了,給公司留下無窮後患。

  • 第三,既然你用了 MQ,可能是某一種 MQ,那麽你當時做沒做過調研? 你別傻乎乎的自己拍腦袋看個人喜好就瞎用了一個 MQ,比如 Kafka,甚至都從沒調研過業界流行的 MQ 到底有哪幾種。每一個 MQ 的優點和缺點是什麽。每一個 MQ 沒有絕對的好壞,但是就是看用在哪個場景可以揚長避短,利用其優勢,規避其劣勢。 如果是一個不考慮技術選型的候選人招進了團隊,leader 交給他一個任務,去設計個什麽系統,他在裏面用一些技術,可能都沒考慮過選型,最後選的技術可能並不一定合適,一樣是留坑。

面試題剖析

為什麽使用消息隊列

其實就是問問你消息隊列都有哪些使用場景,然後你項目裏具體是什麽場景,說說你在這個場景裏用消息隊列是什麽?

面試官問你這個問題,期望的一個回答是說,你們公司有個什麽業務場景,這個業務場景有個什麽技術挑戰,如果不用 MQ 可能會很麻煩,但是你現在用了 MQ 之後帶給了你很多的好處。

先說一下消息隊列常見的使用場景吧,其實場景有很多,但是比較核心的有 3 個:解耦、異步、削峰。

解耦

看這麽個場景。A 系統發送數據到 BCD 三個系統,通過接口調用發送。如果 E 系統也要這個數據呢?那如果 C 系統現在不需要了呢?A 系統負責人幾乎崩潰......

技術分享圖片

在這個場景中,A 系統跟其它各種亂七八糟的系統嚴重耦合,A 系統產生一條比較關鍵的數據,很多系統都需要 A 系統將這個數據發送過來。A 系統要時時刻刻考慮 BCDE 四個系統如果掛了該咋辦?要不要重發,要不要把消息存起來?頭發都白了啊!

如果使用 MQ,A 系統產生一條數據,發送到 MQ 裏面去,哪個系統需要數據自己去 MQ 裏面消費。如果新系統需要數據,直接從 MQ 裏消費即可;如果某個系統不需要這條數據了,就取消對 MQ 消息的消費即可。這樣下來,A 系統壓根兒不需要去考慮要給誰發送數據,不需要維護這個代碼,也不需要考慮人家是否調用成功、失敗超時等情況。

技術分享圖片

總結:通過一個 MQ,Pub/Sub 發布訂閱消息這麽一個模型,A 系統就跟其它系統徹底解耦了。

面試技巧:你需要去考慮一下你負責的系統中是否有類似的場景,就是一個系統或者一個模塊,調用了多個系統或者模塊,互相之間的調用很復雜,維護起來很麻煩。但是其實這個調用是不需要直接同步調用接口的,如果用 MQ 給它異步化解耦,也是可以的,你就需要去考慮在你的項目裏,是不是可以運用這個 MQ 去進行系統的解耦。在簡歷中體現出來這塊東西,用 MQ 作解耦。

異步

再來看一個場景,A 系統接收一個請求,需要在自己本地寫庫,還需要在 BCD 三個系統寫庫,自己本地寫庫要 3ms,BCD 三個系統分別寫庫要 300ms、450ms、200ms。最終請求總延時是 3 + 300 + 450 + 200 = 953ms,接近 1s,用戶感覺搞個什麽東西,慢死了慢死了。用戶通過瀏覽器發起請求,等待個 1s,這幾乎是不可接受的。

技術分享圖片

一般互聯網類的企業,對於用戶直接的操作,一般要求是每個請求都必須在 200 ms 以內完成,對用戶幾乎是無感知的。

如果使用 MQ,那麽 A 系統連續發送 3 條消息到 MQ 隊列中,假如耗時 5ms,A 系統從接受一個請求到返回響應給用戶,總時長是 3 + 5 = 8ms,對於用戶而言,其實感覺上就是點個按鈕,8ms 以後就直接返回了,爽!網站做得真好,真快!

技術分享圖片

削峰

每天 0:00 到 12:00,A 系統風平浪靜,每秒並發請求數量就 50 個。結果每次一到 12:00 ~ 13:00 ,每秒並發請求數量突然會暴增到 5k+ 條。但是系統是直接基於 MySQL 的,大量的請求湧入 MySQL,每秒鐘對 MySQL 執行約 5k 條 SQL。

一般的 MySQL,扛到每秒 2k 個請求就差不多了,如果每秒請求到 5k 的話,可能就直接把 MySQL 給打死了,導致系統崩潰,用戶也就沒法再使用系統了。

但是高峰期一過,到了下午的時候,就成了低峰期,可能也就 1w 的用戶同時在網站上操作,每秒中的請求數量可能也就 50 個請求,對整個系統幾乎沒有任何的壓力。

技術分享圖片

如果使用 MQ,每秒 5k 個請求寫入 MQ,A 系統每秒鐘最多處理 2k 個請求,因為 MySQL 每秒鐘最多處理 2k 個。A 系統從 MQ 中慢慢拉取請求,每秒鐘就拉取 2k 個請求,不要超過自己每秒能處理的最大請求數量就 ok,這樣下來,哪怕是高峰期的時候,A 系統也絕對不會掛掉。而 MQ 每秒鐘 5k 個請求進來,就 2k 個請求出去,結果就導致在中午高峰期(1 個小時),可能有幾十萬甚至幾百萬的請求積壓在 MQ 中。

技術分享圖片

這個短暫的高峰期積壓是 ok 的,因為高峰期過了之後,每秒鐘就 50 個請求進 MQ,但是 A 系統依然會按照每秒 2k 個請求的速度在處理。所以說,只要高峰期一過,A 系統就會快速將積壓的消息給解決掉。

def write_sample_to_tfrecord():
gmv_values = np.arange(10)
click_values = np.arange(10)
label_values = np.arange(10)
http://dasheng178.com/#portal/list.html
with tf.python_io.TFRecordWriter(www.sanxingyLzc.com"/Users/zhongfucheng/data/fashin/demo.tfrecord", options=None) as writer:
for _ in range(10):
feature_internal www.suolaieyule.com/= {
"gmv": tf.train.Feature(float_list=tf.train.FloatList(value=[gmv_values[_]])),
"click": tf.train.Feature(int64_list=tf.train.Int64List(value=[click_values[_]])),
"label": tf.train.Feature(www.michenggw.com int64_list=tf.www.dfgjpt.com train.Int64List(value=[label_values[_]]))
}
features_extern = tf.train.Features(www.michenggw.com feature=feature_internal)

# 使用tf.train.Example將features編碼數據封裝成特定的PB協議格式
# example = tf.www.bsylept.com train.Example(www.yongshi123.cn features=tf.train.Features(feature=features_extern))
example = tf.www.meiwanyule.cn/ train.Example(www.hengtongyoule.com features=features_extern)

# 將example數據系列化為字符串
example_str = example.SerializeToString()

# 將系列化為字符串的example數據寫入協議緩沖區
writer.write(example_str)

消息隊列有什麽優缺點

優點上面已經說了,就是在特殊場景下有其對應的好處,解耦、異步、削峰。

缺點有以下幾個:

  • 系統可用性降低 系統引入的外部依賴越多,越容易掛掉。本來你就是 A 系統調用 BCD 三個系統的接口就好了,人 ABCD 四個系統好好的,沒啥問題,你偏加個 MQ 進來,萬一 MQ 掛了咋整,MQ 一掛,整套系統崩潰的,你不就完了?

  • 系統復雜度提高 硬生生加個 MQ 進來,你怎麽保證消息沒有重復消費?怎麽處理消息丟失的情況?怎麽保證消息傳遞的順序性?頭大頭大,問題一大堆,痛苦不已。

  • 一致性問題 A 系統處理完了直接返回成功了,人都以為你這個請求就成功了;但是問題是,要是 BCD 三個系統那裏,BD 兩個系統寫庫成功了,結果 C 系統寫庫失敗了,咋整?你這數據就不一致了。

所以消息隊列實際是一種非常復雜的架構,你引入它有很多好處,但是也得針對它帶來的壞處做各種額外的技術方案和架構來規避掉,做好之後,你會發現,媽呀,系統復雜度提升了一個數量級,也許是復雜了 10 倍。但是關鍵時刻,用,還是得用的。

技術分享圖片

綜上,各種對比之後,有如下建議:

一般的業務系統要引入 MQ,最早大家都用 ActiveMQ,但是現在確實大家用的不多了,沒經過大規模吞吐量場景的驗證,社區也不是很活躍,所以大家還是算了吧,我個人不推薦用這個了;

後來大家開始用 RabbitMQ,但是確實 erlang 語言阻止了大量的 Java 工程師去深入研究和掌控它,對公司而言,幾乎處於不可控的狀態,但是確實人家是開源的,比較穩定的支持,活躍度也高;

不過現在確實越來越多的公司會去用 RocketMQ,確實很不錯,畢竟是阿裏出品,但社區可能有突然黃掉的風險(目前 RocketMQ 已捐給 Apache,但 GitHub 上的活躍度其實不算高)對自己公司技術實力有絕對自信的,推薦用 RocketMQ,否則回去老老實實用 RabbitMQ 吧,人家有活躍的開源社區,絕對不會黃。

所以中小型公司,技術實力較為一般,技術挑戰不是特別高,用 RabbitMQ 是不錯的選擇;大型公司,基礎架構研發實力較強,用 RocketMQ 是很好的選擇。

如果是大數據領域的實時計算、日誌采集等場景,用 Kafka 是業內標準的,絕對沒問題,社區活躍度很高,絕對不會黃,何況幾乎是全世界這個領域的事實性規範。

高並發架構消息隊列面試題解析