Kafka在大資料生態系統中的價值

阿新 • • 發佈：2019-02-09

作者： Jun Rao（為ODBMS撰寫文章的轉載）
譯者： Brian Ling，專注於三高（高效能、高穩定性、高可用性）的碼農。
投稿人：董飛，本科畢業於南開大學，碩士畢業於杜克大學計算機系畢業。在攻讀碩士期間，先後在VLDB，SOCC等頂尖資料庫大會發表論文。先後在創業公司酷迅，百度基礎架構組，Amazon 雲端計算部門，Linkedin擔任高階工程師，負責過垂直搜尋引擎，百度雲端計算平臺研發，廣告系統和線上教育平臺的架構。在大資料領域業界研究多年，涉及Hadoop調優，分散式框架，Data Pipeline, 實時系統。
責編：錢曙光，關注架構和演算法領域，尋求報道或者投稿請發郵件

[email protected]，另有「CSDN 高階架構師群」，內有諸多知名網際網路公司的大牛架構師，歡迎架構師加微信qshuguang2008申請入群，備註姓名+公司+職位。

近幾年，Apache Kafka的應用有了顯著的增長。Kafka最新的客戶包括Uber, Twitter, Netflix, LinkedIn, Yahoo, Cisco, Goldman Sachs 等。Kafka是個高可擴充套件的生產消費者系統。利用Kafka系統，使用者可以釋出大量的訊息，同時也能實時訂閱消費訊息。本文旨在說明Kafka如何在大資料生態系統中扮演越來越重要的角色。

以不變應萬變模式的短板

長期以來，資料庫成為人們存放和處理感興趣資料的首選。資料庫廠商不斷髮布新功能（例如搜尋，流式處理和分析），以確保在資料庫內能完成更多有意思的工作。然而，基於以下2點原因，資料庫模式不再是理想的方案。

原因一：當人們試圖採集其他型別的資料集（例如使用者行為跟蹤記錄，運營效能指標，應用日誌等）, 資料庫變的越來越昂貴。相比於交易資料，這些資料集同等重要，因為利用它們能更深入地理解業務，然而它們的資料量會大到2-3倍的規模。由於傳統資料庫通常依賴於昂貴又高階的儲存系統（例如SAN）, 因而資料庫儲存所有資料集的開銷變的極其昂貴。

其次，隨著越來越多的功能堆砌，資料庫變的過於複雜，在維護之前遺留版本的同時，很難增加新的功能。資料庫廠商跨多年的釋出變的越來越普遍。

專用分散式系統的湧現

在近10年, 為了克服這些短板，人們開始構建專用系統。這些系統生而為了單一的目標，但能夠非常好地完成。因為他們的簡單性，在商業硬體上構建類似的分散式系統逐漸可行。因而，相比以SAN為儲存基礎的資料庫，這些專用系統性價比更高。通常，類似系統是構建在開源專案上,進而降低了所有權的成本。而且，由於這些專用系統只關注單一目標，相比於大而全的系統，他們可以發展和改進得更快。Hadoop引領了這個風潮。它專注於離線資料處理，通過提供分散式檔案系統（HDFS）和計算引擎（MapReduce）來批量儲存和處理資料。相比於資料庫儲存，利用HDFS，企業能夠支援低廉地採集儲存更多有價值的資料集。利用MapReduce，大家能以低廉的代價來針對新資料集提供報告和分析。在其他很多領域，類似的模式在不斷上演。

鍵/值對儲存：Cassandra，MongoDB，HBase等
搜尋：ElasticSearch, Solr 等
流式處理：Storm， Spark Streaming，Samza等
圖：GraphLab，FlockDB 等
時序資料庫：OpenTSDB等

類似專用系統能幫助公司提供更深入地見解, 構建前所未有的新應用。

專用系統資料匯入

當這些專用系統變革IT技術棧，它也會引發新挑戰：如何匯入資料到這些系統中。首先，要注意的是從交易型資料到使用者跟蹤資料，運營指標，服務日誌等，會有很多有趣的資料型別。通常，同一份資料集需要被注入到多個專用系統內。例如，當應用日誌用於離線日誌分析，它和搜尋單個日誌記錄的作用同等重要。這使得構建各自獨立的工作流來採集每種型別的資料，直接匯入到每個相關的專用系統中變的不切實際。

其次，當Hadoop常常儲存所有型別資料的副本，這導致匯入資料到所有其他Hadoop以外的系統無法實行因為大部分系統要求資料實時匯入這是Hadoop所無法保證的。這也是為什麼Kafka能出現並參與大資料生態系統。Kafka有以下不錯的特性：

為了能在商業硬體上，儲存高容量的資料而設計的分散式系統。
設計成能支援多訂閱的系統，同份釋出的資料集能被消費多次。
天生儲存資料到磁碟，在沒有效能損耗的條件下，能同時傳送訊息到實時和批處理消費者。
內建的資料冗餘，因而可以保障高可用性，以用於關鍵任務的資料釋出消費。

大部分被提及的公司在最初階段總是整合多個專用系統。他們利用Kafka作為資料中轉樞紐來實時消費所有型別的資料。同份Kafka資料可以被匯入到不同專用系統中。如下圖所示，我們參考這樣的構架作為流式資料平臺。由於新系統能通過訂閱Kafka，輕易地獲取它想要的資料，我們可以輕鬆地引入額外的專用系統，進入到這系統構架中。

圖片描述

未來展望

業界趨勢是多個專用系統能在大資料生態圈內共存。當更多的公司開始推進實時處理時，由分散式生產/消費系統（例如：Kafka）驅動的流式資料平臺在這生態系統中扮演愈加重要的角色。由此產生的一個影響是人們開始重新思考資料策管流程。目前，很多資料策管例如模式化資料和資料模式的演化將被延遲到資料載入到Hadoop系統內的階段。由於統一資料管理的流程會在其他專用系統重複執行，這對於流式資料平臺並不理想。更好的方案是當資料消化處理，進入Kafka時，早期就開始設計資料策管。這也是我們Confluent目前做的部分工作，更多細節可以參考我們的網站。

Kafka在大資料生態系統中的價值

以不變應萬變模式的短板

專用系統資料匯入

未來展望

Kafka在大資料生態系統中的價值

大資料生態系統基礎：Apache Kafka基礎（一）：介紹和安裝

大資料生態圈中壓縮的使用

大資料入門基礎系列之初步認識大資料生態系統圈（博主推薦）

大資料生態系統基礎： HBASE（一）：HBASE 介紹及安裝、配置

【甲方自白】大資料在企業中的應用價值

比較Apache Hadoop生態系統中不同的文件格式和存儲引擎的性能

Atittit HDFS hadoop 大資料檔案系統java使用總結目錄 1. 作業系統，進行操作 1 2. Hdfs 類似nfs ftp遠端分散式檔案服務 2 3. 啟動hdfs服務start

以太坊生態系統中工具、類庫和開發技術

啟動Zookeeper + Hadoop + Hbase + Kafka大資料服務

大資料推薦系統架構

大資料入門環境搭建整理、大資料入門系列教程合集、大資料生態圈技術整理彙總、大資料常見錯誤合集、大資料的離線和實時資料處理流程分析

大資料推薦系統演算法程式碼全接觸（機器學習演算法+Spark實現）

零基礎入門大資料之spark中rdd部分運算元詳解

零基礎入門大資料之spark中的幾種key-value操作

在cm安裝的大資料管理平臺中整合impala之後讀取hive表中的資料的設定（hue當中執行impala的資料查詢）

大資料linux系統部分命令解析（2）0912

大資料學習系統發展的技術路線

大資料最核心的價值

大資料商業化應用的價值和應用場景是什麼？

Kafka在大資料生態系統中的價值

以不變應萬變模式的短板

專用系統資料匯入

未來展望

相關推薦