為什麼是kafka(二)

阿新 • • 發佈：2018-12-22

回答幾個網友提出的問題，不清楚的可以看上一篇內容。

1、 kafka的刪除策略應該怎麼配置？為了提升效能，我是不是應該1小時刪除一次消費過的資料。

完全可以根據磁碟大小配置，只要磁碟足夠用，完全沒必要刪除的那麼著急。Kafka的吞吐量不會因為資料量的增長而降低。因為讀寫資料時，kafka完全是順序的，只記錄offset，時間複雜度是O（1），我曾經測試過上T的資料，完全不受影響。反倒是資料刪除的太快，容易造成資料丟失。

2、訊息傳送一直失敗，到達了指定重試次數怎麼處理？

客戶端可以設定重試次數和重試間隔時間，因為一般kafka是以叢集形式存在的，一直重試都不能成功，並不多見，常見的情況是應用和kafka

叢集斷網。實際上在重試的過程中，如果應用掛掉，這個訊息就丟失了，如果要避免此種情況發生，需要持久化訊息，當然可以選擇本地持久化和遠端持久化，選擇本地持久化也不是非常安全，因為現在的應用伺服器很有可能是虛擬機器或者容器，遠端持久化相對安全。但是遠端意味著需要網路，如果恰巧遠端持久化也失敗，該怎麼辦？解決此類問題，最後的救命稻草就是日誌。這類問題並不只是在mq中，入庫也是一樣，分散式場景中非常常見，但是因為發生的概率不大，通常都被開發人員忽略。這也就是做結算的永遠都不能把賬算平的原因所在。通常要權衡處理這樣的小概率事件是不是值得。重要的系統通常有定時檢查的功能。作為小概率事件的事後補償機制。

3、

如果總副本數為f，最多允許丟失多少副本？

最多允許丟失f-1個副本，也就是隻要有一個副本就沒問題。當然這和broker的配置有關。從服務端角度，如何儘快將更新後的資料分佈到整個系統，降低達到最終一致性的時間視窗，是提高系統的可用度和使用者體驗非常重要的方面。對於分散式資料系統：

a) N — 資料複製的份數

b) W — 更新資料是需要保證寫完成的節點數

c) R —

讀取資料的時候需要讀取的節點數

任何一個分散式系統，在服務端，要想保持強一致性，必須符合W+R>N，也就是說，假設一共有3個節點，寫資料的時候，三個節點都寫入成功才返回，只要有一個節點存活，就能保證資料是最新的。

4、 Kafka是有順序的嗎？

在同一個partition完全是有順序的，生產者可以設定分割槽策略，可以自定義分割槽策略，這樣就可以根據業務分割槽。舉個例子，如果是跟使用者相關的，完全可以根據使用者id進行分割槽，相同使用者的所有操作都進入同一個分割槽，也就達到了順序性。

當然，有順序也是有害處的，有順序就意味著阻塞，如果消費一條訊息一直失敗，消費過程會受到阻塞，靈活的處理方式是重試到一定次數，把這條訊息持久化到遠端，跳過這條訊息繼續消費。也就意味著失去了順序。

為什麼是kafka(二)

回答幾個網友提出的問題，不清楚的可以看上一篇內容。 1、 kafka的刪除策略應該怎麼配置？為了提升效能，我是不是應該1小時刪除一次消費過的資料。完全可以根據磁碟大小配置，只要磁碟足夠用，完全沒必要刪除的那麼著急。Kafka的吞吐量不會因為資料量的增長而降低。因為讀寫資料時，

Kafka(二) 原始碼環境搭建配置

在Kafka(一)中安裝啟動了Kafka環境，現在來配置下原始碼編譯環境，方便後續在使用過程中可能檢視原始碼，從而對Kafka瞭解更深入。 1. Scala安裝

kafka二次開發程式碼例項

配置檔案b.txt#選擇輸出型別(0.篩選輸出 1.全體輸出 2.不輸出資料) input_type = 1 #篩選條件 source_mac(多條檢索)、user(多條檢索)、message(模糊查詢) #time(1.當輸入一個時間格式：yyyy-MM-dd-HH:mm

SpringBoot -- Kafka(二) Demo

前置工作 Kafka 、zookeeper環境已經完成 JDK完成安裝（kafka環境依賴jvm）瞭解kafka、zookeeper各種的作用 Demo 依然使用現有的feignserver 有說Spr

.net Kafka.Client多個Consumer Group對Topic消費不能完全覆蓋研究總結（二）

eight 分享 stat .com ima topic consumer 閱讀 padding 依據Partition和Consumer的Rebalance策略，找到Kafka.Client Rebalance代碼塊，還原本地環境，跟蹤調試，發現自定義Consumer G

kafka集群安裝及管理（二）

進程 node 規則 nfa 情況 tor back per art 一、broker的遷移1.查看zookeeper和kafka啟動情況[root@slave1 ~]# pssh -h hostlist -i 'jps' [1] 22:08:11 [SUC

Kafka基礎知識（二）

net pic 知識 2個先後 orm 進行進制機器 Kafka進階知識消息概念消息指的是通信的基本單位。由消息生產者（producer）發布關於某個話題（topic）的消息。簡單來說：消息以一種物理方式被發送給了作為代理（broker）的服務器（可能是另外一臺機

Kafka筆記整理（二）：Kafka Java API使用

大數據 Kafka Java [TOC] Kafka筆記整理（二）：Kafka Java API使用下面的測試代碼使用的都是下面的topic： $ kafka-topics.sh --describe hadoop --zookeeper uplooking01:2181,uplooking0

Centos7上 Nginx + ELK Stack +Kafka + Filebeat 實戰二

kafka zookeeper elk 本文與前文是有關聯的，之前的兩篇文章客官可以擡腿出門右轉，elk 導讀, 實戰一kafka的配置安裝：#kafka 和zookeeper 都依賴java ，機器上必須安裝java，具體安裝方法和效驗方法，請各位客官擡腿向上看！#下載安裝包：同樣放到/opt/

Kafka安裝之二在CentOS 7上安裝Kafka

系統 Kafka集群 kafka 客戶結合支持用戶消息處理 from 一、簡介 Kafka是由Apache軟件基金會開發的一個開源流處理平臺，由Scala和Java編寫。Kafka是一種高吞吐量的分布式發布訂閱消息系統，它可以處理消費者規模的網站中的

用strings命令查看kafka-log內容過濾二進制編碼

ons CA 了解編碼 log_file 命令 bash ring iconv kafka的log內容格式還不沒怎麽了解，想快速瀏覽消息內容的話，除了使用它自帶的kafka-console-consumer.sh腳本，還可以直接去看log文件本身，不過內容裏有部分二進制字

kafka源碼分析（二）Metadata的數據結構與讀取、更新策略

思路 sync 源碼分析 png ada ret code 入隊後臺線程一、基本思路異步發送的基本思路就是：send的時候，KafkaProducer把消息放到本地的消息隊列RecordAccumulator，然後一個後臺線程Sender不斷循環，把消息發給K

12C數據庫Goldengate同步異構數據庫Kafka中間件之二

rdf 復制 rod insert ppi pin timestamp table config 前兩天測試環境的需求將上線生產環境，需求還是a. 數據源：SSP庫 ssp.m_system_user，Oracle DB 12.1.0.2.0，Ogg Version 12.

Kafka 消息的序列化與反序列化（二）

data string next() com pid tor final AR exce 自定義反序列化類：對於自定義的avro schema結構，需要有自定義的類在consumer時反序列化，反序列化類實例在consumer構造的時候通過參數傳入 public cl

Kafka（二）Kafka集群搭建

spa 分享圖片 vpd span ali centos HR 微軟雅黑 1.5 環境描述服務器名稱系統配置Srv01.contoso.comCentOS 7、Kafka_2.11-1.1.0IP:172.16.100.10Srv02.contoso.comCentOS 7

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（二）VMW安裝四臺CentOS，並實現本機與它們能交互，虛擬機內部實現可以上網。

centos 失敗 sco pan html top n 而且 div href Centos7出現異常：Failed to start LSB: Bring up/down networking. 按照《Kafka：ZK+Kafka+Spark Streaming集群環

Kafka（二）Kafka生產者和消費者模型

col ace ont 1.5 kafka fff spa sof oss 消費者模型消費模型有分區消費模型、組消費模型。分區消費模型：可以看到在這種模型下分區和消費者是對應的，為了保證最大效率通常一個分區對應一個消費者。生產者模型Kafka（二）Kafka生產者和消費者模

Kafka（二）CentOS7.5搭建Kafka2.11-1.1.0集群與簡單測試

發送 who automatic ready 返回 force script 最大值 sum 一、下載下載地址： http://kafka.apache.org/downloads.html 我這裏下載的是Scala 2.11對應的 kafka_2.11-1.1

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（二十三）Structured Streaming遇到問題：Set(TopicName-0) are gone. Some data may have been missed

ack loss set div top 過程 pan check use 事情經過：之前該topic(M_A)已經存在，而且正常消費了一段時間，後來刪除了topic(M_A)，重新創建了topic（M-B），程序使用新創建的topic（M-B）進行實時統計操作，執行過程中

Kafka設計解析（二十）Apache Flink Kafka consumer

zook 實例發送 abs 版本 conn 事情 save prope 轉載自 huxihx，原文鏈接 Apache Flink Kafka consumer Flink提供了Kafka connector用於消費/生產Apache Kafka topic的數據。

為什麼是kafka(二)

相關推薦