蘇先生之大資料面試經驗總結（二）

阿新 • • 發佈：2019-01-12

1、flume與kafka的區別
flume適合做日誌採集，可以定製多種資料來源，減少開發量；而kafka是分散式訊息處理的中介軟體，自帶儲存功能，適合做日誌快取；flume主要用於將資料往HDFS、HBASE傳送；如果涉及多個系統的使用，可以選擇用kafka
2、kafka如何保證資料不丟失、不重複消費
（1）在同步模式下，將ACKS設為-1，也就是將訊息寫入leader和所有的副本
（2）在非同步模式下，如果訊息傳送出去了還沒有收到確認的時候，緩衝池滿了，在配置檔案中設定成不限時阻塞超時的時間，也就是說讓生產一直阻塞下去，這樣資料也不會丟
（3）將訊息的offset儲存起來（如儲存到HBASE），每次訊息處理時判斷是否處理過
3、如何搭建一個高併發高可用的平臺
（1）空間換時間
多級快取：使用者頁面快取、反向代理快取、cache機制等
索引：雜湊(適用於資料的快速存取)、B+樹(適用於查詢，避免多次IO)、倒排(適用於搜尋領域)
（2）並行與分散式計算
切分任務、分而治之（基於資料的分解）
多程序、多執行緒並行執行（基於問題的分解）
（3）多維度的可用
負載均衡、容錯、備份
讀寫分離
依賴關係(能非同步處理則非同步)
監控模組的執行
（4）伸縮
拆分（業務邏輯的分段、對資料的分表分庫）
（5）優化資源利用
資源的釋放

蘇先生之大資料面試經驗總結（二）

蘇先生之大資料面試經驗總結（二）

面試經驗總結（2018）

去BAT，你應該要看一看的面試經驗總結（轉）

java 面試基礎總結（二）---多線程

大資料Hadoop學習筆記（二）

HTTP介面自動化經驗總結（二）Okhttp3 介面測試框架搭建

網路安全、Web安全、滲透測試之筆經面經總結（二）

春招面試經驗系列（二）網易遊戲

大資料筆記spark篇（二）：pyspark的安裝

大資料的核心技術（二）

大資料：Spark Core（二）Driver上的Task的生成、分配、排程

[網易面試]自己總結（二）

大資料：Spark Storage（二）叢集下的broadcast

VB查詢資料庫之組合查詢——機房收費總結（二）

大資料開發崗位面試經驗總結（一線、二線，獨角獸，外企，外國企業）

HTTP介面自動化經驗總結（三）Okhttp3 介面測試框架搭建之資料處理

大資料面試要點總結

JAVA與大資料面試總結（二）

多年大資料開發經驗總結

大資料之電話日誌分析callLog案例（二）

蘇先生之大資料面試經驗總結（二）

相關推薦