1. 程式人生 > >蘇先生之大資料面試經驗總結(二)

蘇先生之大資料面試經驗總結(二)

1、flume與kafka的區別
flume適合做日誌採集,可以定製多種資料來源,減少開發量;而kafka是分散式訊息處理的中介軟體,自帶儲存功能,適合做日誌快取;flume主要用於將資料往HDFS、HBASE傳送;如果涉及多個系統的使用,可以選擇用kafka
2、kafka如何保證資料不丟失、不重複消費
(1)在同步模式下,將ACKS設為-1,也就是將訊息寫入leader和所有的副本
(2)在非同步模式下,如果訊息傳送出去了還沒有收到確認的時候,緩衝池滿了,在配置檔案中設定成不限時阻塞超時的時間,也就是說讓生產一直阻塞下去,這樣資料也不會丟
(3)將訊息的offset儲存起來(如儲存到HBASE),每次訊息處理時判斷是否處理過
3、如何搭建一個高併發高可用的平臺
(1)空間換時間
多級快取:使用者頁面快取、反向代理快取、cache機制等
索引:雜湊(適用於資料的快速存取)、B+樹(適用於查詢,避免多次IO)、倒排(適用於搜尋領域)
(2)並行與分散式計算
切分任務、分而治之(基於資料的分解)
多程序、多執行緒並行執行(基於問題的分解)
(3)多維度的可用
負載均衡、容錯、備份
讀寫分離
依賴關係(能非同步處理則非同步)
監控模組的執行
(4)伸縮
拆分(業務邏輯的分段、對資料的分表分庫)
(5)優化資源利用
資源的釋放

相關推薦

先生資料面試經驗總結

1、flume與kafka的區別 flume適合做日誌採集,可以定製多種資料來源,減少開發量;而kafka是分散式訊息處理的中介軟體,自帶儲存功能,適合做日誌快取;flume主要用於將資料往HDFS、HBASE傳送;如果涉及多個系統的使用,可以選擇用kafka

面試經驗總結2018

前言 今年由於個人原因換了份工作,年底找工作不是很好找,面試不是很多。其實主要還是自己水平跟不上的原因,隨著工作年限的增加,要求知識面會越來越廣。後面找了一段時間終於有公司肯簽下我這個全明星前鋒(自我安慰)了,所以在這裡對面試做個總結,提醒下自己要不斷地學習,同時也希望可以

去BAT,你應該要看一看的面試經驗總結

unique lock lose 單鏈表 一個數 協議頭 art 進制 操作系統原理 來源微信公眾號『easyserverdev』 http://mp.weixin.qq.com/s/UZljzFMjobo1wzCguY7NDg 說下我的面試經驗吧,都是親身經歷,

java 面試基礎總結---多線程

future sync 一個 副本 void all call ava task 1、實現多線程的三種方法 1.繼成Thread 類,覆蓋run()方法即可 2.implements Runnable接口 3.implements Callale接口,執行時通過Future

資料Hadoop學習筆記

Single Node Setup 官網地址 1. 本地模式 2.偽分散式模式 ************************* 本地模式 **************************** . grep input output ‘dfs[a-

HTTP介面自動化經驗總結Okhttp3 介面測試框架搭建

搭建這套環境前,需要Eclipse安裝testNG,Maven 1.Eclipse安裝testNG https://mp.csdn.net/postedit/81868683 2.Eclipse安裝Maven http://www.cnblogs.com/pengyan-9826/p

網路安全、Web安全、滲透測試筆經面經總結

轉載地址:https://www.cnblogs.com/christychang/p/6593163.html   這篇文章涉及的知識點有如下幾方面: 1.SSL Strip(SSp)攻擊到底是什麼? 2.中間人攻擊——ARP欺騙的原理、實戰及防禦 3會話劫持原理 4.CC攻擊 5.

春招面試經驗系列網易遊戲

網易遊戲一、MapReduce的split和HDFS的block的關係?1、split是HDFS的邏輯分割槽,是用來控制Mapper的數量,split既可以比block大也可以比block小,split分了多少個則就有多少個Mapper,當沒有指定split的大小時,預設的是

資料筆記spark篇:pyspark的安裝

開篇 關於spark的配置其實沒有必要詳細地寫,這邊我放上我學習參考的廈門大學的部落格,拖了n年,我總算把單機版的spark給安裝上了。 環境變數 export JAVA_HOME=/usr/lib/jvm/default-java export HA

資料的核心技術

我們在上一篇文章中給大家介紹了大資料的部分核心技術,分別是資料探勘和機器學習。在大資料中,資料探勘和機器學習都是發揮了不同的功能。在這篇文章中我們給大家介紹一下人工智慧和其他大資料處理的基礎技術,希望這篇文章能能夠給大家帶來幫助。 首先說說人工智慧,AI和大資料是相互促進的關係,一方面,AI基礎理論技術

資料:Spark CoreDriver上的Task的生成、分配、排程

1. 什麼是Task?在前面的章節裡描述過幾個角色,Driver(Client),Master,Worker(Executor),Driver會提交Application到Master進行Worker上的Executor上的排程,顯然這些都不是Task.Spark上的幾個關係

[網易面試]自己總結

如何做適配 CocoaPod是什麼 64位與32位如何相容 C++與objective如何混編 對記憶體管理理解 單詞輸出 連結串列深淺拷貝(迴圈連結串列) C++深淺拷貝 海量資料 求top k 用了哪些第

資料:Spark Storage 叢集下的broadcast

Spark BroadCast Broadcast 簡單來說就是將資料從一個節點複製到其他各個節點,常見用於資料複製到節點本地用於計算,在前面一章中討論過Storage模組中BlockManager,Block既可以儲存在記憶體中,也可以儲存在磁碟中,當Executor節點

VB查詢資料庫組合查詢——機房收費總結

     在機房收費系統中,組合查詢用的還是挺多的,像上機狀態查詢窗體、學生上機統計資訊窗體、操作員工記錄窗體、基本資訊維護窗體。這其中,學生基本資訊維護窗體中的東西比較多,就以它為例子,說說組合查詢吧!      學生基本資訊維護窗體如圖所示:     先把程式碼放在

資料開發崗位面試經驗總結一線、二線,獨角獸,外企,外國企業

為什麼想走? 跟很多人也許不同,我這裡並不是待遇問題,反而認為現在公司在網際網路公司中的待遇算一股清流了:額外家屬子女商業保險、總包17薪、出國團建、加班少、工作氛圍愉快,沒有所謂大公司政治鬥爭,這些對於我畢業第一份工作已經非常滿意。之所以決定離開,主要源於個人

HTTP介面自動化經驗總結Okhttp3 介面測試框架搭建資料處理

上篇文章寫了怎麼新建POST,GET方法。這篇文章介紹下該如何校驗。 因為我們在方法裡面都返回了String型別結果,String型別校驗起來比較麻煩。多數http介面返回的都是json形式。我們可以寫一個通用方法將String型別轉換為Map物件這樣校驗就比較方便準確了。廢話不多說直接上方法。

資料面試要點總結

首先是大牛的建議: 我覺得面試是否成功主要取決是否能讓面試官感覺到自己有專案經驗,而體現專案經驗呢,主要靠一些技術亮點,介紹專案時能說出一些技術亮點是很關鍵的,這些技術亮點應該是企業專案中的一個個解決方案,解決方案就是使用xx技術解決xx問題,比如使用threadlocal和攔截器解決分頁引

JAVA與資料面試總結

Java基礎知識 Java中常用演算法:冒泡、選擇、快速 冒泡:兩兩比較,每一輪(0~length-i)挑出一個最值,並將其移除,迴圈遍歷1~length   選擇:外面定義從0~length-1,先選定一個最先面的下目標作為最小下標,將其所對應的值逐一與其他比較,如果

多年資料開發經驗總結

初入行,搞大資料開發。得高人指點,先學mapreduce,不足一年,tez興,後入此道。朝夕不倦,發憤圖強,才能略知一二。無奈後浪推前浪,tez被spark拍在沙灘上,遂投spark之懷。繼而抖擻精神,奮袂而起,github、stackoverflow輪番上陣,

資料電話日誌分析callLog案例

一、前端實現 -- 按照時間段查詢通話記錄 ----------------------------------------- 1.完善calllog的dao類calllog.class ----------------------------------------------