1. 程式人生 > >分享:15道大數據崗位面試題

分享:15道大數據崗位面試題

的區別 協同過濾 分享 模糊 str 基礎 sas 得到 reduce

你認為哪個更好:是好的數據還是好模型?同時你是如何定義“好”?存在所有情況下通用的模型嗎?有你沒有知道一些模型的定義並不是那麽好?
技術分享圖片
1、你處理過的最大的數據量?你是如何處理他們的?處理的結果。
2、告訴我二個分析或者計算機科學相關項目?你是如何對其結果進行衡量的?
3、什麽是:提升值、關鍵績效指標、強壯性、模型按合度、實驗設計、2/8原則?
4、什麽是:協同過濾、n-grams, map reduce、余弦距離?
5、如何讓一個網絡爬蟲速度更快、抽取更好的信息以及更好總結數據從而得到一幹凈的數據庫?
6、如何設計一個解決抄襲的方案?
7、如何檢驗一個個人支付賬戶都多個人使用?
8、點擊流數據應該是實時處理?為什麽?哪部分應該實時處理?
9、你認為哪個更好:是好的數據還是好模型?同時你是如何定義“好”?存在所有情況下通用的模型嗎?有你沒有知道一些模型的定義並不是那麽好?
10、什麽是概率合並(AKA模糊融合)?使用SQL處理還是其它語言方便?對於處理半結構化的數據你會選擇使用哪種語言?
11、你是如何處理缺少數據的?你推薦使用什麽樣的處理技術?
12、你最喜歡的編程語言是什麽?為什麽?
13、對於你喜歡的統計軟件告訴你喜歡的與不喜歡的3個理由。
14、SAS, R, Python, Perl語言的區別是?
15、什麽是大數據的詛咒?
很多初學者,對大數據的概念都是模糊不清的,大數據是什麽,能做什麽,學的時候,該按照什麽線路去學習,學完往哪方面發展,想深入了解,想學習的同學歡迎加入大數據學習qq群:458345782,有大量幹貨(零基礎以及進階的經典實戰)分享給大家,並且有清華大學畢業的資深大數據講師給大家免費授課,給大家分享目前國內最完整的大數據高端實戰實用學習流程體系
技術分享圖片

分享:15道大數據崗位面試題