1. 程式人生 > >資料探勘崗面試總結

資料探勘崗面試總結

這個崗位叫法很多,演算法崗,資料探勘崗,機器學習崗,基礎研究等等……
下面總結一下從16年3月開始到9月底這半年的面試情況


百度:
實習生面試
朋友幫我內推了,推了很多崗位,蛋疼,最開始的是個搞分散式平臺的崗位,後面的崗位就不再接受簡歷
1面要寫程式碼,題目是輸入根節點和兩個子節點,找到最小公共父節點,2叉樹只有孩子節點
後面問了一些演算法優化問題,理論差,不太懂。。
2面還要寫程式碼,寫一個棧,新增一個介面,返回當前棧最小值,要求時空都為O(1)
聊的有點久,1小時40分鐘,問了一些演算法問題,簡歷上東西
因為崗位不對口的問題,沒有繼續下去


校招面試
師姐給我內推的,一面聊了2個半小時,寫了很多程式碼
用MapReduce寫好友推薦,在一堆單詞裡面找出現次數最多的k個


其他程式碼題基本都能在劍指offer和微軟面試100題上找到,題目已經忘了

後面又聊了比賽和專案

二面基本都在問hadoop,資料結構與演算法
又聊了1個半小時,hadoop原理,shuffle如何排序,map如何切割資料,如何處理資料傾斜,join的mr程式碼如何寫
動態規劃,樹結構,連結串列結構等等
三面應該是部門老大面的,問了很多性格方面的問題,還有些比賽和專案中遇到的問題
只聊了半個小時,要了身份證,說後面會安排筆試
後來筆試通過了,也就順利的拿到了百度offer

10.8號打電話跟我談待遇,給sp,但是時間太晚了……

騰訊那邊三方都寄過去了



騰訊:
第一次內推是3月的時候招實習生,師兄幫我內推了,簡歷評級是A,但是還是要筆試,還好學校有個TST內推,過了就不用筆試

面了1面就跪了,因為沒複習,問的都知道,說不上來……

第二次是5月的時候補招,推到一個安全部門,面了2面就跪了,問了SVM原理,PageRank原理,怎麼用模型來查詢異常使用者

我講了一大堆我的理解,然後面試官一句你怎麼不用規則把我噎到了……


第三次是校招TST內推,面過了2面,還是跟之前那個有點類似的遊戲開發的安全部門,因為我也玩LOL,又問到怎麼來判斷玩家有沒有作弊之類的問題,這次我小心翼翼的說用模型怎麼做,用規則怎麼做,感覺這次聊的都挺開心的。
三面電話打來的時候我在公交車上,沒接到,打回去是總機……再後來狀態就變成了面試流程放棄……
我特麼也是日了dog……


到了正式校招的時候,參加了筆試,順利通過

心想這次再跪就是4連跪啊……
去西安的路上就抱著李航的統計學習一直看看看看
晚上到了賓館就在草稿紙上推公式

然後一面的時候,果然面試官叫我推公式,LR,SVM,XGBOOST說推就推給你看

AUC的定義和本質,有哪些計算方法

然後在紙上手寫了些程式碼,聊了些比賽和專案,估計面試官驚呆了吧,總之聊的比較開心
面試官發現我是重慶來的,就在簡歷上註明了優先安排面試,然後又問我期望工作城市,我說成都吧,然後又加一句,優先安排成都崗位……
二面的時候感覺沒咋聊好,問的問題都答的不太好
先是叫我用C語言寫記憶體拷貝……這早就忘光了好吧,拿著筆很尷尬的說我不會,但是應該有安全性問題需要考慮下……
然後又問了動態規劃,還有些劍指offer上常見的題目,有的答上來,有的說見過但是忘記了

後面又問了Hadoop,Spark,storm下面的產品,原理,適用場景,也只答上來一部分,spark和strom根本就沒用過,瞎扯了一通

後面問了下DNN原理,應用,也是瞎扯一通……

然後又開始聊專案和比賽……估計是上一個面試官評價比較好的原因吧,2面就這麼過了
HR面的時候一進去就驚呆了,尼瑪HR長這麼好看……
搞得我都有點害羞了,
然後就隨便瞎扯了一些東西,問比賽和專案裡遇到過的困難,問了自己的優勢,我說認識很多大神算不算……
還問了我拿到了哪些公司offer,我說有百度的,還有一個創業公司的,創業公司開的比較高,然後她就問有多高,我說你可能不會信,稅後20*14+包吃包住,公司對面的公寓,單間5k。
接著問了對意向的公司的一個排序是什麼,這時候當然得跪舔騰訊了……
又問了期望待遇,我知道這個問題一般不要瞎扯,問了下騰訊的薪資結構,福利,住房補貼等等,後面HR問我瞭解過MIG嗎,我說不太瞭解,就給了我這個冊子叫我帶回去看看……
其他問題也忘了,後面說可能有個視訊面試,也不知道啥意思……
然後說是9月28之前出結果,過與沒過都能在微信上查到。

9月27號上午,我正在蹲坑,打電話過來跟我說過了

考慮了一整天,決定去騰訊搬人生第一塊轉……



阿里:
實習生面試
2面之後跪了被扔給其他部門重新一面
一面聊了挺多,讓我把一個完整的資料探勘流程講一下,從預處理,特徵工程,到模型融合。
介紹常用的演算法,gbdt和xgboost區別,具體怎麼做預處理,特徵工程,模型融合常用方式,融合一定會提升嗎?
2面不太好,問了怎麼在2G記憶體裡找100TB資料的中位數,還有怎麼解決mapreduce資料傾斜,經常用什麼語言工具開發
然後答的不好被刷掉了,簡歷被扔到菜鳥網路,重新開始一面
一面還是問簡歷的東西,二面應該是總監級的人物吧,天池比賽的菜鳥網路就是他出題。
二面問了我的研究方向,怎麼把研究內容應用到實際中,還做 了其他哪些研究。
不知道為啥,沒有3面,直接HR面了。
3月31號是最後一次面試,直到4月21號才HR面
問我對菜鳥網路的瞭解,我說不太瞭解。。最近的專案,在比賽中的角色,自己的短板,職業規劃,期望工作地點,是保研的還是考研的
我說以後想創業,果然沒過多久就已回絕,自己太天真了,應該跪舔的


校招面試
本來我有比賽top10可以直接終面的,但是朋友告訴我直接終面評價最多隻能到B+,今年招人只要A以上
然後我就叫朋友幫我內推
1面已經忘了問了些啥,反正就是那些
機器學習裡面的東西,資料結構演算法,比賽,專案
2面是遼原,應該是螞蟻金服AI部門老大吧
問了如何在海量資料中查詢給定部分資料最相似的top200向量,向量的維度也很高
因為之前瞭解過其他面螞蟻金服的朋友,也有問到這個題目的
所以反應比較快,直接就說可以用KD樹,聚類,hash
然後又問怎麼衡量兩個商品的價效比,這個題目以前阿里星面試的時候也被問過,就隨便扯了下
後面問了些比賽和專案
3面的時候跟我說螞蟻金服沒名額了,問我願不願意去架構部門做java web開發,於是我先下手為強把阿里刷了

京東:
實習生面試
不知道在哪找到的郵箱,投了進去就直接開始面試
一面還是問的些簡歷上的東西,只聊了20分鐘就說有事,後面讓同事來。。。
二面也是問的簡歷上的比賽和最近做的專案

校招面試
還是讓之前內推的這位總監幫忙內推,結果他告訴我他已經離職創業去了……
然後把簡歷轉給了他的接班人
大概過了很久很久吧,連京東筆試都過了,才開始安排面試
一天之內兩連面,還是問了很多機器學習演算法的東西
為什麼LR需要歸一化或者取對數,為什麼LR把特徵離散化後效果更好
為什麼把特徵組合之後還能提升,反正這些基本都是增強了特徵的表達能力,或者說更容易線性可分吧
還問了專案和比賽
一面聊的挺愉快
比較有意思的是2面的時候面試官不相信我有百度offer,果斷刷掉京東
杭州微店:
是一個浙大的博士姐內推的我,也是她面試的我,主要就問了一些技能,比賽怎麼做的,對淘寶穿衣搭配挺感興趣的,怎麼改善聚類等等。
二面忘了,好像也沒問多深入,就一些常見的東西,業務等等。
三面就是HR面了,問的挺多,各種陷阱,問我為啥不在重慶工作,我說重慶行業發展不夠,先在大城市鍛鍊下再考慮重慶什麼的,下午2點跟我說通過了。
然後5點的時候跟我說不好意思,就因為上面那個問題。
校招的時候又找這個學姐內推,但是直到現在都沒有訊息,反正也懶得面了……


拉勾:
實習生面試
也是問一些劍指offer的題,單鏈表如何判斷有環,從大資料中找出topk
還問了其他資料結構和演算法,專案,比賽等等
說面試過了,但是必須去實習半年以上


還面過蘑菇街,糯米,蘑菇街到HR面了,估計覺得我沒有意向吧,就沒有後文了
糯米2面的時候正在面其他公司,打了10多個未接……我打回去的時候估計已經把我拉黑了吧……
華為面的很水,都沒問演算法方面的問題,大牛專場機試滿分,不知道能不能拿到offer
360和今日頭條校招內推簡歷被刷了……
後來今日頭條HR找過我,叫我去實習,我說早就被頭條刷了



總結
經常會問到的問題,經典演算法推導(加分項),原理,各個損失函式之間區別,使用場景,如何並行化,有哪些關鍵引數

比如LR,SVM,RF,KNN,EM,Adaboost,PageRank,GBDT,Xgboost,HMM,DNN,推薦演算法,聚類演算法,等等機器學習領域的演算法,這些基本都會被問到

XGB和GBDT區別與聯絡也會經常問到:https://www.zhihu.com/question/41354392/answer/128008021?group_id=773629156532445184

哪些優化方法,隨機梯度下降,牛頓擬牛頓原理
生成模型,判別模型
線性分類和非線性分類各有哪些模型
SVM核技巧原理,如何選擇核函式
特徵選擇方法有哪些(能說出來10種以上加分)
常見融合框架原理,優缺點,bagging,stacking,boosting,為什麼融合能提升效果
資訊熵和基尼指數的關係(資訊熵在x=1處一階泰勒展開就是基尼指數)
如何克服過擬合,欠擬合
L0,L1,L2正則化(如果能推導絕對是加分項,一般人最多能畫個等高線,L0是NP問題)
其實上面的這些問題基本都能在《李航:統計學習方法》《周志華:機器學習》裡面找到,能翻個4,5遍基本就無壓力了
另外可以報一下小象學院的機器學習班,等到開團的時候報也就300左右,講的挺不錯的,有演算法推導和程式碼實現,我也是看了之後才明白很多演算法的原理


還會問一些常見的資料結構和演算法,寫程式碼的題基本都是出自《劍指offer》和《微軟面試100題》,只要刷幾遍,程式碼題這裡搞定也是加分項


其餘的基本就是問問比賽,專案,遇到的問題,如何解決,在團隊中的角色,評價自己
面試官問你還有問題要問沒,最好別瞎問,多看看別人的面經吧
比如問點現在這個部門做的業務,遇到過的問題,部門發展的一個規劃
最好別叫面試官評價你,要是評價不好會影響心情,自己的面試表現自己應該清楚


可以在自己面試的時候做記錄,經常複習,先從小公司面起,積累經驗

另外要定位準確,自己的水平自己清楚,不要死磕大公司,浪費了大量時間還經常1面被刷

沒事審視下自己的簡歷,不要把自己不熟悉的東西寫上去,像什麼精通之類的建議改成了解吧……不然會被問哭的

不要裝逼寫2頁,我很多專案比賽都沒寫進去,只寫了幾個名次靠前的比賽,能吹一點的專案,其他沒寫進去的可以找機會主動說出來

專案即使很水,也要吹的很難很厲害的樣子

比賽和專案儘量突出裡面的難點,自己做的貢獻

多刷題也比較重要,我自己的感受是內推問的問題會比通過了筆試問的要難一些,深一些
演算法的推導同樣重要,之前我也是看到那些公式就蛋疼,後面沒辦法,看書看視訊,多手推幾遍,這樣面試的時候更有底氣
個人覺得在面試的時候能手推演算法的應該比較少,所以優勢是很大的

實習生面試跪掉的原因就是沒有複習,對演算法的原理了解不夠深入,所以在校招的時候,9月開始用了將近一個月的時間來複習

建議多交一些牛逼的朋友,我們有個群,6個人,有4個百度offer,有3個騰訊offer,還有個研二估計是下一個阿里星吧

10.9號,我們群裡終於有一個阿里了,終於集齊了bat,可以召喚單挑之王了……他就是天音大魔王

我們經常一起打比賽,在群裡討論學術,裝逼扯淡什麼的,今年只要參加了的比賽,基本都拿獎了吧……

另外感覺大公司也並沒有學校歧視,我的學校211都不是,問都沒問過學校的問題

我本科是個學渣,讀研開始寫程式碼,所以兩年,可以改變很多事情

下面是我準備面試整理的一些資料,裡面有很多演算法以及面試問題

http://download.csdn.NET/detail/bryan__/9640531

大量演算法題參考資料

http://blog.csdn.Net/v_july_v/article/details/6543438

http://blog.csdn.net/hackbuteer1

機器學習公開課

https://www.julyedu.com/video/play/18/10

面試演算法資料

http://www.cnblogs.com/tornadomeet/p/3395593.html

機器學習知識點總結

https://bbs.aliyun.com/read.PHP?spm=5176.100258.100258.8.bhrQ8k&tid=294564&displayMode=1&page=1&toread=1#tpc

http://m.blog.csdn.net/article/details?id=50244695

面試程式設計題十大經典演算法

http://mp.weixin.qq.com/s?__biz=MjM5Nzk2MDU5NA==&mid=2652545706&idx=3&sn=87e964154fa54999719c34c4b67dfff7&scene=0#wechat_redirect


相關推薦

資料面試總結

這個崗位叫法很多,演算法崗,資料探勘崗,機器學習崗,基礎研究等等……下面總結一下從16年3月開始到9月底這半年的面試情況百度:實習生面試朋友幫我內推了,推了很多崗位,蛋疼,最開始的是個搞分散式平臺的崗位,後面的崗位就不再接受簡歷1面要寫程式碼,題目是輸入根節點和兩個子節點

機器學習(資料面試常考問題(知識點總結

應聘資料探勘工程師或機器學習工程師,面試官經常會考量面試者對SVM的理解。以下是我自己在準備面試過程中,基於個人理解,總結的一些SVM面試常考問題(想到會再更新),如有錯漏,請批評指正。(大神請忽視)轉載請註明出處:blog.csdn.net/szlcw1注:基於HOG-SVM演算法的行人檢測流程 見書21頁

百度資料實習生面試經驗

今天又到又愛又恨的百度面試了(已跪過兩次T T),這一次是由學長內推過去的。具體招聘要求如下: 百度xx部xx組急招實習生,要求: 1.熟悉演算法與資料結構 2.熟悉python,shell等 3.熟練掌握java或者c++ 4.能近期儘快入職 5.

資料的知識點總結

資料探勘的步驟:需求->資料抓取->特徵選擇->模型選擇->驗證->應用 雖然步驟是靈活的,但是筆面試還是以這樣的過程為基準的 分析步驟:首先要做技術評估 1, 資料抽取統計分析:對於資料特徵有一個初步的把握 2, 資料清洗 3, 資料變換 4, 歸併和分類

資料經典演算法總結-樸素貝葉斯分類器

貝葉斯定理(Bayes theorem),是概率論中的一個結果,它跟隨機變數的條件概率以及邊緣概率分佈有關。在有些關於概率的解說中,貝葉斯定理(貝葉斯更新)能夠告知我們如何利用新證據修改已有的看法。 通常,事件A在事件B(發生)的條件下的概率,與事件B在事件A的條件下的概率

網易遊戲資料實習生面試經歷

        繼週二的筆試過後,週五下午迎來了筆試通過(恰好是學院拍畢業照),邀請面試的簡訊。睡醒後看到簡訊時還是蠻開心的,畢竟筆試過了,多少給自己增添信心。週六中午面試,也就是說我還有大概8個小時

2019校招阿里資料研發/資料三面總結

2018/8/20:阿里三面總結 寫在前面:面試是在13號進行的,面試時長15min左右,之前約的是視訊面試1h左右的,面試官太忙了,因此轉為了電話面試,主要圍繞專案和個人未來規劃,出去轉了兩天,因此晚更了,開始正題。 1、自我介紹:圍繞簡歷,講述了一下個人研究方向,論文

資料】【總結】專案總結之KDD2017

序 KDD CUP 2017從四月開始做,到今天(0508)已經做了一段時間,成績目前雖然較以前有了不少提升,但距離頂尖還有不少距離。 最近把想到的好實現的東西都實現了,效果也都不錯,但是貌似遇到了瓶頸,現在捋一捋思路,看看還有什麼地方可以繼續提高。 由於

阿里面試經歷及總結資料)+個人學習經歷

//2014年10月12日 //http://bbs.stuhome.net/forum.php?mod=viewthread&tid=1466753&extra=page%3D13 http://danieljyc.github.io/2014/09/20

程式設計師面試、演算法研究、程式設計藝術、紅黑樹、資料5大經典原創系列集錦與總結

作者:July--結構之法演算法之道blog之博主。 時間:2010年10月-2012年9月 (一直在收錄本blog最新updated文章)。 出處:http://blog.csdn.net/v_JULY_v 。 宣告:版權所有,侵犯必究。 前言    開博已過20個

歡聚時代(YY)2018筆試總結資料方向)

附上我自己的答案,題目順序可能有誤,我記不太清楚了=_= 一、單選題(24分) 1.某超市研究銷售紀錄資料後發現,買啤酒的人很大概率也會購買尿布,這種屬於資料探勘的哪類問題?(A)    A. 關聯規則發現       B. 聚類   C. 分類             

搜狐暢遊2018筆試總結資料方向)

剛做完回憶一波題目,記得不太全了,設計概率論、基礎演算法,簡單程式設計 一、選擇題 1.選擇題分為單選和多選,我主要記錄一下當時覺得比較棘手的 2.第一部分單選全是關於遊戲的,大概是我沒理解這是做遊戲的=_= 二、填空題 1.有一個人下8級的樓梯,他一次可以選擇走一

第一次(失敗的)面試:記位元組跳動資料崗位實習生面試經驗

我最開始對資料探勘演算法實習生這個崗位的預估是和機器學習有緊密聯絡的,於是就複習了一些演算法方面的東西,沒有集中刷Leetcode,沒想到面試官只問了我一個關於機器學習問題,還十分的偏數學,與我的預期差距很大。 公司給我的整體印象不錯,環境也很好,就是在給我找面試官和麵

資料學習(四)——常見案例總結

1、K-meaning演算法實戰主要是通過均值來聚類的一個方法。步驟為:1)隨機選擇k個點作為聚類中心;2)計算各個點到這k個點的距離,將距離相近的點聚集在一起,行程k個類;3)將對應的點聚到與他最近的聚類中心;4)分成k個聚類之後,重新計算聚類中心;5)比較當前聚類中心與前

機器學習&資料筆記_16(常見面試之機器學習演算法思想簡單梳理)

  前言:   找工作時(IT行業),除了常見的軟體開發以外,機器學習崗位也可以當作是一個選擇,不少計算機方向的研究生都會接觸這個,如果你的研究方向是機器學習/資料探勘之類,且又對其非常感興趣的話,可以考慮考慮該崗位,畢竟在機器智慧沒達到人類水平之前,機器學習可以作為一種重要手段,而隨著科技的不斷髮展,

資料與機器學習基本演算法總結

在這種學習模式下,輸入資料作為對模型的反饋,不像監督模型那樣,輸入資料僅僅是作為一個檢查模型對錯的方式,在強化學習下,輸入資料直接反饋到模型,模型必須對此立刻作出調整。常見的應用場景包括動態系統以及機器人控制等。常見演算法包括Q-Learning以及時間差學習(Temporal difference le

資料(1)知識點總結

詳細文章轉自:https://blog.csdn.net/sinat_22594309/article/details/74923643資料探勘的一般過程包括以下這幾個方面:1、 資料預處理2、 資料探勘3、 後處理一、資料預處理主要手段分為兩種:選擇分析所需的資料物件和屬性

寫給演算法/資料面試小白的指南--計算機基礎知識

首先,關於計算機基礎知識,無非是考一些我們曾經學過的概念知識: 例如: 1.執行緒與程序的概念及區別 2.java的垃圾回收處理機制 3.hash表的原理 4.JVM的原理 下面來具體介紹一下具

[ 人工智慧]模式識別、機器學習、資料當中的各種距離總結

模式識別、機器學習、資料探勘當中的各種距離總結 在做分類時常常需要估算不同樣本之間的相似性度量(SimilarityMeasurement),這時通常採用的方法就是計算樣本間的“距離”(Distance)。採用什麼樣的方法計算距離是很講究,甚至關係到分類的正確與否。 本文目錄:

最全的資料面試筆試題(修改版)

一、單選題(共80題) ( D )的目的縮小資料的取值範圍,使其更適合於資料探勘演算法的需要,並且能夠得到和原始資料相同的分析結果。 A.資料清洗       B.資料整合 C.資料變換   &nb