1. 程式人生 > >國內網際網路公司演算法&機器學習崗(阿里星)面試總結

國內網際網路公司演算法&機器學習崗(阿里星)面試總結

原文地址:http://blog.csdn.net/lihouyi2010/article/details/50179191

從2015年8月到2015年10月,花了3個月時間找工作,先後通過內推參加了美團、阿里螞蟻金服、京東、騰訊、今日頭條、Growing IO、微軟這7個公司的面試,同時參加了網易遊戲、LinkedI In中國這2個公司的筆試,拿到比較優質的offer是京東Star和阿里星2個Offer。應聘的崗位要麼是演算法工程師,要麼是機器學習與資料探勘崗,企業叫法不同,工作實質都是利用機器學習與特徵工程去解決業務問題。整個求職過程是一個和網際網路企業雙向瞭解,接收面試反饋後不斷思考、調整職業規劃與重複完善知識體系的過程,本文通過介紹我個人的求職過程,向後來者揭示國內網際網路企業對演算法&機器學習崗的要求、面試過程、薪資狀況,也分享一些個人在這個過程中積累起來的見聞、經驗。

本文分為三個部分,筆試&面試、經驗心得、題目彙總。筆試&面試部分介紹各個公司的內推時間點、內推形式、我個人的筆試&面試情況,對了,還有不涉及保密協議的一些薪資情況;經驗心得部分簡單介紹簡歷、內推、面試的一些體會,對了,還有一些捷徑;題目彙總部分包括我個人3個月求職過程中遇到的題目,分為筆試題、程式設計題、機器學習&資料探勘問題、解決方案類題目。

筆試&面試

  1. 美團公司-貓眼電影部門。美團在2015年8月初開始接收內推。貓眼電影今年剛單獨拆分出來,部門內缺少演算法工程師負責機器學習類的工作,所以面試不難,你懂模型、能搞業務就沒問題,程式設計題簡單。薪資為15薪,月薪分為13K、15K、16.5K三檔,後2檔為special offer,16.5檔可以談薪水,沒期權股票,沒北京戶口。
  2. 阿里螞蟻金服-安全&服務與資料事業群-資料智慧部。阿里集團2014年上市,將包括支付寶在內的金融業務剝離單獨成立為螞蟻金服。資料智慧部剛成立,戰略定位頗似螞蟻的資料中樞,用於為各個部門產出資料智慧。我因為參加阿里的移動推薦競賽獲得亞軍,有專場面試的機會。在專場面試中表現神勇,連面4面+CTO面+HR總監面,獲得阿里星。阿里的面試等級為B+,A-,A,A+,A+可以被面試官推到CTO處進行交叉面,面過了就是阿里星。今年阿里的薪資分為AB檔,B檔薪資有8K、10K兩檔,A檔我知道的有16K一檔,定級都是P5。阿里星年薪(此處馬賽克)。
  3. 京東-數字營銷業務部。京東8月底開始內推。數字營銷業務部2014年成立,一年實現100多億的營收,賺了大錢,公司因此開始重視技術。在NLP Job上看到相關內推,順手發了封郵件,第2周的週一就被安排面試,面完2輪面試官給了special offer面試機會。最終的面試流程是2輪技術面+1輪HR面+1輪交叉面+1輪VP面,按照校招宣講的說法這個是京東Star的流程。京東今年的年薪有19.5W、21.5W、26.5W三檔,26.5W檔的薪資可以談,最高可談到40W左右。數字營銷部門有5個左右的戶口,需要按照簡歷情況、面試反饋排隊。
  4. 騰訊-TEG。7月底到阿根廷參加IJCAI會議時,碰到TEG的部門老大,在微信上把簡歷給了他。但部門老大自然不把這種校招內推的事放心上,到了9月初才被安排面試。面了2輪,演算法題比較簡單,但要求bug free,其他時間都在聊模型、資料探勘比賽、實習專案。第二輪面試聊了很久,比較有意思,面試官給我分析了我拿到和可能拿到的offer。騰訊月薪我知道的有13K,15K,18K三檔,18K是騰訊大咖檔。騰訊加班多的部門年終在4個月以上,LOL部門幾十個月年終。北京戶口概率比較大。
  5. 今日頭條-推薦組。今日頭條算是一家國內少有的技術驅動的公司,目前是C輪。頭條的筆試出的比較有水平,所以會比較看重筆試。我在面頭條時心態不好,先是拒絕參加筆試,而後以比較高的姿態和HR、面試官溝通。所以頭條的面試在第三輪時就中斷了。頭條面試的程式設計題不難,但對模型、推薦系統、專案線上經驗等考察得比較深入。瞭解到的offer是月薪23K,加2000股票,沒有戶口。
  6. Growing IO-機器學習組。Growing IO是原Linked In商務分析部門總監張溪夢先生回國創立以提供資料分析為主,一鍵埋點為技術壁壘的Start up公司,目前仍在天使輪,進去的話工號排在十幾。面了5面,部門leader2面+交叉面1面+co-founder面+CEO面。面試是按照社招的標準走的,leader面對機器學習考察得比較全面、深入,其他面就是聊聊天,畫畫餅。底薪一般,期權較多,無北京戶口。團隊裡都是比較資深的工程師,但機器學習業務不多。
  7. 微軟-Ads。2015年7月開始在微軟小冰組實習,9月中旬開始轉正面試,轉到Ads部門。微軟的轉正面試是2輪技術面+1輪AA面,2輪技術面1輪positive就可以AA面。如果非實習生則需要2輪技術面都positive。另外,微軟有預科生計劃,轉正只需要presentation,無需面試。轉正面試的程式設計題相對較難,對模型、專案的考察較為深入。微軟今年大幅擴招,還漲薪。21萬左右Base,10%~20% Bonus,一些股票,28萬左右的Package。MSRA的Base是28萬,40萬左右的Package。
  8. 網易遊戲、LinkedIn中國。在9月中和10月初參加了這2個公司的筆試,2個公司的筆試都比較切合業務,與SQL語句相關。網易的筆試做了340分,但沒被通知面試LinkedIn中國的筆試接近滿分,但已經10月多,已經開始參加資料探勘競賽,沒什麼面試狀態就沒去面試。LinkedIn中國的Package在30萬+,網易遊戲看學校給錢。

經驗心得

  1. 國內網際網路公司和國外FLAGS的面試有很大不同,前者重視專案、實習經驗、專業積累,後者看重的是你聰不聰明與程式設計題刷得多不多。在求職開始的時候心裡得有個譜,合理分配時間、精力,並理性看待自己掛了筆試或面試。
  2. 簡歷講究簡單粗暴有逼格,簡歷包含聯絡方式、教育背景、實習經歷、專案介紹、牛逼的榮譽、崗位相關的技能就好,謂之簡單粗暴,有逼格則指的是實習、專案多用數字量化描述,省去敘事的過程,結果導向。還有一點經驗,可以適當裝逼,但不能裝逼得超過可掌控範圍。
  3. 投簡歷的時候,多走內推渠道,省去大部分筆試或者電話面試,不吃力又討好。內推渠道有以下幾種,我按照靠譜程度排個序:1) 總監以下的內部技術員工 2) HR 3)總監以上的高管 4)北郵人論壇 5)Linked In 6)知乎 7)NLP job 8)微信公眾號。1)和2)是比較靠譜的,3)~7)只能作為備胎。還有一個非主流但很有效的捷徑是參加企業舉辦的比賽並取得好名次。
  4. 面試時要抓住提問環節問一些實質性的問題,比如具體的技術問題、部門組織架構、部門戰略地位、以後的工作團隊、對個人的定位、KPI怎樣給出等,尤以部門組織架構、戰略地位、團隊這類大又可說的問題最佳。京東面試官給我講了百度架構部門的痛點,在之後的面試中我就經常和麵試官聊關於架構部門和業務部門的話題,學到很多,大局觀也慢慢改善。
  5. 在精力允許的情況下多面,多拿offer,一方面漲見識、談資,一方面在談理想公司的offer時能爭取到更好的薪資待遇。

題目彙總

  1. 筆試題
    • 在網際網路分析中,通常會關注使用者的【第N日啟用率】來衡量使用者質量。使用者的第N日啟用指的是使用者在註冊的第N天登入網站或App,即算為該使用者的第N日啟用。第N日啟用率指的是某日註冊使用者在第N天啟用的數量除以該日所有註冊使用者數量
    • “赤兔”是領英中國針對中國職場人士推出的一款本土化的社交應用。如果你是領英中國的資料分析師,你會從哪些方面和維度來設計各項指標,給產品的設計和運營提供資料上的支援?請給出具體的維度和指標,並說明原因。
    • 網易遊戲的一道筆試題是給定一條包含3個join的SQL語句,要求寫程式碼模擬實現SQL的功能。
  2. 程式設計題
    • 最少時間複雜度求陣列中第k大的數,寫code
    • 去除字串S1中的字元使得最終的字串S2不包含’ab’和’c’,寫code
    • 長度為N的序列Sequence=abc….Z,問有多少不同的二叉樹形態中序遍歷是這個,寫遞推公式
    • 給定整數n和m,問能不能找出整數x,使得x以後的所有整數都可以由整數n和m組合而成
    • 中序遍歷二叉樹,利用O(1)空間統計遍歷的每個節點的層次,寫bug free的code
    • 排序二叉樹轉雙向連結串列
    • 一個運算序列只有+、*、數字,計算運算序列的結果
  3. 機器學習&資料探勘問題
    • L1和L2正則項 >> 它們間的比較
    • 各個模型的Loss function,牛頓學習法、SGD如何訓練
    • 介紹LR、RF、GBDT ,分析它們的優缺點,是否寫過它們的分散式程式碼
    • 介紹SVD、SVD++
    • 是否瞭解線性加權、bagging、boosting、cascade等模型融合方式
    • 推薦系統的冷啟動問題如何解決
    • 是否瞭解A/B Test以及A/B Test結果的置信度
    • 特徵工程經驗
    • 是否瞭解mutual infomation、chi-square、LR前後向、樹模型等特徵選擇方式
  4. 解決方案類題目
    • 為今日頭條設計一個熱門評論系統,支援實時更新
    • 給定淘寶上同類目同價格範圍的兩個商品A和B,如何利用淘寶已有的使用者、商品資料、搜尋資料、評論資料、使用者行為資料等所有能拿到的資料進行建模,判斷A和B統計平均價效比高低。統計平均價效比的衡量標準是大量曝光,購買者多則高。
    • 有n個elements和1個Compare(A, B)函式,用Compare函式作為排序演算法中的比較運算元給elements排序。Compare函式有p的可能比較錯。排序完取Top m個元素,本來就在Top m並被正確分在Top m的元素個數是x。問x的數學期望。

讀到最後,希望能對你有所幫助。