1. 程式人生 > >2016百度‘機器學習/資料探勘崗位’面經,一面+二面+三面,9月25日

2016百度‘機器學習/資料探勘崗位’面經,一面+二面+三面,9月25日

崗位:機器學習/資料探勘
線上筆試時間:2016.9.20
面試通知時間:2016.9.22
面試時間:9.25 2:00 pm
一面&二面地點:海淀區上地十街百度大廈C座
三面時間:9.26 11:00 am
三面地點:百度科技園2號樓K2

0. 通知面試

  9月22號晚上10點多接到了面試通知(HR好辛苦,10點還沒下班),因為學校在鄭州,因此隨後就訂了北上的車票及酒店(挑了一家不是很遠的如家酒店,看了網上的評價還可以,在聯想大廈對面),坐地鐵到西二旗步行15分鐘即可。這裡距離百度大廈也很近,步行20分左右,公交車10分鐘。不過這裡早餐很坑,18一位的自助餐而且還沒啥好吃的東西,建議中/晚餐可以往東走一個路口,早餐向南1~2個路口。

1. 一面

  簡訊上通知的時間是2點,後來發現今天的面試人很多,從上午10點開始第一場,11點第二場,下午1點第三場,估計後面3點還有人。並且今天的面試一半的人都是來面機器學習崗位的,人真的是炒雞多,壓力好大。
  兩點排隊進去,是在百度大廈負一樓的食堂進行的一面/二面,進去之後滿滿的坐的都是人,好壯觀。排到之後hr會將你帶進去隨機分配一個面試官,坐定後常規流程先進行自我介紹,隨後簡單說了兩句研究生期間的工作(如果你提前對自己工作的準備比較充分,最好自我介紹以後直接往專案/工作上引導,面試官一般也會讓你繼續深入的介紹專案)。

  • 專案,及專案中間的細節。
    比如說,我的專案用到了RNN模型使用序列標註,面試官就問了為什麼不用常見的CRF來做,RNN相對CRF的優勢在哪裡?
    模型使用的資料有什麼特點

    ?專案中的創新點在哪?

  • 演算法題:假設高考滿分為750分,現在有100萬考生的成績,求第100高的成績值。只說思想。
    在出題的時候面試官問我會c++嗎?答:學過但沒怎麼用過。
    我首先回答可以使用堆來解決,這樣的演算法複雜度為O(nlogn),面試官希望再優化一下。
    我想了一分鐘沒啥思路,面試官提示說你瞭解c++的copy機制嗎?(不瞭解)他又提示說可以用桶的思想。然後又過了一小會突然想起來了,可以開一個750大小的陣列來儲存出現過的分數值。這樣時間複雜度就變成了O(n)。

  • 決策樹嗎? 答:不會

  • 機器學習的一般步驟是什麼
    答:1)資料分析:視覺化,取樣等
    2)資料預處理,舉了個例子
    3)特徵過程,隨後解釋了一下特徵工程的重要性
    4)模型選擇,要根據資料的實際情況選擇模型,比如樣本數、特徵維度balabala
    5)調參,獲得當前資料集上最優的引數(可以通過k折交叉進行模型評估
    6)後處理(舉例,為什麼要後處理
    7)模型評估

  最後面試官問有什麼問題要問他的嗎,我就問我表現的怎麼樣,他怎麼評價的我記得不是很清了,只記得他最後說,後面就看你的造化了,我就知道一面過了。隨後沒有休息,hr帶我繼續去二面。

2. 二面

二面面試官挺嚴肅的,應該是做廣告演算法/推薦系統的。

  • 介紹專案
    這個面試官對專案的細節問的非常詳細。因為專案介紹起來跟一面差不多,但是二面面試官問的細節問題要更詳細,比如某個值是怎麼計算的,我記得我把論文的公式寫了一下並進行了解釋。

  • 系統設計:已經有10個廣告主,每個廣告主分別購買了若干個詞,現在來了第11個廣告主,也買了幾個詞,先要需要再推薦幾個詞給第11個廣告主,怎麼做?
    針對這個問題我首先說了方法的思路,面試官仍然非常重視細節。我提到了計算distance,他就問具體怎麼計算distance,以及都計算誰與誰的distance。這個方法介紹完以後,面試官問還有什麼補充的嗎?然後我就又說了一個新的思路。說完以後他又問還有什麼補充的嗎。。。。於是我又想了一種思路。。。然後終於結束了這個問題。

  • 聚類演算法嗎? 答:沒有研究過

  • 平衡二叉樹嗎? 答:不是很瞭解

  • 紙上寫程式碼: 有一個數組,先遞增後遞減,返回峰值位置。(通過作差)

  最後一個問題依然是有什麼要問我的,那我就繼續問了我表現怎麼樣,面試官說覺得我做的專案深度不夠,當時我就心涼了。隨後他說,但是我還是會推薦你到三面的。然後就在表格上寫了Y,然後就去找hr了。接下來就是漫長的等待3面,這個時候已經4點多了。
  差不多等到快6點,還有很多人沒有三面,於是hr就建議大家沒事的可以先回去,然後明天上午單獨跟三面面試官約,這樣第二天面試官跟面試者都不會很累,表現會好一些。於是就簽了第二天上午的預約,回賓館啦。

3. 三面

  第二天吃過早飯在賓館等著,在9點50分左右,三面面試官打來電話,詢問是電話面試還是現場面試,我說我住的挺近,現場面試吧,然後就約到了11點。於是立刻退房,打了uber到百度科技園2號樓,到了以後差不多才10點30多,在大廳聯絡了面試官,一會她下來接我上去,在一個小會議室裡面進行的面試。這一面仍然是技術面。。。

  • 專案
    這個面試官問的工程上的東西比較多,比較在意我專案系統整體的設計方法,比如模組之間怎麼通訊的,是不是用到了多執行緒,其中一個專案涉及到了資料庫,她就問我用過什麼資料庫,我只用過mysql,,於是她提了一個需求,讓我寫個select語句,查詢出一段日期內,滿足某個條件的行數。
    隨後又提出,假如滿足這個條件的行數非常多,那怎麼優化?我的回答是在記憶體維護一個這個行數的記錄,每次增刪都要更新這個記錄。

  • 看到我簡歷寫了linux,於是問linux檢視程式執行狀況用什麼命令,我只知道ps,,,然後說了一下之前我為了kill一個程序先用ps檢視的程序id。。

  • 會不會堆排序?我只知道原理,虛擬碼不會寫,然後就換了個折半查詢在紙上寫了遞迴形式的虛擬碼。

三面結束以後就讓回去等通知了。

相關推薦

2016機器學習/資料崗位一面++925

崗位:機器學習/資料探勘 線上筆試時間:2016.9.20 面試通知時間:2016.9.22 面試時間:9.25 2:00 pm 一面&二面地點:海淀區上地十街百度大廈C座 三面時間:9.26 11:00 am 三面地點:百度科技園2號樓K2

機器學習資料崗位試題總結(實時更新)

1. 專案介紹 2. 你這個專案中間哪些地方提升,中間過程分別提升了多少CTR? 3. 你專案用的分散式LR的是用什麼優化方法,引數怎麼調的,mini-batch的batch是多少? parameter-server原理,如何解決資料一致性? 4. 會分散式麼,hadoop,spark會麼,說說ha

資源|28本必讀的經典機器學習/資料書籍(免費下載)

分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!        

機器學習資料常見面試題,

上月就棄坑了,誰知道又投份簡歷讓我去面試,我是真的不想搞這些東西了,心累. 如何判斷函式是凸函式? 設f是定義域為實數的函式,如果定義域內對於所有的實數x,f的二階導大於等於0,稱f是凸函式。 當x是向量時,如果其海森矩陣A是半正定的(H>=0),f也是凸函式。 如果f的二階導

傳統機器學習&資料比賽程式碼框架

傳統資料探勘比賽中程式碼框架如下: 1.匯入庫 2.讀取資料檔案 3.定義特徵構建函式    (希望構建新的特徵提升分數,只需要新增框架中的第 3 和第 4 部分。) 4.呼叫函式,構建特徵 5.拆分資

2015年資料試題

面試的部門的深圳的資料探勘部門旗下的推薦與個性化團隊,電話面試了整整一個半小時,現在整理一下題目: 1、先問了下做過什麼專案 2、程式設計題兩道: 1)從N行的文字內隨機抽取M行,保證每次抽取的行都不一樣。 2)有一個int陣列,找出陣列中所有的a[i],滿足其左邊的值都比它小

代做機器學習&&資料方向本科畢業設計、期刊小論文。

  本篇博文主要講解一下模糊聚類的相關內容。   在講解模糊聚類之前,先把模糊數學中幾個我們主要用到的公式講一下。   (1)模糊矩陣的交,並,餘,轉置操作   (2)模糊矩陣的乘法。  

機器學習&資料筆記_16(常見面試之機器學習演算法思想簡單梳理)

  前言:   找工作時(IT行業),除了常見的軟體開發以外,機器學習崗位也可以當作是一個選擇,不少計算機方向的研究生都會接觸這個,如果你的研究方向是機器學習/資料探勘之類,且又對其非常感興趣的話,可以考慮考慮該崗位,畢竟在機器智慧沒達到人類水平之前,機器學習可以作為一種重要手段,而隨著科技的不斷髮展,

常用的機器學習&資料翻譯(轉)

Basis(基礎): MSE(Mean Square Error 均方誤差), LMS(LeastMean Square 最小均方), LSM(Least Square Methods 最小二乘法), MLE(Ma

機器學習/資料, Python 書籍推薦

1. 適合入門的讀物: 《深入淺出資料分析》這書挺簡單的,基本的內容都涉及了,說得也比較清楚,最後談到了R是大加分。難易程度:非常易。 《啤酒與尿布》通過案例來說事情,而且是最經典的例子。難易程

常見的機器學習&資料知識點之Basis

常見的機器學習&資料探勘知識點之Basis SSE(Sum of Squared Error, 平方誤差和) SSE=∑i=1n(Xi−X⎯⎯⎯)2 SAE(Sum of Absolute

機器學習 資料 資料集劃分 訓練集 驗證集 測試集

機器學習資料探勘之資料集劃分: 訓練集 驗證集 測試集 Q:將資料集劃分為測試資料集和訓練資料集的常用套路是什麼呢? A:three ways shown as follow:1.像sklearn

機器學習/資料工程師校招筆試題目總結。

題目來自網際網路,答案個人彙總。 1.簡述資料庫操作的步驟 答:使用Java操作資料庫。 (1)宣告Connection物件、PreparedStatement物件,必要的話宣告ResultSet物件以獲取查詢結果。 (2)組合連線字串,由驅動名稱和資料庫地址組成。 (3)

利用Python學習資料【0】

相信看到這篇文章的你一定是對資料分析,資料探勘有興趣,或者想從事和方面。本文不再累述python對資料分析的重要,資料分析這門的由來之類的。 在這裡,我單刀直入,已我學習資料探勘3年來的經歷告訴大家怎麼去學,以讓大家少走彎路。純個人見解,如有不對,還請各位留言指教。 話不多說,直接放圖。

利用Python學習資料【2】

本文結合程式碼例項待你上手python資料探勘和機器學習技術。   本文包含了五個知識點: 1. 資料探勘與機器學習技術簡介   2. Python資料預處理實戰   3. 常見分類演算法介紹  

利用 Python學習資料【1】

覆蓋使用Python進行資料探勘查詢和描述資料結構模式的實踐工具。 第一節 介紹 資料探勘是一個隱式提取以前未知的潛在有用的資料資訊提取方式。它使用廣泛,並且是眾多應用的技術基礎。 本文介紹那些使用Python資料探勘實踐用於發現和描述結構模式資料的工具。近些年來,Python在

2018 機器學習演算法工程師面試

走的是內推流程,發簡歷後沒幾天就打電話約電話面試,約的時間產不多隔了一週。 面試那天,電話打過來,感覺挺有禮貌的,上來首先自我介紹沒什麼懸念,然後就是開始照著簡歷問。 1. 說下你簡歷上的那個論文做的是什麼 2. 論文裡的演算法比原來提升了多少 3.

機器學習實習面試經歷

一面: 上來應該先看的是專案。我專案裡有一個關於無監督聚類的研究,他問了一下有監督和無監督的區別,我的回答他應該不滿意。 接下來問的是程式語言,問主要問C和C++,比如C++的virtual關鍵字,C的friend關鍵字,inline關鍵字的作用和具體是怎麼實現的,這一塊C

【強烈推薦】:關於系統學習資料(Data Mining)的一些建議!!

微信公眾號 關鍵字全網搜尋最新排名 【機器學習演算法】:排名第一 【機器學習】:排名第一 【Python】:排名第三 【演算法】:排名第四 關於資料探勘 提到收據挖掘(Data Mining, DM),很多想學習的同學大多數都會問我: 什麼是資料探勘? 怎麼培養資料分析的能力? 如何成為一名資料科學家? (

資料學習——資料理論基礎

本文學習來源於《資料探勘理論與技術》(電子工業出版社) 資料探勘概述 資料探勘方法可以是基於數學理論的,也可以是非數學的;可以是演繹的,也可以是歸納的。從研究的歷史看,它們是資料庫、人工智慧、數理統計、電腦科學以及其它方面的學者和工程技術人員,在資料探勘