2016百度‘機器學習/資料探勘崗位’面經,一面+二面+三面,9月25日
崗位:機器學習/資料探勘
線上筆試時間:2016.9.20
面試通知時間:2016.9.22
面試時間:9.25 2:00 pm
一面&二面地點:海淀區上地十街百度大廈C座
三面時間:9.26 11:00 am
三面地點:百度科技園2號樓K2
0. 通知面試
9月22號晚上10點多接到了面試通知(HR好辛苦,10點還沒下班),因為學校在鄭州,因此隨後就訂了北上的車票及酒店(挑了一家不是很遠的如家酒店,看了網上的評價還可以,在聯想大廈對面),坐地鐵到西二旗步行15分鐘即可。這裡距離百度大廈也很近,步行20分左右,公交車10分鐘。不過這裡早餐很坑,18一位的自助餐而且還沒啥好吃的東西,建議中/晚餐可以往東走一個路口,早餐向南1~2個路口。
1. 一面
簡訊上通知的時間是2點,後來發現今天的面試人很多,從上午10點開始第一場,11點第二場,下午1點第三場,估計後面3點還有人。並且今天的面試一半的人都是來面機器學習崗位的,人真的是炒雞多,壓力好大。
兩點排隊進去,是在百度大廈負一樓的食堂進行的一面/二面,進去之後滿滿的坐的都是人,好壯觀。排到之後hr會將你帶進去隨機分配一個面試官,坐定後常規流程先進行自我介紹,隨後簡單說了兩句研究生期間的工作(如果你提前對自己工作的準備比較充分,最好自我介紹以後直接往專案/工作上引導,面試官一般也會讓你繼續深入的介紹專案)。
聊專案,及專案中間的細節。
比如說,我的專案用到了RNN模型使用序列標註,面試官就問了為什麼不用常見的CRF來做,RNN相對CRF的優勢在哪裡?
模型使用的資料有什麼特點演算法題:假設高考滿分為750分,現在有100萬考生的成績,求第100高的成績值。只說思想。
在出題的時候面試官問我會c++嗎?答:學過但沒怎麼用過。
我首先回答可以使用堆來解決,這樣的演算法複雜度為O(nlogn),面試官希望再優化一下。
我想了一分鐘沒啥思路,面試官提示說你瞭解c++的copy機制嗎?(不瞭解)他又提示說可以用桶的思想。然後又過了一小會突然想起來了,可以開一個750大小的陣列來儲存出現過的分數值。這樣時間複雜度就變成了O(n)。會決策樹嗎? 答:不會
機器學習的一般步驟是什麼?
答:1)資料分析:視覺化,取樣等
2)資料預處理,舉了個例子
3)特徵過程,隨後解釋了一下特徵工程的重要性
4)模型選擇,要根據資料的實際情況選擇模型,比如樣本數、特徵維度balabala
5)調參,獲得當前資料集上最優的引數(可以通過k折交叉進行模型評估
6)後處理(舉例,為什麼要後處理
7)模型評估
最後面試官問有什麼問題要問他的嗎,我就問我表現的怎麼樣,他怎麼評價的我記得不是很清了,只記得他最後說,後面就看你的造化了,我就知道一面過了。隨後沒有休息,hr帶我繼續去二面。
2. 二面
二面面試官挺嚴肅的,應該是做廣告演算法/推薦系統的。
介紹專案
這個面試官對專案的細節問的非常詳細。因為專案介紹起來跟一面差不多,但是二面面試官問的細節問題要更詳細,比如某個值是怎麼計算的,我記得我把論文的公式寫了一下並進行了解釋。系統設計:已經有10個廣告主,每個廣告主分別購買了若干個詞,現在來了第11個廣告主,也買了幾個詞,先要需要再推薦幾個詞給第11個廣告主,怎麼做?
針對這個問題我首先說了方法的思路,面試官仍然非常重視細節。我提到了計算distance,他就問具體怎麼計算distance,以及都計算誰與誰的distance。這個方法介紹完以後,面試官問還有什麼補充的嗎?然後我就又說了一個新的思路。說完以後他又問還有什麼補充的嗎。。。。於是我又想了一種思路。。。然後終於結束了這個問題。會聚類演算法嗎? 答:沒有研究過
會平衡二叉樹嗎? 答:不是很瞭解
紙上寫程式碼: 有一個數組,先遞增後遞減,返回峰值位置。(通過作差)
最後一個問題依然是有什麼要問我的,那我就繼續問了我表現怎麼樣,面試官說覺得我做的專案深度不夠,當時我就心涼了。隨後他說,但是我還是會推薦你到三面的。然後就在表格上寫了Y,然後就去找hr了。接下來就是漫長的等待3面,這個時候已經4點多了。
差不多等到快6點,還有很多人沒有三面,於是hr就建議大家沒事的可以先回去,然後明天上午單獨跟三面面試官約,這樣第二天面試官跟面試者都不會很累,表現會好一些。於是就簽了第二天上午的預約,回賓館啦。
3. 三面
第二天吃過早飯在賓館等著,在9點50分左右,三面面試官打來電話,詢問是電話面試還是現場面試,我說我住的挺近,現場面試吧,然後就約到了11點。於是立刻退房,打了uber到百度科技園2號樓,到了以後差不多才10點30多,在大廳聯絡了面試官,一會她下來接我上去,在一個小會議室裡面進行的面試。這一面仍然是技術面。。。
問專案
這個面試官問的工程上的東西比較多,比較在意我專案系統整體的設計方法,比如模組之間怎麼通訊的,是不是用到了多執行緒,其中一個專案涉及到了資料庫,她就問我用過什麼資料庫,我只用過mysql,,於是她提了一個需求,讓我寫個select語句,查詢出一段日期內,滿足某個條件的行數。
隨後又提出,假如滿足這個條件的行數非常多,那怎麼優化?我的回答是在記憶體維護一個這個行數的記錄,每次增刪都要更新這個記錄。看到我簡歷寫了linux,於是問linux檢視程式執行狀況用什麼命令,我只知道ps,,,然後說了一下之前我為了kill一個程序先用ps檢視的程序id。。
會不會堆排序?我只知道原理,虛擬碼不會寫,然後就換了個折半查詢在紙上寫了遞迴形式的虛擬碼。
三面結束以後就讓回去等通知了。
相關推薦
2016百度‘機器學習/資料探勘崗位’面經,一面+二面+三面,9月25日
崗位:機器學習/資料探勘 線上筆試時間:2016.9.20 面試通知時間:2016.9.22 面試時間:9.25 2:00 pm 一面&二面地點:海淀區上地十街百度大廈C座 三面時間:9.26 11:00 am 三面地點:百度科技園2號樓K2
機器學習資料探勘崗位面試題總結(實時更新)
1. 專案介紹 2. 你這個專案中間哪些地方提升,中間過程分別提升了多少CTR? 3. 你專案用的分散式LR的是用什麼優化方法,引數怎麼調的,mini-batch的batch是多少? parameter-server原理,如何解決資料一致性? 4. 會分散式麼,hadoop,spark會麼,說說ha
資源|28本必讀的經典機器學習/資料探勘書籍(免費下載)
分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!  
機器學習資料探勘常見面試題,
上月就棄坑了,誰知道又投份簡歷讓我去面試,我是真的不想搞這些東西了,心累. 如何判斷函式是凸函式? 設f是定義域為實數的函式,如果定義域內對於所有的實數x,f的二階導大於等於0,稱f是凸函式。 當x是向量時,如果其海森矩陣A是半正定的(H>=0),f也是凸函式。 如果f的二階導
傳統機器學習&資料探勘比賽程式碼框架
傳統資料探勘比賽中程式碼框架如下: 1.匯入庫 2.讀取資料檔案 3.定義特徵構建函式 (希望構建新的特徵提升分數,只需要新增框架中的第 3 和第 4 部分。) 4.呼叫函式,構建特徵 5.拆分資
百度2015年資料探勘面試題
面試的部門的深圳的資料探勘部門旗下的推薦與個性化團隊,電話面試了整整一個半小時,現在整理一下題目: 1、先問了下做過什麼專案 2、程式設計題兩道: 1)從N行的文字內隨機抽取M行,保證每次抽取的行都不一樣。 2)有一個int陣列,找出陣列中所有的a[i],滿足其左邊的值都比它小
代做機器學習&&資料探勘方向本科畢業設計、期刊小論文。
本篇博文主要講解一下模糊聚類的相關內容。 在講解模糊聚類之前,先把模糊數學中幾個我們主要用到的公式講一下。 (1)模糊矩陣的交,並,餘,轉置操作 (2)模糊矩陣的乘法。
機器學習&資料探勘筆記_16(常見面試之機器學習演算法思想簡單梳理)
前言: 找工作時(IT行業),除了常見的軟體開發以外,機器學習崗位也可以當作是一個選擇,不少計算機方向的研究生都會接觸這個,如果你的研究方向是機器學習/資料探勘之類,且又對其非常感興趣的話,可以考慮考慮該崗位,畢竟在機器智慧沒達到人類水平之前,機器學習可以作為一種重要手段,而隨著科技的不斷髮展,
常用的機器學習&資料探勘翻譯(轉)
Basis(基礎): MSE(Mean Square Error 均方誤差), LMS(LeastMean Square 最小均方), LSM(Least Square Methods 最小二乘法), MLE(Ma
機器學習/資料探勘, Python 書籍推薦
1. 適合入門的讀物: 《深入淺出資料分析》這書挺簡單的,基本的內容都涉及了,說得也比較清楚,最後談到了R是大加分。難易程度:非常易。 《啤酒與尿布》通過案例來說事情,而且是最經典的例子。難易程
常見的機器學習&資料探勘知識點之Basis
常見的機器學習&資料探勘知識點之Basis SSE(Sum of Squared Error, 平方誤差和) SSE=∑i=1n(Xi−X⎯⎯⎯)2 SAE(Sum of Absolute
機器學習 資料探勘 資料集劃分 訓練集 驗證集 測試集
機器學習資料探勘之資料集劃分: 訓練集 驗證集 測試集 Q:將資料集劃分為測試資料集和訓練資料集的常用套路是什麼呢? A:three ways shown as follow:1.像sklearn
機器學習/資料探勘工程師校招筆試題目總結。
題目來自網際網路,答案個人彙總。 1.簡述資料庫操作的步驟 答:使用Java操作資料庫。 (1)宣告Connection物件、PreparedStatement物件,必要的話宣告ResultSet物件以獲取查詢結果。 (2)組合連線字串,由驅動名稱和資料庫地址組成。 (3)
利用Python學習資料探勘【0】
相信看到這篇文章的你一定是對資料分析,資料探勘有興趣,或者想從事和方面。本文不再累述python對資料分析的重要,資料分析這門的由來之類的。 在這裡,我單刀直入,已我學習資料探勘3年來的經歷告訴大家怎麼去學,以讓大家少走彎路。純個人見解,如有不對,還請各位留言指教。 話不多說,直接放圖。
利用Python學習資料探勘【2】
本文結合程式碼例項待你上手python資料探勘和機器學習技術。 本文包含了五個知識點: 1. 資料探勘與機器學習技術簡介 2. Python資料預處理實戰 3. 常見分類演算法介紹
利用 Python學習資料探勘【1】
覆蓋使用Python進行資料探勘查詢和描述資料結構模式的實踐工具。 第一節 介紹 資料探勘是一個隱式提取以前未知的潛在有用的資料資訊提取方式。它使用廣泛,並且是眾多應用的技術基礎。 本文介紹那些使用Python資料探勘實踐用於發現和描述結構模式資料的工具。近些年來,Python在
2018 百度機器學習演算法工程師面試
走的是內推流程,發簡歷後沒幾天就打電話約電話面試,約的時間產不多隔了一週。 面試那天,電話打過來,感覺挺有禮貌的,上來首先自我介紹沒什麼懸念,然後就是開始照著簡歷問。 1. 說下你簡歷上的那個論文做的是什麼 2. 論文裡的演算法比原來提升了多少 3.
百度機器學習實習面試經歷
一面: 上來應該先看的是專案。我專案裡有一個關於無監督聚類的研究,他問了一下有監督和無監督的區別,我的回答他應該不滿意。 接下來問的是程式語言,問主要問C和C++,比如C++的virtual關鍵字,C的friend關鍵字,inline關鍵字的作用和具體是怎麼實現的,這一塊C
【強烈推薦】:關於系統學習資料探勘(Data Mining)的一些建議!!
微信公眾號 關鍵字全網搜尋最新排名 【機器學習演算法】:排名第一 【機器學習】:排名第一 【Python】:排名第三 【演算法】:排名第四 關於資料探勘 提到收據挖掘(Data Mining, DM),很多想學習的同學大多數都會問我: 什麼是資料探勘? 怎麼培養資料分析的能力? 如何成為一名資料科學家? (
大資料學習——資料探勘理論基礎
本文學習來源於《資料探勘理論與技術》(電子工業出版社) 資料探勘概述 資料探勘方法可以是基於數學理論的,也可以是非數學的;可以是演繹的,也可以是歸納的。從研究的歷史看,它們是資料庫、人工智慧、數理統計、電腦科學以及其它方面的學者和工程技術人員,在資料探勘