1. 程式人生 > >[面試筆試整理5]:專案問題準備

[面試筆試整理5]:專案問題準備

面試筆試整理5:專案問題準備

1、課題

從目的 -> 意義 -> 難點 -> 如何解決的 -> 用了什麼方法為什麼要用這些方法 -> 創新點。 2、實習經歷 實習期間主要負責華為HC大會的推薦演算法以及資料分析,用過SQL Server,製作過報表。 3、自己曾經做過一些比賽,但是結果不是很好,不過還是準備寫到簡歷裡了,畢竟也算是自己做過的專案。 做了一些資料探勘的比賽,面試會問到的常見問題其實也沒有多少,無非是從資料預處理、特徵和模型幾個內容。以jd前一段時間的JData資料探勘比賽為例。

(1)應該對所有的資料進行大致的統計,瞭解資料的大致構成、資料缺失情況、不同表格中特徵的大致分佈情況哪些是離散特徵哪些是連續特徵,從而初步預估出那些資訊和真實場景是有關聯的, (2)進階 主要包括資料特徵的提取(如年齡、購買情況、性別等基本特徵;以及諸多設計的交叉特徵),特徵缺失值處理(可以從填充缺失值(分為離散和連續兩種情況)),資料預處理,模型設計,測試程式碼編寫,訓練集測試集構造,模型調參和再優化幾個部分組成。

2、xgboost的原理和GBDT的不同 因為在資料比賽中用xgboost主要是看上了它的自由性和速度,但是精確性可能並沒有多少提高。比如xgboost的shrinkage(縮減)、借鑑隨機森林的列抽樣防止過擬合。但是時間成本其實還是很值錢的。

3、嘗試使用ensemble,不但使用在資料增加上,也可以用於將基礎模型進行整合。

4、用的規則還是模型?用了多少資料?這些細節的問題也應該知道