1. 程式人生 > >機器學習資料探勘崗位面試題總結(實時更新)

機器學習資料探勘崗位面試題總結(實時更新)


1. 專案介紹
2. 你這個專案中間哪些地方提升,中間過程分別提升了多少CTR?
3. 你專案用的分散式LR的是用什麼優化方法,引數怎麼調的,mini-batch的batch是多少? parameter-server原理,如何解決資料一致性?
4. 會分散式麼,hadoop,spark會麼,說說hadoop的災難處理機制
5. hadoop一個節點資料量太大拖垮reduce,怎麼辦,Hadoop本身的處理機制是怎麼樣的,手工的話可以怎麼調
6. hadoop資料傾斜問題如何解決
7. L1、L2的區別,L1為什麼可以保證稀疏?
8. 各種最優化方法比較 擬牛頓法和牛頓法區別,哪個收斂快?為什麼?
9. 深度學習的優化方法有哪些? sgd、adam、adgrad區別? adagrad詳細說一下?為什麼adagrad適合處理稀疏梯度?
10. DL常用的啟用函式有哪些?
11. relu和sigmoid有什麼區別,優點有哪些?
12. 什麼是梯度消失,標準的定義是什麼?
13. DNN的初始化方法有哪些? 為什麼要做初始化? kaiming初始化方法的過程是怎樣的?
14. xgboost裡面的lambdarank的損失函式是什麼?
15. xgboost在什麼地方做的剪枝,怎麼做的?
16. xgboost如何分散式?特徵分散式和資料分散式? 各有什麼存在的問題?
17. lightgbm和xgboost有什麼區別?他們的loss一樣麼? 演算法層面有什麼區別?
18 lightgbm有哪些實現,各有什麼區別?

相關推薦

機器學習資料崗位試題總結實時更新

1. 專案介紹 2. 你這個專案中間哪些地方提升,中間過程分別提升了多少CTR? 3. 你專案用的分散式LR的是用什麼優化方法,引數怎麼調的,mini-batch的batch是多少? parameter-server原理,如何解決資料一致性? 4. 會分散式麼,hadoop,spark會麼,說說ha

2016百度‘機器學習/資料崗位經,一面+二+三,9月25日

崗位:機器學習/資料探勘 線上筆試時間:2016.9.20 面試通知時間:2016.9.22 面試時間:9.25 2:00 pm 一面&二面地點:海淀區上地十街百度大廈C座 三面時間:9.26 11:00 am 三面地點:百度科技園2號樓K2

機器學習資料常見面試題,

上月就棄坑了,誰知道又投份簡歷讓我去面試,我是真的不想搞這些東西了,心累. 如何判斷函式是凸函式? 設f是定義域為實數的函式,如果定義域內對於所有的實數x,f的二階導大於等於0,稱f是凸函式。 當x是向量時,如果其海森矩陣A是半正定的(H>=0),f也是凸函式。 如果f的二階導

常見SQL試題整理實時更新

1) 有一張表,裡面有3個欄位:語文,數學,英語。其中有3條記錄分別表示語文70分,數學80分,英語58分,請用一條SQL語句查詢出這三條記錄並按以下條件顯示出來: 大於或等於80表示優秀,大於或等於60表示及格,小於60分表示不及格。 select (case when 語文

資源|28本必讀的經典機器學習/資料書籍免費下載

分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!        

傳統機器學習&資料比賽程式碼框架

傳統資料探勘比賽中程式碼框架如下: 1.匯入庫 2.讀取資料檔案 3.定義特徵構建函式    (希望構建新的特徵提升分數,只需要新增框架中的第 3 和第 4 部分。) 4.呼叫函式,構建特徵 5.拆分資

代做機器學習&&資料方向本科畢業設計、期刊小論文。

  本篇博文主要講解一下模糊聚類的相關內容。   在講解模糊聚類之前,先把模糊數學中幾個我們主要用到的公式講一下。   (1)模糊矩陣的交,並,餘,轉置操作   (2)模糊矩陣的乘法。  

機器學習&資料筆記_16常見面試之機器學習演算法思想簡單梳理

  前言:   找工作時(IT行業),除了常見的軟體開發以外,機器學習崗位也可以當作是一個選擇,不少計算機方向的研究生都會接觸這個,如果你的研究方向是機器學習/資料探勘之類,且又對其非常感興趣的話,可以考慮考慮該崗位,畢竟在機器智慧沒達到人類水平之前,機器學習可以作為一種重要手段,而隨著科技的不斷髮展,

常用的機器學習&資料翻譯

Basis(基礎): MSE(Mean Square Error 均方誤差), LMS(LeastMean Square 最小均方), LSM(Least Square Methods 最小二乘法), MLE(Ma

機器學習/資料, Python 書籍推薦

1. 適合入門的讀物: 《深入淺出資料分析》這書挺簡單的,基本的內容都涉及了,說得也比較清楚,最後談到了R是大加分。難易程度:非常易。 《啤酒與尿布》通過案例來說事情,而且是最經典的例子。難易程

常見的機器學習&資料知識點之Basis

常見的機器學習&資料探勘知識點之Basis SSE(Sum of Squared Error, 平方誤差和) SSE=∑i=1n(Xi−X⎯⎯⎯)2 SAE(Sum of Absolute

機器學習 資料 資料集劃分 訓練集 驗證集 測試集

機器學習資料探勘之資料集劃分: 訓練集 驗證集 測試集 Q:將資料集劃分為測試資料集和訓練資料集的常用套路是什麼呢? A:three ways shown as follow:1.像sklearn

機器學習/資料工程師校招筆試題目總結

題目來自網際網路,答案個人彙總。 1.簡述資料庫操作的步驟 答:使用Java操作資料庫。 (1)宣告Connection物件、PreparedStatement物件,必要的話宣告ResultSet物件以獲取查詢結果。 (2)組合連線字串,由驅動名稱和資料庫地址組成。 (3)

機器學習——boosting 與 bagging 知識點+試題總結

一、boosting與bagging: (1)bagging:從原始資料中隨機抽樣得到多個同樣大小的資料集,來訓練多個基學習 器,各學習器之間互不依賴。是一種並行的方法。各分類器的權重都是相等的。 (抽樣方法為有放回的抽樣:允許每個小資料集中可以有重複的值。) (2)bo

資料之關聯分析一基本概念

許多商業企業運營中的大量資料,通常稱為購物籃事務(market basket transaction)。表中每一行對應一個事務,包含一個唯一標識TID。 利用關聯分析的方法可以發現聯絡如關聯規則或頻繁項集。 關聯分析需要處理的關鍵問題: 1. 從大型事

資料十大經典演算法詳解

                                                       資料探勘十大經典演算法  一、 C4.5 C4.5演算法是機器學習演算法中的一種分類決策樹演算法,其核心演算法是ID3 演算法.   C4.5演算法繼承了ID3演算

資料之關聯分析五序列模式

購物籃資料常常包含關於商品何時被顧客購買的時間資訊,可以使用這種資訊,將顧客在一段時間內的購物拼接成事務序列,這些事務通常基於時間或空間的先後次序。 問題描述 一般地,序列是元素(element)的有序列表。可以記做s=(e1,e2,⋯,en),其中

資料試題總結附答案

目錄 最近由於要準備面試就開始提早看些面試、筆試題。以下是自己總結的一些經常出現、有價值的試題,包含hadoop、hive、hbase、storm、spark等。答案僅供參考,如有錯誤,請指

資料之關聯規則挖掘Apriori演算法

一、概述本篇博文主要闡述資料探勘相關的關聯規則挖掘的演算法(Apriori演算法)。主要介紹關聯規則的基本概念、Apriori演算法原理和Apriori演算法例項,文章末尾處附加Apriori演算法源程式。二、關聯規則挖掘的基本概念關聯規則挖掘發現大量資料中項集之間有趣的關聯

Java試題集錦持續更新

1、面向物件的特徵有哪些方面? 答:面向物件的特徵主要有以下幾個方面: -抽象:抽象是將一類物件的共同特徵總結出來構造類的過程,包括資料抽象和行為抽象兩方面。抽象只關注物件有哪些屬性和行為,並不關注這些行為的細節是什麼。 -繼承:繼承是從己有類得到繼承資訊建立新類的過程。提供繼承資