1. 程式人生 > >歡聚時代(YY)2018筆試總結(資料探勘方向)

歡聚時代(YY)2018筆試總結(資料探勘方向)

附上我自己的答案,題目順序可能有誤,我記不太清楚了=_=

一、單選題(24分)

1.某超市研究銷售紀錄資料後發現,買啤酒的人很大概率也會購買尿布,這種屬於資料探勘的哪類問題?(A)    A. 關聯規則發現       B. 聚類   C. 分類                      D. 自然語言處理

2.以下兩種描述分別對應哪兩種對分類演算法的評價標準?(A)   (a)警察抓小偷,描述警察抓的人中有多少個是小偷的標準。   (b)描述有多少比例的小偷給警察抓了的標準。   A. Precision,Recall    B.Recall,Precision   A. Precision,ROC      D. Recall,ROC

3.生成模型和判別模型的區分

判別模型:KNN、logistic迴歸、SVM、

生成模型:貝葉斯、HMM

4.迴歸樹用到的方法 :CART

5.考慮兩隊之間的足球比賽:隊0和隊1。假設65%的比賽隊0勝出,剩餘的比賽隊1獲勝。隊0獲勝的比賽中只有30%是在隊1的主場,而隊1取勝的比賽中75%是主場獲勝。如果下一場比賽在隊1的主場進行隊1獲勝的概率為 (D)     A.0.75    B.0.35    C.0.4678    D.0.5738

(這是牛客上的一道概率題)

6.在基本K均值演算法裡,當鄰近度函式採用( A )的時候,合適的質心是簇中各點的中位數。

A、曼哈頓距離                           B、平方歐幾里德距離

C、餘弦距離                              D、Bregman散度

(關於聚類的曼哈頓距離,產生的中心是中位數。)

二、多選題 (16分)

1.資料預處理的方法:

資料清洗、資料規約、資料整合、資料變換

2、 下面屬於維歸約常用的線性代數技術的有: (A C) 【這題我好像還選了B,誒誒誒】

A 主成分分析                 B 特徵提取

C 奇異值分解                D 特徵加權                  E 離散化

3、( CD )都屬於簇有效性的監督度量。

A、輪廓係數                    B、共性分類相關係數

C、熵                               D、F度量

4.( ABCD )這些資料特性都是對聚類分析具有很強影響的。

A、高維性         B、規模              C、稀疏性                D、噪聲和離群點

三、簡單題(20分*3)

1. 1)考了SQL ,一個很常見的SQL查詢(所有分數大於80的學生姓名)

     2)考了聯結

     3) not in 和 not exists 的區別

     4) HIVE 資料傾斜 的現象及優化方案

2.XGBoost為何泰勒展開,優勢是啥?如何優化特徵?有放回還是無放回的取樣?

3.神經網路中的overfitting如何解決?(過擬合)

 總的來說,考的很常規很基礎,沒有程式設計題。為秋招攢人品=_=