歡聚時代(YY)2018筆試總結(資料探勘方向)
附上我自己的答案,題目順序可能有誤,我記不太清楚了=_=
一、單選題(24分)
1.某超市研究銷售紀錄資料後發現,買啤酒的人很大概率也會購買尿布,這種屬於資料探勘的哪類問題?(A) A. 關聯規則發現 B. 聚類 C. 分類 D. 自然語言處理
2.以下兩種描述分別對應哪兩種對分類演算法的評價標準?(A) (a)警察抓小偷,描述警察抓的人中有多少個是小偷的標準。 (b)描述有多少比例的小偷給警察抓了的標準。 A. Precision,Recall B.Recall,Precision A. Precision,ROC D. Recall,ROC
3.生成模型和判別模型的區分
判別模型:KNN、logistic迴歸、SVM、
生成模型:貝葉斯、HMM
4.迴歸樹用到的方法 :CART
5.考慮兩隊之間的足球比賽:隊0和隊1。假設65%的比賽隊0勝出,剩餘的比賽隊1獲勝。隊0獲勝的比賽中只有30%是在隊1的主場,而隊1取勝的比賽中75%是主場獲勝。如果下一場比賽在隊1的主場進行隊1獲勝的概率為 (D) A.0.75 B.0.35 C.0.4678 D.0.5738
(這是牛客上的一道概率題)
6.在基本K均值演算法裡,當鄰近度函式採用( A )的時候,合適的質心是簇中各點的中位數。
A、曼哈頓距離 B、平方歐幾里德距離
C、餘弦距離 D、Bregman散度
(關於聚類的曼哈頓距離,產生的中心是中位數。)
二、多選題 (16分)
1.資料預處理的方法:
資料清洗、資料規約、資料整合、資料變換
2、 下面屬於維歸約常用的線性代數技術的有: (A C) 【這題我好像還選了B,誒誒誒】
A 主成分分析 B 特徵提取
C 奇異值分解 D 特徵加權 E 離散化
3、( CD )都屬於簇有效性的監督度量。
A、輪廓係數 B、共性分類相關係數
C、熵 D、F度量
4.( ABCD )這些資料特性都是對聚類分析具有很強影響的。
A、高維性 B、規模 C、稀疏性 D、噪聲和離群點
三、簡單題(20分*3)
1. 1)考了SQL ,一個很常見的SQL查詢(所有分數大於80的學生姓名)
2)考了聯結
3) not in 和 not exists 的區別
4) HIVE 資料傾斜 的現象及優化方案
2.XGBoost為何泰勒展開,優勢是啥?如何優化特徵?有放回還是無放回的取樣?
3.神經網路中的overfitting如何解決?(過擬合)
總的來說,考的很常規很基礎,沒有程式設計題。為秋招攢人品=_=