題庫1
1.
對於以下程式碼,char* p=new char[100];
正確的是(p在棧上,new出來的在堆上)。
p是一個指標,所以儲存在棧上,p中儲存的是新建的動態記憶體的地址,新建的動態記憶體在堆上。
2.一個有偏的硬幣,拋了100次,出現1次人頭,99次字。問用最大似然估計(ML)和最小均方誤差(LSE)估計出現人頭的概率哪個大?
3.字串"//^▽^//\n"的長度是 (8)。
//這裡指的是兩個字元,\n是轉義字元,一個字元
4.WHERE在資料分組前進行過濾,HAVING在資料分組後進行過濾。當where和having都可以時, 顯然where查詢效率更高。
5.下列哪個不屬於CRF模型對於HMM和MEMM模型的優勢 (D)
A.特徵靈活 B.速度快 C.可容納較多上下文資訊 D.全域性最優 1)CRF沒有HMM那樣嚴格的獨立性假設條件,因而可以容納任意的上下文資訊。特徵設計靈活(與ME一樣) ————與HMM比較 2)同時,由於CRF計算全域性最優輸出節點的條件概率,它還克服了最大熵馬爾可夫模型標記偏置(Label-bias)的缺點。 ————與MEMM比較 3)CRF是在給定需要標記的觀察序列的條件下,計算整個標記序列的聯合概率分佈,而不是在給定當前狀態條件下,定義下一個狀態的狀態分佈。 ————與ME比較 缺點:訓練代價大、複雜度高。
6.有兩個樣本點,第一個點為正樣本,它的特徵向量是(0,-1);第二個點為負樣本,它的特徵向量是(2,3)
,從這兩個樣本點組成的訓練集構建一個線性SVM分類器的分類面方程是 (D)
A.2x+y=4 B.x+2y=5 C.x+2y=3 D.以上都不對 ????????????
7.下面關於ID3演算法中說法錯誤的是()
A.ID3演算法要求特徵必須離散化
B.資訊增益可以用熵,而不是GINI係數來計算
C.選取資訊增益最大的特徵,作為樹的根節點
D.ID3演算法是一個二叉樹模型
ID3 演算法生成的決策樹是一棵多叉樹,分支的數量取決於分裂屬性有多少個不同的取值。
ID3演算法(Iterative Dichotomiser 3 迭代二叉樹3代)是一個由ofollow,noindex" target="_blank"> Ross Quinlan 發明的用於 決策樹 的 演算法 。可以歸納為以下幾點:
- 使用所有沒有使用的屬性並計算與之相關的樣本熵值
- 選取其中熵值最小的屬性
- 生成包含該屬性的節點
D3演算法對資料的要求:
1) 所有屬性必須為離散量;
2) 所有的訓練例的所有屬性必須有一個明確的值;
3) 相同的因素必須得到相同的結論且訓練例必須唯一。
8.SPSS中,資料整理的功能主要集中在(資料和轉換 )等選單中。
9..excel工作簿a中有兩列id、age,工作簿b中有一列id,需要找到工作薄b中id對應的age,可用的函式包括(index+match 和 vlookup)
INDEX: 函式返回表格或區域中的值或值的引用 .
MATCH: 在範圍單元格中搜索特定的項 , 然後返回該項在此區域中的相對位置 .
VLOOKUP&HLOOKUP:
如果查詢範圍的資料是縱向的,即,A列是姓名,B列是成績,你要找姓名對應的成績就用VLOOKUP V代表垂直
如果查詢範圍的資料是橫向的,即,第一行是姓名,第二行是成績,你要找姓名對應的成績就用HLOOKUP H代表水平
FIND: 返回一個字串在另一個字串中出現的起始位置 ( 區分大小寫 ).
IF: 可以對值和期待值進行邏輯比較 .
LIKE: 可用Like運算子自定義字元比較函式之類的, 應該是VBA的函式.
10. 隨機無放回抽樣跟隨機有放回抽樣比較, (有)放回抽樣方差大。
?????????是一次抽樣的樣本方差,還是多次抽樣的抽樣結果方差
12.常採用特徵選擇方法。常見的六種特徵選擇方法:
-
DF(Document Frequency) 文件頻率
DF:統計特徵詞出現的文件數量,用來衡量某個特徵詞的重要性
-
MI(Mutual Information) 互資訊法
互資訊法用於衡量特徵詞與文件類別直接的資訊量。
如果某個特徵詞的頻率很低,那麼互資訊得分就會很大,因此互資訊法傾向”低頻”的特徵詞。
相對的詞頻很高的詞,得分就會變低,如果這詞攜帶了很高的資訊量,互資訊法就會變得低效。
-
(Information Gain) 資訊增益法
通過某個特徵詞的缺失與存在的兩種情況下,語料中前後資訊的增加,衡量某個特徵詞的重要性。
-
CHI(Chi-square) 卡方檢驗法
利用了統計學中的”假設檢驗”的基本思想:首先假設特徵詞與類別直接是不相關的
如果利用CHI分佈計算出的檢驗值偏離閾值越大,那麼更有信心否定原假設,接受原假設的備則假設:特徵詞與類別有著很高的關聯度。
-
WLLR(Weighted Log Likelihood Ration)加權對數似然
-
WFO(Weighted Frequency and Odds)加權頻率和可能性
13.隱馬爾可夫模型三個基本問題以及相應的演算法說法正確的是(A/B/C)
A.評估—前向後向演算法
B.解碼—維特比演算法
C.學習—Baum-Welch演算法
D.學習—前向後向演算法
14.下列方法中,可以用於特徵降維的方法包括(都可以)
主成分分析PCA
線性判別分析LDA
深度學習SparseAutoEncoder(稀疏自編碼)
矩陣奇異值分解SVD
AutoEncoder的結構與神經網路的隱含層相同,由輸入L1,輸出 L2組成,中間則是權重連線。Autoencoder通過L2得到輸入的重構L3,最小化L3與L1的差別 進行訓練得到權重。在這樣的權重引數下,得到的L2可以儘可能的儲存L1的資訊。
Autoencoder的輸出L2的維度由輸出的神經元個數決定。當輸出維度大於L1時,則需要在訓練目標函式中加入sparse 懲罰項,避免L2直接複製L1(權重全為1)。所以稱為sparseAutoencoder( Andrew Ng提出的)。
結論:當隱藏層的神經元數目比輸入的少的時候,是對高維輸入資料進行壓縮表示,起到降維的作用。
15.下列哪些方法可以用來對高維資料進行降維 (都可以)
LASSO
主成分分析法
聚類分析
小波分析法
線性判別法
拉普拉斯特徵對映