不得不瞭解的機器學習面試知識點

阿新 • • 發佈：2018-12-11

　　機器學習崗位的面試中通常會對一些常見的機器學習演算法和思想進行提問，在平時的學習過程中可能對演算法的理論，注意點，區別會有一定的認識，但是這些知識可能不繫統，在回答的時候未必能在短時間內答出自己的認識，因此將機器學習中常見的原理性問題記錄下來，保持對各個機器學習演算法原理和特點的熟練度。

　　本文總結了機器學習一些面試題和筆試題，以便自己學習，當然了也為了方便大家，題目是網上找的額，如果有侵權請聯絡小編，還有，不喜勿噴，謝謝！！！

問答題

問1：協方差和相關性有什麼區別？

　　答：相關性是協方差的標準化格式。協方差本身很難做比較。例如：如果我們計算工資（￥）和年齡（歲）的協方差，因為這兩個變數有不同的度量，所以我們會得到不能做比較的不同的協方差。為了解決這個問題，我們計算相關性來得到一個介於-1和1之間的值，就可以忽略它們各自不同的度量。

問2：你認為把分類變數當成連續型變數會得到一個更好的預測模型嗎？

　　答：為了得到更好的預測，只有在分類變數在本質上是有序的情況下才可以被當做連續型變數來處理。

問3：“買了這個的客戶，也買了.....”亞馬遜的建議是那種演算法的結果？

　　答：這種推薦引擎的基本想法來源於協同過濾。協同過濾演算法考慮用於推薦專案的“使用者行為”。他們利用的是其他使用者的購物行為和針對商品的交易歷史記錄，評分，選擇和購物資訊。針對商品的其他使用者的行為和偏好用來推薦專案（商品）給新使用者。在這中情況下，專案（商品）的特徵是未知的。

問4：在K-means或者KNN，我們是用歐氏距離來計算最近的鄰居之間的距離，為什麼不用曼哈頓距離？

　　答：我們不用曼哈頓距離，因為它只計算水平或者垂直距離，有維度的限制。另一方面，歐氏距離可以用於任何空間的距離計算問題。因為，資料點可以存在於任何空間，歐式距離是更可行的選擇。例如：想象一下國際象棋棋盤，象或者車所有的移動的由曼哈頓距離計算的，因為他們是在各自的水平和垂直方向做的運動。

問5：為什麼樸素貝葉斯如此“樸素”？

　　答：因為它假定所有的特徵在資料集中的作用是同樣重要和獨立的。正如我們所知，這個假設在現實世界中是很不真實的，因此說樸素貝葉斯真的很“樸素”。

問6：我們知道校正R2或者F值是用來評估線性迴歸模型的，那麼用什麼來評估邏輯迴歸模型？

　　答：我們可以使用以下方法：

　　1，由於邏輯迴歸是用來預測概率的，我們可以用AUC-ROC曲線以及混淆矩陣來確定其效能。

　　2，此外，在邏輯迴歸中類似於校正R2 的指標是AIC。AIC是對模型係數數量懲罰模型的擬合度量。因此，我們更偏愛有最小的AIC的模型。

　　3，空偏差指的是隻有截距項的模型預測的響應。數值越低，模型越好。殘餘偏差表示由新增自變數的模型預測的響應。數值越低，模型越好。

問7：真陽性率和召回有什麼關係？寫出方程式。

　　答：真陽性率 == 召回他們有共同的公式（TP/（TP+FN））

問8：你是怎麼理解偏差方差的平衡的？

　　答：從數學的角度來看，任何模型出現的誤差可以分為三個部分。分別是：

　　偏差誤差在量化平均水平之上，預測值跟實際值相差多遠時有用。高偏差誤差意味著我們的模型表現不太好，因為沒有抓到重要的趨勢。而另一方面，方差量化了在同一個觀察上進行的預測是如何彼此不同的。高方差模型會過度擬合你的訓練集，而在訓練集以外的資料上表現很差。

問9：給你一個有1000列和1百萬行的訓練資料集，這個資料集是基於分類問題的。經理要求你來降低該資料集的維度以減少模型計算時間，但是你的機器記憶體有限，你會怎麼做？（你可以自由做各種實際操作假設。）

　　答：你的面試官應該非常瞭解很難在有限的記憶體上處理高緯的資料，以下是你可以使用到的方法：

　　1，由於我們的RAM很小，首先要關閉機器上正在執行的其他程式，包括網頁瀏覽器等，以確保大部分記憶體可以使用。

　　2，我們可以隨機取樣資料集。這意味著，我們可以建立一個較小的資料集，比如有1000個變數和30萬行，然後做計算。

　　3，為了降低維度，我們可以吧數值變數和分類變數分開，同時刪掉相關聯的變數，對於資料變數，我們將使用相關性分析；對於分類變數，我們可以用卡方檢驗。

　　4，另外，我們還可以使用PAC，並挑選可以解釋在資料集中有最大偏差的成分。

　　5，利用線上學習演算法，如VowpalWabbit（在Python中可用）是一個不錯的選擇。

　　6，利用Stochastic GradientDescent（隨機梯度下降法）建立線性模型也很有幫助。

　　7，我們也可以用我們對業務的理解來估計個預測變數對響應變數的影響的大小。但是，這是一個主觀的方法，如果沒有找到有用的預測變數可能會導致資訊的顯著丟失。

問10：全球平均溫度的上升導致世界各地的海盜數量減少，這是否意味著海盜的數量減少引起氣候變化？

　　答：不能夠這樣說，這是一個“因果關係和相關性”的經典案例。全球平均溫度和海盜數量之間有可能有相關性，但基於這些資訊，我們不能說因為全球平均氣溫的上升而導致了海盜的消失。我們不能斷定海盜的數量減少是引起氣候變化的原因，因為可能有其他因素（潛伏或混雜因素）影響這一現象。

問11：給你一個數據集，這個資料集有缺失值，且這些缺失值分佈在高中值有1一個標準偏差的的範圍內，百分之多少的資料不會受到影響？為什麼？

　　答：大約有32%的資料將不會受到缺失值的影響。因為，由於資料分佈在中位數附近，讓我們先假設這是一個正態分佈。我們知道，在一個正態分佈中，約有68%的資料位於跟平均值（或者眾數，中位數）1個標準差範圍內，那麼剩下的約32%的資料是不受影響的。因此，約有32%的資料將不受缺失值的影響。

問12：有監督學習和無監督學習的區別

　　有監督學習：對具有標記的訓練樣本進行學習，以儘可能對訓練樣本集外的資料進行分類預測。（LR，SVM，BP，RF，GBDT）

　　無監督學習：對未標記的樣本進行訓練學習，比發現這些樣本中的結構知識。（KMeans，DL）

問13：正則化

　　答：正則化是針對過擬合而提出的，以為在求解模型最優的是一般優化最小的經驗風險，現在在該經驗風險上加上模型複雜度這一項（正則化項是模型引數向量的範數），並使用一個rate比率來權衡模型複雜度比以往經驗風險的權重，如果模型複雜度越高，結構化的經驗風險會越大，現在的目標就變為了結構經驗風險的最優化，可以防止模型訓練過度複雜，有效的降低過擬合的風險。

　　奧卡姆剃刀原理：能夠很好的解釋已知資料並且十分簡單才是最好的模型。

問14：執行緒分類器與非線性分類器的區別以及優劣

　　答：如果模型是引數的線性函式，並且存線上性分類面，那麼就是線性分類器，負責不是。　　常用的線性分類器有:LR ,貝葉斯分類，單層感知器，線性迴歸

　　常見的非線性分類器：決策樹，RF，GBDT，多層感知機

　　SVM兩種都有（看線性核還是高斯核）

　　線性分類器速度快，程式設計方便，但是可能擬合效果不會很好

　　非線性分類器程式設計複雜，但是效果擬合能力強

問15：介紹卷積神經網路，和 DBN 有什麼區別？

　　卷積神經網路的特點是卷積核，CNN中使用了權共享，通過不斷的上採用和卷積得到不同的特徵表示，取樣層又稱為pooling層，基於區域性相關性原理進行亞取樣，在減少資料量的同時保持有用的資訊。DBN是深度信念網路，每一層是一個RBM，整個網路可以視為RBM堆疊得到，通常使用無監督逐層訓練，從第一層開始，每一層利用上一層的輸入進行訓練，等各層訓練結束之後再利用BP演算法對整個網路進行訓練。

問16：採用 EM 演算法求解的模型有哪些，為什麼不用牛頓法或梯度下降法？

　　用EM演算法求解的模型一般有GMM或者協同過濾，k-means其實也屬於EM。EM演算法一定會收斂，但是可能收斂到區域性最優。由於求和的項數將隨著隱變數的數目指數上升，會給梯度計算帶來麻煩。

問17：用 EM 演算法推導解釋 Kmeans。

　　k-means演算法是高斯混合聚類在混合成分方差相等，且每個樣本僅指派一個混合成分時候的特例。注意k-means在執行之前需要進行歸一化處理，不然可能會因為樣本在某些維度上過大導致距離計算失效。k-means中每個樣本所屬的類就可以看成是一個隱變數，在E步中，我們固定每個類的中心，通過對每一個樣本選擇最近的類優化目標函式，在M步，重新更新每個類的中心點，該步驟可以通過對目標函式求導實現，最終可得新的類中心就是類中樣本的均值。

問18：用過哪些聚類演算法，解釋密度聚類演算法。

　　k-means演算法，聚類效能的度量一般分為兩類，一類是聚類結果與某個參考模型比較(外部指標)，另外是直接考察聚類結果(內部指標)。後者通常有DB指數和DI，DB指數是對每個類，找出類內平均距離/類間中心距離最大的類，然後計算上述值，並對所有的類求和，越小越好。類似k-means的演算法僅在類中資料構成簇的情況下表現較好，密度聚類演算法從樣本密度的角度考察樣本之間的可連線性，並基於可連線樣本不斷擴充套件聚類蔟得到最終結果。

　　DBSCAN(density-based spatial clustering of applications with noise)是一種著名的密度聚類演算法，基於一組鄰域引數進行刻畫，包括鄰域，核心物件(鄰域內至少包含個物件)，密度直達(j由i密度直達，表示j在i的鄰域內，且i是一個核心物件)，密度可達(j由i密度可達，存在樣本序列使得每一對都密度直達)，密度相連(xi,xj存在k,i,j均有k可達)，先找出樣本中所有的核心物件，然後以任一核心物件作為出發點，找出由其密度可達的樣本生成聚類蔟，直到所有核心物件被訪問過為止。

問19：聚類演算法中的距離度量有哪些？

　　聚類演算法中的距離度量一般用閩科夫斯基距離，在p取不同的值下對應不同的距離，例如p=1的時候對應曼哈頓距離，p=2的情況下對應歐式距離，p=inf的情況下變為切比雪夫距離，還有jaccard距離，冪距離(閩科夫斯基的更一般形式),餘弦相似度，加權的距離，馬氏距離(類似加權)作為距離度量需要滿足非負性，同一性，對稱性和直遞性，閩科夫斯基在p>=1的時候滿足讀來那個性質，對於一些離散屬性例如{飛機，火車，輪船}則不能直接在屬性值上計算距離，這些稱為無序屬性，可以用VDM(Value Diffrence Metrix)，屬性u上兩個離散值a,b之間的VDM距離定義為

　　其中表示在第i個簇中屬性u上a的樣本數，樣本空間中不同屬性的重要性不同的時候可以採用加權距離，一般如果認為所有屬性重要性相同則要對特徵進行歸一化。一般來說距離需要的是相似性度量，距離越大，相似度越小，用於相似性度量的距離未必一定要滿足距離度量的所有性質，例如直遞性。比如人馬和人，人馬和馬的距離較近，然後人和馬的距離可能就很遠。

問20：解釋貝葉斯公式和樸素貝葉斯分類。

　　貝葉斯公式

最小化分類錯誤的貝葉斯最優分類器等價於最大化後驗概率。

　　基於貝葉斯公式來估計後驗概率的主要困難在於，條件概率是所有屬性上的聯合概率，難以從有限的訓練樣本直接估計得到。樸素貝葉斯分類器採用了屬性條件獨立性假設，對於已知的類別，假設所有屬性相互獨立。這樣，樸素貝葉斯分類則定義為

　　如果有足夠多的獨立同分布樣本，那麼可以根據每個類中的樣本數量直接估計出來。在離散情況下先驗概率可以利用樣本數量估計或者離散情況下根據假設的概率密度函式進行最大似然估計。樸素貝葉斯可以用於同時包含連續變數和離散變數的情況。如果直接基於出現的次數進行估計，會出現一項為0而乘積為0的情況，所以一般會用一些平滑的方法，例如拉普拉斯修正，

問21：TF-IDF是什麼？

　　TF指Term frequecy,代表詞頻,IDF代表inverse document frequency,叫做逆文件頻率，這個演算法可以用來提取文件的關鍵詞，首先一般認為在文章中出現次數較多的詞是關鍵詞，詞頻就代表了這一項，然而有些詞是停用詞，例如的，是，有這種大量出現的詞，首先需要進行過濾，比如過濾之後再統計詞頻出現了中國，蜜蜂，養殖且三個詞的詞頻幾乎一致，但是中國這個詞出現在其他文章的概率比其他兩個詞要高不少，因此我們應該認為後兩個詞更能表現文章的主題，IDF就代表了這樣的資訊，計算該值需要一個語料庫，如果一個詞在語料庫中出現的概率越小，那麼該詞的IDF應該越大，一般來說TF計算公式為(某個詞在文章中出現次數/文章的總詞數)，這樣消除長文章中詞出現次數多的影響，IDF計算公式為log(語料庫文章總數/(包含該詞的文章數)+1)。將兩者乘乘起來就得到了詞的TF-IDF。傳統的TF-IDF對詞出現的位置沒有進行考慮，可以針對不同位置賦予不同的權重進行修正，注意這些修正之所以是有效的，正是因為人觀測過了大量的資訊，因此建議了一個先驗估計，人將這個先驗估計融合到了演算法裡面，所以使演算法更加的有效。

問22：文字中的餘弦距離是什麼，有哪些作用？

　　餘弦距離是兩個向量的距離的一種度量方式，其值在-1~1之間，如果為1表示兩個向量同相，0表示兩個向量正交，-1表示兩個向量反向。使用TF-IDF和餘弦距離可以尋找內容相似的文章，例如首先用TF-IDF找出兩篇文章的關鍵詞，然後每個文章分別取出k個關鍵詞(10-20個)，統計這些關鍵詞的詞頻，生成兩篇文章的詞頻向量，然後用餘弦距離計算其相似度。

簡答題

1.什麼是機器學習

    簡單的說，機器學習就是讓機器從資料中學習，進而得到一個更加符合現實規律的模型，
通過對模型的使用使得機器比以往表現的更好，這就是機器學習。

對上面這句話的理解：

資料：從現實生活抽象出來的一些事物或者規律的特徵進行數字化得到。

學習：在資料的基礎上讓機器重複執行一套特定的步驟（學習演算法）進行事物特徵的萃取，
    得到一個更加逼近於現實的描述（這個描述是一個模型它的本身可能就是一個函式）。我
    們把大概能夠描述現實的這個函式稱作我們學到的模型。

更好：我們通過對模型的使用就能更好的解釋世界，解決與模型相關的問題。

2.機器學習與資料探勘的區別

    資料探勘和機器學習的區別和聯絡，周志華有一篇很好的論述《機器學習和
資料探勘》可以幫助大家理解。
   資料探勘受到很多學科領域的影響，其中資料庫、機器學習、統計學無疑影響
最大。簡言之，對資料探勘而言，資料庫提供資料管理技術，機器學習和統計學
提供資料分析技術。

   由於統計學往往醉心於理論的優美而忽視實際的效用，因此，統計學界提供的
很多技術通常都要在機器學習界進一步研究，變成有效的機器學習演算法之後才能
再進入資料探勘領域。從這個意義上說，統計學主要是通過機器學習來對資料挖
掘發揮影響，而機器學習和資料庫則是資料探勘的兩大支撐技術。

    從資料分析的角度來看，絕大多數資料探勘技術都來自機器學習領域，但機器
學習研究往往並不把海量資料作為處理物件，因此，資料探勘要對演算法進行改造，
使得演算法效能和空間佔用達到實用的地步。同時，資料探勘還有自身獨特的內容，
即關聯分析。

    而模式識別和機器學習的關係是什麼呢，傳統的模式識別的方法一般分為兩種：
統計方法和句法方法。句法分析一般是不可學習的，而統計分析則是發展了不少機
器學習的方法。也就是說，機器學習同樣是給模式識別提供了資料分析技術。

   至於，資料探勘和模式識別，那麼從其概念上來區分吧，資料探勘重在發現知識，
模式識別重在認識事物。

   機器學習的目的是建模隱藏的資料結構，然後做識別、預測、分類等。因此，機器
學習是方法，模式識別是目的。

   總結一下吧。只要跟決策有關係的都能叫 AI(人工智慧)，所以說 PR（模式識別）、
DM（資料探勘）、IR（資訊檢索） 屬於 AI 的具 體應用應該沒有問題。 研究的東西則
不太一樣， ML(機器學習) 強調自我完善的過程。 Anyway，這些學科都是相通的。

3.什麼是機器學習的過度擬合現象

　　如果一味的去提高訓練資料的預測能力，所選模型的複雜度往往會很高，這種現象稱為過擬合，所表現的就是模型訓練時候的誤差很小，但在測試的時候誤差很大。

    指在模型引數擬合過程中的問題，由於訓練資料包含抽樣誤差，訓練時，
複雜的模型將抽樣誤差也考慮在內，將抽樣誤差也進行了很好的擬合。具體表
現就是訓練集上效果好，在測試集上效果差。模型泛化能力弱。

4.過度擬合產生的原因

過擬合的第一個原因，就是建模樣本抽取錯誤，包括（但不限於）樣本數量太少，
    抽樣方法錯誤，抽樣時沒有足夠正確考慮業務場景或業務特點，等等導致抽出
    的樣本資料不能有效足夠代表業務邏輯或業務場景；

過擬合的第二個原因，就是樣本里的噪音資料干擾過大，大到模型過分記住了噪音
    特徵，反而忽略了真實的輸入輸出間的關係；

過擬合的第三個原因，就是在決策樹模型搭建中，如果我們對於決策樹的生長沒有
    合理的限制和修剪的話，決策樹的自由生長有可能每片葉子裡只包含單純的事件
    資料(event)或非事件資料（no event），可以想象，這種決策樹當然可以完
    美匹配（擬合）訓練資料，但是一旦應用到新的業務真實資料時，效果是一塌糊塗。

過擬合的第四個原因，就是建模時的“邏輯假設”到了模型應用時已經不能成立了。任
    何預測模型都是在假設的基礎上才可以搭建和應用的，常用的假設包括：假設歷
    史資料可以推測未來，假設業務環節沒有發生顯著變化，假設建模資料與後來的
    應用資料是相似的，等等。如果上述假設違反了業務場景的話，根據這些假設搭
    建的模型當然是無法有效應用的。

過擬合的第五個原因，就是建模時使用了太多的輸入變數，這跟上面第二點（噪音資料）
    有些類似，資料探勘新人常常犯這個錯誤，自己不做分析判斷，把所有的變數交給
    軟體或者機器去“撞大運”。須知，一個穩定優良的模型一定要遵循建模輸入變數“
    少而精”的原則的。

上面的原因都是現象，但是其本質只有一個，那就是“業務理解錯誤造成的”，無論是抽樣，
    還是噪音，還是決策樹，神經網路等等，如果我們對於業務背景和業務知識非常瞭解，
    非常透徹的話，一定是可以避免絕大多數過擬合現象產生的。因為在模型從確定需求，
    到思路討論，到搭建，到業務應用驗證，各個環節都是可以用業務敏感來防止過擬合
    於未然的。

5.如何避免過度擬合

　　當你使用較小的資料集進行機器學習時，容易產生過度擬合，因此使用較大的資料量能避免過度擬合現象。但是當你不得不使用小型資料集進行建模時候，可以使用被稱為交叉驗證的技術。在這種方法中資料集被分為兩節，測試和訓練資料集，測試資料集只測試模型，而在訓練資料集中，資料點被用來建模。

　　在該技術中，一個模型通常是被給定有先驗知識的資料集（訓練資料集）進行訓練，沒有先驗知識的資料集進行測試，交叉驗證的思想是：在訓練階段，定義一個數據集用來測試模型。

1. dropout：訓練神經網路模型時,如果訓練樣本較少,為了防止模型過擬合,
    Dropout可以作為一種trikc供選擇。

2. early stop結合cross validation使用。

3. 儘可能的擴大 training dataset，增加訓練集的全面性和數量

6.什麼是感應式的機器學習？

    感應機器學習涉及由實踐進行學習的過程，能從一組可觀測到的例子的嘗試推匯出普遍性規則

7.什麼是機器學習的五個流行的演算法？

    1，決策樹
    2，神經網路
    3，概率網路
    4，最鄰近法
    5，支援向量機

8.機器學習有哪些不同的演算法技術？

    在機器學習中不同型別的演算法技術是：
    1，監督學習     2，非監督學習
    3，半監督學習   4，轉導推理（Transduction）
    5， 學習推理（Learning  to Learn）

9.在機器學習中，建立假設或者模型的三個階段指的是什麼？

    1，建模
    2，模型測試
    3，模型應用

10.什麼是監督學習的標準方法？

    監督學習的標準方法是將一組示例資料的分成訓練資料集和測試資料集

11.什麼是訓練資料集和測試資料集？

    在類似於機器學習的各個資訊科學相關領域中，一組資料被用來發現潛在的預測關係，
稱為“訓練資料集”。訓練資料集是提供給學習者的案例，而試驗資料集是用於測試由學習
者提出的假設關係的準確度。

12.下面列出機器學習的各種方法？

機器學習的各種方法如下“

1.概念與分類學習（Concept Vs Classification Learning）。

2.符號與統計學習（Symbolic Vs Statistical Learning）。

3.歸納與分析學習（Inductive Vs Analytical Learning）。

13.非機器學習有哪些型別？

人工智慧    規則推理

14.什麼是非監督學習的功能？

    1.求資料的叢集
    2. 求出資料的低維表達
    3. 查詢資料有趣的方向
    4. 有趣的座標和相關性
    5.發現顯著的觀測值和資料集清理

15.什麼是監督學習的功能？

1.分類      2.語音識別     3.迴歸     4.時間序列預測     5. 註釋字串

16.什麼是演算法獨立的機器學習？

    機器學習在基礎數學領域獨立於任何特定分類器或者學習演算法，被稱為演算法獨立的機器學習。

17.人工智慧與機器學習的區別？

    基於經驗資料的特性而設計和開發的演算法被稱為機器學習。而人工智慧不但包
括機器學習，還包括諸如知識表示，自然語言處理，規劃，機器人技術等其它方法。

18.在機器學習中分類器指的是什麼？

    在機器學習中，分類器是指輸入離散或連續特徵值的向量，並輸出單個離散值或者型別的系統。

19.樸素貝葉斯方法的優勢是什麼？

    樸素貝葉斯分類器將會比判別模型，譬如邏輯迴歸收斂得更快，因此你只需要
更少的訓練資料。其主要缺點是它學習不了特徵間的互動關係。

20.在哪些領域使用模式識別技術？

模式識別被應用在：

1計算機視覺  2.語言識別   3.統計   4.資料探勘   5. 非正式檢索   6. 生物資訊學。

21.什麼是遺傳程式設計？

    遺傳程式設計的機器學習中兩種常用的方法之一。該模型是基於測試，並在一系列的
結果當中，獲取最佳選擇。

22.在機器學習中歸納邏輯程式設計是指什麼？

    歸納邏輯程式設計（ILP）是利用邏輯程式設計表達的背景知識和例項，它是機器學習的一個分支。

23.在機器學習中，模型的選擇是指？

    在不同的數學模型中，選擇用於描述相同的資料集的模型的過程被稱為模型選擇。
模型選擇被應用於統計，機器學習和資料探勘的等相關領域。

24.用於監督學習校準兩種方法是什麼？

在監督學習中，用於預測良好概率的兩種方法是：

1，普拉特校準     2， 保序迴歸。 
這些方法被設計為二元分類，而且有意義的。

25. 什麼方法通常用於防止過擬合？

    當有足夠的資料進行等滲迴歸時，這通常被用來防止過擬合問題。

26.規則學習的啟發式方法和決策樹的啟發式方法之間的區別是什麼？

    決策樹的啟發式方法評價的是一系列不相交的集合的平均質量；然而規則學習的
啟發式方法僅僅評價在候選規則覆蓋下的例項集。

27.什麼是感知機器學習？

    在機器學習，感知器是一種輸入到幾個可能的非二進位制輸出的監督分類演算法。

28.貝葉斯邏輯程式的兩個組成部分是什麼？

    貝葉斯邏輯程式由兩部分組成。第一成分由一組貝葉斯條款組成，能捕捉特定
域的定性結構。第二組分是定量的，它能對域的量化資訊進行編碼。

29.什麼是貝葉斯網路？

貝葉斯網路是用來表示一組變數之間為概率關係的影象模型。

30.為什麼基於例項的學習演算法有時也被稱為懶惰學習演算法？

    基於例項的學習演算法也被稱為懶惰學習演算法，因為它們延緩誘導或泛化過程，直到分類完成。

31.支援向量機能處理哪兩種分類方法？

1.結合二分類法

2. 修改二進位制納入多類學習法。

32.什麼是整合學習？

    為了解決特定的計算程式，如分類器或專家知識等多種模式，進行戰略性生產
和組合。這個過程被稱為整合學習。

33.為什麼整合學習被應用？

    整合學習能提高模型的分類，預測，函式逼近等方面的精度。

34.什麼使用整合學習？

    當你構建一個更準確，相互獨立的分類器時，使用整合學習。

35.什麼是整合方法的兩種正規化？

整合方法的兩種正規化是：

1. 連續整合方法
2. 並行整合方法。

36.什麼是整合方法的一般原則，在整合方法中套袋（bagging）和爆發（boosting）指的是什麼？

    整合方法的一般原則是要結合定的學習演算法多種預測模型，相對於單一模型，
其有更強的健壯性。套袋是一種能提高易變的預測或分類方案整合方法。爆發方
法被依次用來減少組合模型的偏差。爆發和裝袋都可以通過降低方差減少誤差。

37.什麼是整合方法分類錯誤的偏置方差分解？

    學習演算法的期望誤差可以分解為偏差和方差。偏置項衡量由學習方法產生的平
均分類器與目標函式是否匹配。

38.在整合方法中什麼是增量合成方法？

    增量學習方法是一種從新資料進行學習，並能應用於後續由現有的資料集生成的分類器的演算法。

39.PCA，KPCA和ICE如何使用？

    PCA（主成分分析），KPCA（基於核心主成分分析）和ICA（獨立成分分析）是用
於降維的重要特徵提取技術。

40.在機器學習中降維是什麼意思？

    在機器學習和統計應用中，降維是指在計算時減少隨機變數數目的處理過程，並
且可以分為特徵選擇和特徵提取。

41.什麼是支援向量機？

    支援向量機是一種監督學習演算法，適用於分類和迴歸分析。

42.關係評價技術的組成部分是什麼？

    關係評價技術的重要組成部分如下：

    1.資料採集2. 地面實況採集3. 交叉驗證技術4. 查詢型別5. 評分標準6. 顯著性檢驗。

43.連續監督學習有什麼不同方法？

    連續監督學習問題的不同解決辦法如下：

    1.滑動視窗方法
    2. 複發性推拉窗
    3. 隱藏馬爾科夫模型
    4. 最大熵馬爾科夫模型
    5. 條件隨機域
    6. 圖變換網路

44.在機器人技術和資訊處理技術的哪些方面會相繼出現預測問題？

    在機器人技術和資訊處理技術中，相繼出現預測問題的是：

    1.模仿學習    2. 結構預測    3. 基於模型的強化學習

45.什麼是批量統計學習？

    統計學習技術允許根據一組觀察到的資料進行學習功能和預測，這可以對無法觀
察和未知的資料進行預測。這些技術提供的學習預測器對未來未知資料的預測提供效能保證。

46什麼是PAC學習？

    可能近似正確模型 (PAC) 學習是一個已經被引入到分析學習演算法和統計效率的學習框架。

47有哪些不同的類別可以分為序列學習過程？

    1.序列預測    2. 序列生成    3. 序列識別    4. 順序決定.

48什麼是序列學習？

    序列學習是一種以合乎邏輯的方式進行教學和學習的方法。

49.機器學習的兩種技術是什麼？

    機器學習的兩種技術是： 
    1.遺傳程式設計
    2.歸納學習

50.你在日常工作中看到的機器學習的一個流行應用是什麼？

    各大電商網站上已部署好的推薦引擎使用的是機器學習。

https://max.book118.com/html/2018/0702/5114220014001301.shtm