[面試筆記] 面試知識點準備-機器學習基礎

阿新 • • 發佈：2019-01-02

摘要

要找工作啦，心累，持續更新中。。。

以下內容大部分來自李航老師的《統計學習方法》，以及各大博主文章

面經

基礎知識點

生成模型和判別模型
二分類中的準確率與召回率
正則化項

經驗風險最小化是沒有加正則化的損失函式最小優化，
結構風險最小化就是加了正則項的損失函式最小優化
- L1範數對引數權值進行直接懲罰，所以會有部分引數趨向於0
- L2範數對引數平方值進行懲罰，所以全體引數會整體趨向於0
樸素貝葉斯（NB分類器）
- 我們的目標是給定X(i)來計算以下條件概率：
- 根據貝葉斯定理，可變換為如下形式：
- 但是，條件概率分佈P(X = x | Y = ck)有指數級數量的引數：
- 因此，NB做了一個合理的假設，即條件獨立性假設（假設事件之間發生的關聯性為0，事件之間互相獨立）：
- 因此，第二步的公式可以表示為：
- 最後，得到NB分類器的公式：
- 極大似然估計（假設先驗分佈概率就是期望的分佈概率）
- 貝葉斯估計（用於解決概率值為0時，乘積為0的問題）：
  
  當Lambda為1時，即為拉普拉斯平滑
  注意：新增Lambda後，需要保證概率之和為1
- 拉普拉斯平滑的作用：
  問：有兩隻球隊A和B，在過去的7場比賽中A獲勝7次，B獲勝0次，那麼下一次比賽A和B獲勝的概率各是多少？
  答：根據先驗概率，A獲勝的概率是7/7，B獲勝的概率為0/7，顯然這是不合理的，雖然B真的菜，但是下一場沒準真的能獲勝，因此，使用拉普拉斯平滑進行調整，得到A獲勝的概率為7/8，B獲勝的概率為1/8。不僅保留了概率上的特徵，同時保證了合理性。
二項邏輯斯蒂迴歸模型
- 概率分佈：
- LR將線性函式值轉化為了事件發生的概率
- 得到LR的損失函式為：
- 將LR用於多分類：
- 最大似然估計：MLE是通過概率去求引數，使得模型的分佈結果最大程度地與當前資料的分佈相接近
SVM模型
- 核心思想：
- 函式間隔和幾何間隔
  為了找到最大化間隔的超平面，我們需要一個合理的間隔度量來進行評價，首先想到的最簡單的就是函式間隔，即評價函式wx+b的值的絕對值大小
  
  但是，函式間隔無法作為最大化超平面間隔的度量，因為其會隨著w、b值的縮放而跟著縮放，顯然不好，因此引入幾何間隔
  
  幾何間隔引入了向量w，因此是實質上幾何空間的距離度量，而且不會被w、b影響，只與超平面的位置有關，完全可以作為超平面的度量方法
- 非線性問題
  首先，我們在已知拉格朗日系數a的前提下，通過求偏導數可以得到權重係數w可以用如下公式得到：
  
  因此，分類函式可以表示為內積的形式（這裡的形式的有趣之處在於，對於新點 x的預測，只需要計算它與訓練資料點的內積即可；此外，所謂 Supporting Vector 也在這裡顯示出來——事實上，所有非Supporting Vector 所對應的a係數都是等於零的，因此對於新點的內積計算實際上只要針對少量的“支援向量”而不是所有的訓練資料即可）：
- 對於非線性問題，可以使用一個對映函式將資料點投影到高維空間中：
  
  考慮我們可愛的內積形式：
EM演算法
- 雖然很牛逼，但我看不懂
- 簡單的說就是先猜，後調整，再猜，再調整，最後win
- 用於混合高斯模型的時候，與K-means差不多，也是找類別中心，但是Km無法給出後驗概率，EM卻可以
隱式馬爾科夫模型（HMM）
- 三個基本問題
- 概率計算問題
  - 直接計算：算出整體解空間，然後用條件解的個數除以整體解的個數。缺點是整體解空間太大，演算法太複雜
  - 前向演算法：對每一步的每一個狀態序列中的狀態進行概率計算，求和，然後進一步計算，最後累加出結果。避免了對非必要狀態的概率計算。
- 預測問題
  - 直接計算：算出可能產生該序列的所有隱序列的數量，然後除一下即可，但是解空間依然很大
  - Viterbi 演算法：對每一步觀測狀態進行概率計算，取當前概率最大的作為下一步觀測狀態計算的前提，直到停止
- HMM用於NLP的最簡單的應用：

[面試筆記] 面試知識點準備-機器學習基礎

摘要要找工作啦，心累，持續更新中。。。以下內容大部分來自李航老師的《統計學習方法》，以及各大博主文章面經基礎知識點生成模型和判別模型二分類中的準確率與召回

深度學習（花書）讀書筆記——第五章-機器學習基礎

深度學習是機器學習的一個特定分支。我們要想充分理解深度學習,必須對機器學習的基本原理有深刻的理解。5.1 學習演算法機器學習演算法是一種能夠從資料中學習的演算法。然而,我們所謂的 ‘學習’ 是什麼意思呢?Mitchell (1997) 提供了一個簡潔的定義:‘‘對於某類任務

【面試複習系列】常用機器學習演算法知識點及其解析，面試官會考的幾乎都有，歡迎補充

圖片慢慢上傳，看不到圖片的請點這裡： LR：logistic regression 對數機率迴歸/邏輯迴歸 sigmoid函式的作用就是用於把輸出歸一到1和0，也就

找實習以及面試期間機器學習基礎總結

部分問題是其他大佬博主總結的，答案大部分是自己的理解，也有面試的時候遇到的問題，不定期更新基本知識： 1）最小二乘法最小二乘法（又稱最小平方法）是一種數學優化技術。它通過最小化誤差的平方和尋找資料的最佳函式匹配。利用最小二乘法可以簡便地求得未知的資料，並使得這些求得的資

面試筆試整理4：機器學習面試問題準備（進階）

這部分主要是針對上面問題的一些更細節的補充，包括公式的推倒思路、模型的基本構成、細節問題的分析等等。一、問題雜燴 1、PCA的第二主成分第二個主成分時域第一成分方向正教的差異性次大方向。 2、什麼時候用組合的學習模型只有當各個模型之間沒有相關

機器學習基礎概念筆記

最大什麽 mar 機器學習決策常見 idg 框架評估監督學習：分類和回歸屬於監督學習。這類算法必須知道預測什麽，即目標變量的分類信息。　　常見算法：k-近鄰算法、線性回歸、樸素貝葉斯算法、支持向量機、決策樹、Lasso最小回歸系數估計、Ridge回歸、局部加權線

阿裏巴巴暑期實習面試-算法崗位（機器學習）2018-03-28

訓練分鐘機器學習算法完全對話後端難度 tco body 一面是電面，包括電話交流與在線編程，持續時間72分鐘，知識點以及涉及到的知識點如下：在零星地說一些其他的感悟： 1、面試的過程其實也是一個學習的過程，這次面我的這個面試官人很好，雖然我熱

《機器學習實戰》第一章——機器學習基礎——筆記

1.機器學習的一個主要任務就是分類。 2.學習如何分類需要做演算法訓練，為演算法輸入大量已分類資料作為演算法的訓練集。 3.分類問題中的目標向量稱為類別，並假定分類問題只存在有限個數的類別。 4.訓練資料和測試資料。 5.假定某一個演算法，經過測試滿足精確度要求，已經學會了如何分類，

機器學習基礎學習筆記——基本概念

機器學習的基本概念： 1、概念學習：概念學習是指從有關某個布林函式的輸入輸出訓練樣例中推斷出該布林函式 example:學習享受運動這一概念影響因素：天氣：晴、雨、陰、雪

機器學習基礎學習筆記——機器學習基礎介紹

機器學習基礎介紹機器學習（Machine Learing,ML）概念：多領域交叉學科，設計概率論、統計學、逼近論、凸分析、演算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為，以獲取新的知識或技能，重新組織已有的知識

Python機器學習基礎教程筆記（一）

description: 《Python機器學習基礎教程》的第一章筆記，書中用到的相關程式碼見github:https://github.com/amueller/introduction_to_ml_with_python ，筆記中不會記錄。為何選擇機器學習人為制訂決

機器學習基礎知識點歸納

一.生成模型與判別模型 1.概念介紹參考：https://blog.csdn.net/u012101561/article/details/52814571 參考：http://www.cnblogs.com/fanyabo/p/4067295.html 監督學習的任務是學習一個模型，對給

Scikit-Learn 與 TensorFlow 機器學習實用指南學習筆記1 — 機器學習基礎知識簡介

紅色石頭的個人網站：redstonewill.com 本章介紹的是每一個數據科學家都應該知道並聽說的機器學習許多基本的概念和術語。這將是一個高層次的概括（本書唯一沒有很多程式碼的一章）。內容很簡單，但是你要保證在進行下一章之前對本章每個概念都理解得很透徹。因此，端

【ML學習筆記】3：機器學習中的數學基礎3(特徵值,特徵向量,認識SVD)

矩陣乘以向量的幾何意義實際上也就是所以，它還可以寫成那麼把原來的矩陣按照列檢視來看，也就是而[x]和[y]作為1x1的矩陣，在剛剛那個式子裡可以看成一個標量，也就變成了所以矩陣乘以一個列向量，可以看成把這個列向量的每一個分

【ML學習筆記】5：機器學習中的數學基礎5(張量,哈達瑪積,生成子空間,超平面,範數)

向量/矩陣/張量向量向量可以表示成一維陣列，每個分量可以理解為向量所表示的點在空間中座標的分量。矩陣矩陣可以表示成二維陣列，上節理解了矩陣可以理解為線性對映在特定基下的一種定量描述。張量張量可以表示成任意維的陣列，張量是向量概

機器學習基礎自學筆記2

以前看視訊看部落格學習深度學習，總感覺心裡慌慌的，找不到重點，感覺不是很系統。現在雖然學的也很渣，不過感覺沒那麼慌了。教訓是要多看書，自己思考，思考不明白再查部落格大牛怎麼講的。希望我的感覺是對的吧。1.1學習演算法機器學習演算法是一種能夠從資

機器學習基礎總結筆記

1、sklearn：機器學習的一個包，能夠自動在資料中尋找模式並對資料集進行分割。 2、當資料出現不平衡的現象的時候，需要一系列方法進行處理，避免模型出現不如預期的情況。 3、domain knowledge（摘自維基百科的定義）：Domain knowledge is

機器學習筆記（四）機器學習可行性分析

資料表示 image 隨機訓練樣本 -s mage 例如 lin 從大量數據中抽取出一些樣本，例如，從大量彈珠中隨機抽取出一些樣本，總的樣本中橘色彈珠的比例為，抽取出的樣本中橘色彈珠的比例為，這兩個比例的值相差很大的幾率很小，數學公式表示為：用抽取到的樣本作為訓練

機器學習基礎

機器訓練集回歸標準 func inf 特征種類算法 2017-06-25 20:53:07 一、機器學習的定義 Tom Mitchell:機器學習是對能通過經驗自動改進的計算機算法的研究。機器學習可以彰顯數據背後真正的含義。二、機器學習的分類（1）監督學習 s

機器學習基礎題目

neu eba play pmf soft 有時 works boost chl 1. 在深度學習中，涉及到大量矩陣相乘，現在需要計算三個稠密矩陣A,B,C的乘積ABC，假設三個矩陣的尺寸分別為m*n,n*p,p*q,且m<n<p<q，以下計算順序效率最高

[面試筆記] 面試知識點準備-機器學習基礎

摘要

面經

基礎知識點

相關推薦