003 機器學習中的基礎知識

阿新 • • 發佈：2019-02-16

com 風險整體說明 bubuko 大綱平臺 pac 映射

　　有些知識還是記錄下來比較容易復習。

　　懂原理，會使用平臺，使用語言實現常見算法。

1.大綱

　　機器學習的基本概念

　　機器學習的實質

　　機器學習方法的三要素

　　經驗風險與結構風險

　　常見損失函數

一：基本概念

1.機器學習的方法流程

　　用監督學習為例

　　技術分享圖片

　　首先，有一個輸入數據，然後根據這個輸入數據做一些特征的加工和整理，基於特征進行模型的訓練，去建模，然後做模型評估，得到一個可以接受的模型，然後對模型就行部署，使用模型對業務進行應用。

　　定期更新模型，對模型生命周期進行維護。

2.輸入空間與輸出空間

　　輸入空間（input space）：將輸入的所有可能取值的集合稱作輸入空間

　　輸出空間（output space）：將輸出的所有可能取值的集合作為輸出空間

　　輸入空間與輸出空間可以是有限元素的集合，也可以是歐式空間

　　輸出空間與輸出空間可以是連續值的集合，也可以是離散集合

　　輸入空間與輸出空間可以是同一個空間

　　通常，輸出空間比輸入空間小

3.特征空間

　　特征：每個輸入實例的各個部分稱為原始特征，基於特征還可以擴展出衍生特征

　　特征向量：多個特征組合的集合

　　特征空間：將特征向量存在的空間稱為特征空間

　　特征空間每一維都對應一個特性

　　特征空間可以與輸入空間相同，也可以不同

　　需要將實例從輸入空間映射到特征空間

　　模型實際上是定義特征空間之上的

4.輸入空間與特征空間

　　需要將實例從輸入空間映射到特征空間

　　模型實際上是定義特征空間之上的

5.假設空間

　　由輸入空間到輸出空間的映射的集合。

　　監督學習的目的在於學習一個由輸入到輸出的映射，這一映射由模型來表示。學習的目的就是找到最好的這樣的模型。

　　模型屬於輸入空間到輸出空間的映射集合，這個結合就是假設空間

　　舉例：

　　技術分享圖片

二：機器學習方法的三要素

1.三要素

　　方法=模型+策略+算法

　　模型：輸入空間到輸出空間的映射關系，學習過程就是從假設空間中搜索適合當前數據的假設

　　策略：從假設空間眾多的假設中選擇最優模型的學習標準或者規則

　　算法：學習模型的具體計算方法，通常所以求解最優化問題

　　模型：確定學習範圍

　　策略：確定學習規則

　　算法：按照規則在範圍內學習

2.模型

　　分析當前需要解決的問題，確定模型。

　　技術分享圖片

3.策略

　　從假設空間眾多假設中選擇到最優的模型的學習標準或者規則

　　選擇時，需要解決以下的問題：

　　評估對單個樣本的效果

　　評估對訓練集的整體效果

　　評估對包括訓練集預測集在內的所有數據的整體效果

　　定義幾個指標來衡量：

　　損失函數：0-1損失函數

　　風險函數：經驗風險，期望風險，結構風險

　　策略：

　　經驗風險最小EMR

　　結構風險最小SRM

4.損失函數

　　用來衡量預測結果與真實結果之間的差距，值越小，越一致

　　通常是一個非負實值函數

　　通過各種方式縮小損失函數的過程被稱為優化，損失函數記做L（Y,f(x)）

　　常見：

　　0-1損失函數：預測值與實際值相同是沒有損失為0，否是是完全損失，為1。過於嚴格，一般采用兩者的差小於某個閾值的方式。

　　絕對值損失函數：預測結果與真實結果差的絕對值，簡單易懂，但是計算不方便

　　平方損失函數：預測結果與真實結果差的平方。

　　　　優勢：

　　　　　　每個差值都是正的，累加不會被抵消

　　　　　　平方對於大誤差的懲罰大於小誤差

　　　　　　數據計算簡單，友好，導數為一次函數

　　對數損失函數：對數函數具有單調性，在求最優化問題時，結果與原始目標一致，可以將乘法轉化為加法，簡化計算

　　指數損失函數：單調性，非負性優良性質，使得越接近正確結果，誤差越小

　　折葉損失函數：也叫鉸鏈損失，對於判定邊界附近的點的懲罰力度較高，常見於SVM。

　　使用場景：

　　0-1：理想狀況模型

　　log：邏輯回歸，交叉熵

　　squared：線性回歸

　　exponential：AdaBoosting

　　Hinge：SVM，soft margin

5.經驗風險與風險函數

　　經驗風險：損失函數度量了單個樣本的預測結果，想要很亮整個訓練集的預測值與真實值的差異，將整個訓練集所有記錄均進行一次預測，求損失函數，將所有的值累加，即為經驗風險。

　　　　經驗風險越小，說明模型對訓練集的擬合度越好。

　　　　技術分享圖片

　　風險函數：又要期望損失，期望風險。所有的數據集的損失函數的期望。

　　　　技術分享圖片

　　經驗風險與期望風險：

　　　　期望風險是對全局的效果，經驗風險對局部的效果

　　　　期望風險往往無法計算，經驗風險可以計算

　　　　當訓練集足夠大時，經驗風險可以替代期望風險

6.經驗風險的的問題

　　在樣本比較小時，僅關註經驗風險，容易導致過擬合

7.結構風險

　　在經驗風險的基礎上，我們繼續解決。

　　在經驗風險的基礎上，增加一個正則化項（Regularizer）或者為懲罰項（Penalty Term）。

　　技術分享圖片

　　結構風險與經驗風險：

　　經驗風險越小，模型決策函數越復雜，包含的參數越多

　　當經驗風險函數小到一定程度就出現過擬合

　　防止過擬合的方式，就是降低決策函數的復雜度，讓懲罰項最小化

　　需要同時保證經驗風險函數與模型決策函數的復雜度都達到最小化

　　把兩個式子融合得到結構風險函數，然後對這個結構風險函數進行最小化

8.範數

003 機器學習中的基礎知識

com 風險整體說明 bubuko 大綱平臺 pac 映射　　有些知識還是記錄下來比較容易復習。　　懂原理，會使用平臺，使用語言實現常見算法。 1.大綱　　機器學習的基本概念　　機器學習的實質　　機器學習方法的三要素　　經驗風險與結構風險　　常見損失函

機器學習1-基礎知識

機器學習1-基礎知識小書匠演算法工程師機器學習《機器學習》第2章-模型評估與選擇《統計學習方法》第1章-統計學習方法概論 1. 機器學習三要素

影象與機器學習-2-基礎知識及cs231n/assignment1

part 1 機器學習基礎知識：包括線性迴歸，邏輯迴歸，交叉熵，softmax,KNN,神經網路中梯度的傳遞思想。關於線性迴歸和邏輯迴歸部分的知識，可以參考這個部落格的內容，就不再累述：http://blog.csdn.net/viewcode/article/details/8

機器學習中概率論知識複習

機器學習先驗知識概率論部分，發現看Machine Learning（－Andrew Ng）課程的時候中間有推導過程不是很明白，遂針對性複習。知識內容組織結構，參考：《Probability Theory Review for Machine Learning

機器學習之基礎知識

本週的學習任務包括：迴歸（線性迴歸和邏輯迴歸）、KNN、SVM、決策樹、分類、神經網路、特徵選擇。我的主要內容就是：神經網路這一部分。首先來大體瞭解神經網路：神經網路（neural network）：常用的定義就是由具有簡單適應性的簡單

機器學習Tensorflow基礎知識、張量與變數

TensorFlow是一個採用資料流圖（data flow graphs），用於數值計算的開源軟體庫。節點（Nodes）在圖中表示數學操作，圖中的線（edges）則表示在節點間相互聯絡的多維資料陣列，即張量（tensor）。它靈活的架構讓你可以在多種平臺上展開計算，例如臺式計

機器學習中的基礎知識（入門上篇）

數據分布指正 bubuko 擴大映射 flow 正則化放置工程前面我們已經給大家講述了很多有關機器學習的概念，這些概念都是十分重要的，我們如果要學習人工智能的話就需要重視這些知識。在這篇文章我們接著給大家介紹機器學習中的基礎知識，希望這篇文章能夠給大家帶來幫助。

機器學習中的基礎知識（三）

p s img gist 多類別合成在線區別深度表示通過前兩篇文章我們給大家介紹了機器學習的相關概念，我們不難看出，機器學習的知識是十分零碎的，這是因為機器學習涉及到的知識有很多，在這篇文章中我們繼續為大家介紹機器學習的知識，希望這篇文章能夠給大家帶來幫助。

機器學習中那些必要又困惑的數學知識

現在很多想從事於機器學習的朋友都存在很多困惑，主要是很多相關的書看不懂，尤其是數學部分，機器學習的基礎是數學。數學並非是一個可選可不選的理論方法，而是不可或缺的支柱。對於機器學習演算法工程師而言，微積分、線性代數、概率論毫無疑問是需要掌握的。為什麼要強調數學？毫無

機器學習中的線性代數知識（下）

關於作者作者小碩一枚，研究方向為機器學習與自然語言處理，歡迎大家關注我的個人部落格https://wangjie-users.github.io/，相互交流，一起學習成長。前言在機器學習中的線性代數知識（上）一文中，主要講解了矩陣的本質，以及對映視角下的特

深度學習/機器學習入門基礎數學知識整理（一）：線性代數基礎，矩陣，範數等

前面大概有2年時間，利用業餘時間斷斷續續寫了一個機器學習方法系列，和深度學習方法系列，還有一個三十分鐘理解系列（一些趣味知識）；新的一年開始了，今年給自己定的學習目標——以補齊基礎理論為重點，研究一些基礎課題；同時逐步繼續寫上述三個系列的文章。最近越來越多的

深度學習/機器學習入門基礎數學知識整理（五）：Jensen不等式簡單理解，共軛函式

Jensen不等式及其延伸凸函式最基本的不等式性質，又稱Jensen不等式[1] f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y)f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y) 通俗一點講就是，期望的函式值小於等於函式值的期望。

機器學習中涉及到的大學高等數學的一些知識

高等數學常見函式求導導數運演算法則複合函式求導方向導數與梯度（難點）凸集與凸函式一元函式求極值多元函式求極值（瞭解）拉格朗日乘子法泰勒公式展開空間解析幾何和向量代數線性代數矩陣的定義，矩陣的轉置單位矩陣

【ML學習筆記】3：機器學習中的數學基礎3(特徵值,特徵向量,認識SVD)

矩陣乘以向量的幾何意義實際上也就是所以，它還可以寫成那麼把原來的矩陣按照列檢視來看，也就是而[x]和[y]作為1x1的矩陣，在剛剛那個式子裡可以看成一個標量，也就變成了所以矩陣乘以一個列向量，可以看成把這個列向量的每一個分

【ML學習筆記】5：機器學習中的數學基礎5(張量,哈達瑪積,生成子空間,超平面,範數)

向量/矩陣/張量向量向量可以表示成一維陣列，每個分量可以理解為向量所表示的點在空間中座標的分量。矩陣矩陣可以表示成二維陣列，上節理解了矩陣可以理解為線性對映在特定基下的一種定量描述。張量張量可以表示成任意維的陣列，張量是向量概

深度學習/機器學習入門基礎數學知識整理（三）：凸優化，Hessian，牛頓法

凸優化理論本身非常博大，事實上我也只是瞭解了一個皮毛中的皮毛，但是對於廣大僅僅想要了解一下機器學習或者深度學習的同學來說，稍微瞭解一點凸優化也就夠了。在實際工程問題中，比如現在我們用的最多的深度神經網路的求解優化問題，都是非凸的，因此很多凸優化理論中非常有價值的

Redux學習筆記-基礎知識

事件處理學習筆記情況分發 .org 新的分數 class 特點 p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 18.0px "Helvetica Neue"; color: #404040 } p.p2 { margin

機器學習中的回歸理解

機器學習中的線性模型理解機器學習中的類別均衡問題？分為類別平衡問題和類別不平衡問題類別平衡問題：可以采用回歸類別不平衡問題：可以采用在縮放針對類別的回歸問題有線性回歸：非線性回本文出自 “簡答生活” 博客，謝絕轉載！機器學習中的回歸理解

機器學習中的範數規則化之（一）L0、L1與L2範數

[0 證明基本上復雜度所有 img 方法風險機器學習機器學習中的範數規則化之（一）L0、L1與L2範數 [email protected]/* */ http://blog.csdn.net/zouxy09 轉自：http://blog.csdn.n

專家坐堂：機器學習中對核函數的理解

wechat size 學習 blank weixin itl cti title redirect 專家坐堂：機器學習中對核函數的理解專家坐堂：機器學習中對核函數的理解

003 機器學習中的基礎知識

相關推薦