1. 程式人生 > >學習理論-基本概念

學習理論-基本概念

學習理論

1、基本概念
2、PAC理論
3、VC維
4、極大似然,最大後驗概率,貝葉斯估計
5、模型評估與評價指標
6、模型診斷調參

一、基本概念

機器學習三定義:

​ 1、計算機系統能夠利用經驗提高自身的效能

​ 2、學習就是一個基於經驗資料的函式估計問題

​ 3、提取重要模式、趨勢、並理解資料,從資料中學習

引用吾師的話:“三個定義各有側重點,但都強調經驗或資料的重要性”。一般而言,我們常用第二個定義,即基於經驗資料的函式估計問題,形式化的給出了機器學習就是一個函式估計問題。但也強調了資料的重要,無資料巧婦難為無米之炊。所以,機器學習中必備三要素,資料、程式碼、論文。

機器學習常用的分類:

​ 1、監督:樣本資料 有標籤–分類,迴歸

​ 2、無監督:樣本資料無標籤–聚類、異常

​ 3、弱監督:樣本資料的標籤資訊較“弱”–半監督、線上、強化

以上是機器學習最常用的一種基於任務的分類方式,而不同型別下面又有各種演算法,有的有千絲萬縷的關係,有的卻迥然不同,所以很多時候我們不能直接評判那種模型好,只能說某種某些適合某種場景,也不存在一種模型包打天下(深度學習好像是個特例,當然深度學習下面已經衍生了各種演算法)。正是因為我們很難從任務上對比模型,所以筆者就自己所瞭解的模型從模型的角度進行了對比,分析對比了模型之間的關係,以及適應場景。

一般而言,無論是監督,無監督,弱監督,都可以形式化如下過程:

這裡寫圖片描述

其中,假設空間是我們假設的目標函式空間集(線性,非線性)以及選擇目標函式的策略(經驗風險,結構風險),通過常用的學習演算法(梯度下降,EM演算法,座標下降演算法)學習到的最優解即為目標空間,然後當新來資料,依據最優的模型進行預測(分類,迴歸,聚類)。另外,我們稱訓練資料為輸入空間,一般會做一些特徵工程的操作將資料從輸入空間對映到特徵空間(線性,非線性),然後通過目標函式對映到輸出空間。