1. 程式人生 > >【機器學習】判別模型vs生成模型

【機器學習】判別模型vs生成模型

判別模型vs生成模型

條件概率分佈p(y|x)

從概率的角度來看監督學習的話,其實就是從資料集中學習條件概率分佈p(y|x)。其中,xRn表示n維資料特徵,yR表示資料對應的類別標籤。給定一個x,模型計算出x屬於各個類別標籤y的概率p(y|x),然後判定x的預測標籤為p(y|x)最大的y標籤。

比如,現在的一個問題為判定一個動物是汪星人還是喵星人。這個問題可以表示為x=[叫聲,食物,毛的顏色],y=[汪星人,喵星人]。監督學習就是去比較p(y=汪星人|x) 和p(y=喵星人|x)的概率誰大,預測給定的動物為概率較大的動物。

判別模型(discriminative model) vs 生成模型(generative model)

監督學習中估計p(y|x)的方法分為兩種:判別方法和生成方法,其對應的就是判別模型和生成模型。

判別模型:基於給定的資料集,直接計算p(y|x),形象的說就是直接學習找到一條決策邊界,判別資料的類別標籤,在決策邊界一側的是類別0,在另外一側的是類別1。形象的描述可以使用下圖表示:給定一堆的藍色和紅色的點,監督學習通過不斷的學習找到了一條直線,這條直線儘可能的將不同顏色的點劃分開來。當給定了一個新的點,如果這個條落在直線的上方,則判定為紅色,否則為藍色。
這裡寫圖片描述

考慮上述所說的判定動物為貓還是狗的問題,用判別模型解決就是,通過觀察這個動物的叫聲、食物和毛的顏色特徵,來直接判定這個動物是屬於汪星人還是汪星人。常見的判別模型有KNN,決策樹,PLA等。

生成模型 :基於給定的資料集,首先要學習得到其聯合概率分佈p(x,y)和p(x),再通過等式p(y|x)=p(x,y)p(x)=p(x|y)p(y)p(x)來計算p(y|x)。考慮上述所說的判定動物為喵星人還是汪星人的問題,用判生成解決就是,給定一堆的喵星人和汪星人,我們可以很容易得到p(y=)=p(y=)=,然後我們還需要觀察喵星人有什麼特徵p(x|y=)和汪星人有什麼特徵p(x|y=)。比如喵星人吃魚,“喵喵喵”的叫;汪星人吃骨頭,“汪汪汪”的叫。當判定一個新動物的時候,去觀察這個新動物的特徵更像汪星人p(y=|x) 還是貓星人p

(y=|x)

在生成模型中,我們還需要對p(x)建模,如果有大量資料的話,可以較準確的衡量P(x),但是如果資料量較少就會導致偏差。不過,如果資料集固定,那麼對於任意的類別標籤p(x)都是一個定值 p(x)=p(x|y=1)p(y)+p(x|y=0)p(y=0),因此我們可以直接通過p(y|x)p(x|y)p(y)來衡量。

生成模型中常見的有:NB,HMM等。

判別模型和生成模型的優缺點

判別模型
- 缺點:判別模型直接學習P(y|x),即找到一條判別邊界,使得不同類別之間的劃分距離儘可能大,並不關心資料本身的特徵p(x),因此無法反應資料的特性。
- 但是正是由於判別模型不關心p(x),直接有資料集學習判定預測資料的類別,因此減少了計算,模型簡單。

生成模型
- 缺點:與判別模型相反,生成模型因為考慮了p(x,y)P(x),導致了模型複雜度增加,而且由於P(x)會引來偏差,降低預測準確率。
- 優點: 生成模型可以學習到資料本身的特徵,並且可以將學習到的特徵,應用到其他判別問題上。如果估計的問題並不是資料所屬的類別y,而是某個隱藏的特性z,生成模型就可以估計出隱藏變數z的分佈,判別模型就無法做到:p(y|x)p(x)=p(x)p(z|x)p(y|z)

相關推薦

機器學習判別模型vs生成模型

判別模型vs生成模型 條件概率分佈p(y|x) 從概率的角度來看監督學習的話,其實就是從資料集中學習條件概率分佈p(y|x)。其中,x∈Rn表示n維資料特徵,y∈R表示資料對應的類別標籤。給定一個x,模型計算出x屬於各個類別標籤y的概率p(y|x),然後

機器學習生成模型判別模型

定義: 生成方法由資料學習聯合概率分佈P(x, y),然後求出條件概率分佈P(y|x)作為預測的模型。 包括樸素貝葉斯,貝葉斯網路,高斯混合模型,隱馬爾科夫模型等。 判別方法由資料直接學習決策函式

機器學習生成式對抗網路模型綜述

生成式對抗網路模型綜述 摘要 生成式對抗網路模型(GAN)是基於深度學習的一種強大的生成模型,可以應用於計算機視覺、自然語言處理、半監督學習等重要領域。生成式對抗網路最最直接的應用是資料的生成,而資料質量的好壞則是評判GAN成功與否的關鍵。本文介紹了GAN最初被提出時的基本思想,闡述了其一步

機器學習隨機森林 Random Forest 得到模型後,評估參數重要性

img eas 一個 increase 裏的 sum 示例 增加 機器 在得出random forest 模型後,評估參數重要性 importance() 示例如下 特征重要性評價標準 %IncMSE 是 increase in MSE。就是對每一個變量 比如 X1

機器學習機器學習分類器模型評價指標 機器學習分類器模型評價指標

機器學習分類器模型評價指標 分類器評價指標主要有: 1,Accuracy 2,Precision  3,Recall  4,F1 score  5,ROC 曲線

模式識別與機器學習——判別式和產生式模型

(1)判別式模型(Discriminative Model)是直接對條件概率p(y|x;θ)建模。常見的判別式模型有線性迴歸模型、線性判別分析、支援向量機SVM、神經網路、boosting、條件隨機場等。   舉例:要確定一個羊是山羊還是綿羊,用判別模型的方法是從歷史資料中學習到模型,然後通過提取這隻羊的特

機器學習基於梯度下降法的自線性迴歸模型

回顧 關於梯度下降法 以及線性迴歸的介紹,我們知道了: 線性迴歸的損失函式為: J (

機器學習機器學習模型訓練與測試評估

模型訓練 模型選擇 對於特定任務最優建模方法的選擇或者對特定模型最佳引數的選擇 交叉驗證 在訓練資料集上執行模型(演算法)並且在測試資料集上測試效果,迭代 更新資料模型的修改,這種方式被稱為“交叉驗證”(將資料分為訓練集 和 測試集),使用訓練集構建模型

機器學習EM演算法在高斯混合模型學習中的應用

前言 EM演算法,此部落格介紹了EMEM演算法相關理論知識,看本篇部落格前先熟悉EMEM演算法。 本篇部落格打算先從單個高斯分佈說起,然後推廣到多個高斯混合起來,最後給出高斯混合模型引數求解過程。 單個高斯分佈 假如我們有一些資料,這些資料來自同一個

機器學習LDA(線性判別分析)或fisher判別分析

內容目錄: 一、LDA/fisher判別分析 二、LDA判別分析與PCA對比 一、fisher判別分析 1.首先在模式識別課程上學習的是fisher判別,LDA概念是看川大同學寫的500問接觸的,兩者是一樣的東西。 2推薦:深度學習500問 github連結形式是問答形式,初學者概念

機器學習最大熵模型原理小結

最大熵模型(maximum entropy model, MaxEnt)也是很典型的分類演算法了,它和邏輯迴歸類似,都是屬於對數線性分類模型。在損失函式優化的過程中,使用了和支援向量機類似的凸優化技術。而對熵的使用,讓我們想起了決策樹演算法中的ID3和C4.5演算法。理解了最

機器學習基於機器學習的乳腺癌預測模型

基於機器學習的乳腺癌預測模型(附Python程式碼) 前提說明 專案介紹 匯入資料 概述資料 資料視覺化 評估演算法 實施預測 程式碼 參考 前提說明 此部落格內容為20

機器學習資料分析王者 CatBoost vs. Light GBM vs. XGBoost

機器學習領域的一個特點就是日新月異,在資料競賽中,一件趁手的工具對比賽結果有重要影響。boosting是一種將弱分類器組合成強分類器的方法,它包含多種演算法,如GDBT、AdaBoost、XGBoost等等。如果你參加過Kaggle之類的資料競賽,你可能聽說過XGBoost在

王小草機器學習筆記--主題模型LDA實踐與應用

標籤(空格分隔): 王小草機器學習筆記 筆記整理時間:2016年12月30日 筆記整理者:王小草 1. LDA的實現工具 在主題模型LDA的理論篇,長篇大幅的公式與推導也許實在煩心,也不願意自己去寫程式碼實現一遍的話,不妨用一用一些已經開源和

機器學習線性迴歸模型分析

具體原理不講了,線性迴歸模型,代價損失函式 COST是均方誤差,梯度下降方法。 屬性取值。模型的屬性取值設定需要根據每一個引數的取值範圍來確定,將所有的屬性的取值統一正則化normalization,統一規定在0~1的範圍,或者-1~1的範圍內,這樣在進行線性迴歸時不會造成

機器學習貝葉斯線性迴歸模型

假設當前資料為X,迴歸引數為W,結果為B,那麼根據貝葉斯公式,可以得到後驗概率: ,我們的目標是讓後驗概率最大化。其中pD概率是從已知資料中獲取的量,視為常量;pw函式是w分佈的先驗資訊。 令:   求l函式最大化的過程稱為w的極大似然估計(ML),求pie函式最小化的

機器學習演算法模型效能中的偏差、方差概念

什麼時候模型的複雜程度該停止? 模型越複雜,單次預測出的結果與真實結果的偏差(bias)就越小。但很容易引發過擬合。 模型越簡單,預測不同資料,預測的準確性差別越小。預測不同資料,所得到的準確性構成序列,序列的方差(variance)也就越小。

機器學習用libsvm C++訓練SVM模型

前言:本文大水文一篇,大神請繞道。在正文之前,首先假設讀者都已經瞭解SVM(即支援向量機)模型。 1. introduction libsvm是臺灣大學林智仁(Chih-Jen Lin)教授於2001年開發的一套支援向量機的工具包,可以很方便地對資料進行分類

機器學習機器學習(十二、十三):K-means演算法、高斯混合模型

簡介:         本節介紹STANFORD機器學習公開課中的第12、13集視訊中的演算法:K-means演算法、高斯混合模型(GMM)。(9、10、11集不進行介紹,略過了哈) 一、K-means演算法         屬於無監督學習的聚類演算法,給定一組未標定的資料