1. 程式人生 > >深入淺出機器學習之生成模型,高斯判別

深入淺出機器學習之生成模型,高斯判別

        這一講是一塊單獨的內容,和上一部分的迴歸不太一樣,這塊側重用概率的方式來進行分類。

       首先說一下判別學習和生成學習之間的區別,判別學習就是直接學習P(y| x),通過一系列的運算得出來結果。例如,根據腫瘤的大小判斷是良性還是惡性,輸入腫瘤大小,就能映射出來結果。生成學習是建立兩個模型,惡性的建一個,良性的建一個。分別帶入這兩個當中,得出來誰的概率更大一些,就是誰。應用的數學公式呢就這個

          公式是概率論中的貝葉斯公式,不講推導。也就是通過一種間接的方式來求。一般情況下P(x)為固定值,因此分子是主要的討論物件。

高斯判別:

高斯判別其實是生成學習的一個例子。其中,我們討論的是N維隨機變數的分佈。二維的高斯分佈大家應該知道,在這裡維數增加後,影象就變成了三維的了。


在這裡不糾結引數,只是看一下形狀即可。公式列一下,不過不用關心。其中μ決定中心位置,Σ決定投影橢圓的朝向和大小。

   

        我們的方法是:對兩個(這裡先討論Y取值為2種)分別建立上述的模型,但是模型的引數不太一樣。大家看一下最後的效果圖。


在圖中可以看出來兩個模型,它們的圓心不一樣,但是形狀是一樣的,因此,兩個模型的μ不一樣,Σ一樣。Y取值只有兩個,那麼服從伯努利分佈。這樣我們就得到了三個分佈。


到這以後,我們應該做什麼呢?首要任務是讓這些點與我們的模型擬合,也就是說,把這些點放到我們的兩個模型中。

在這要用極大似然估計了,因為極大似然估計代表著要讓所有的點在我們的模型裡最佳擬合。把點都帶入到各自的模型裡相乘吧。


然後要求這個公式最大化。步驟沒有,直接出結果了:


用腫瘤的例子來說,第一個是代表了所有的例子中惡性腫瘤的比例。第二個變數代表了良性腫瘤的平均大小,第三個代表惡性腫瘤的平均大小。最後一個樣本特徵方差均值。

引數都有了,模型建立起來了。以後再來新的資料,就用兩個模型判別,看看誰的概率大一些。

高斯判別和Logistc的關係:高斯判別比較特殊,logistic更加一般化。因為高斯判別僅僅對於這麼一種的分佈,logistic對於泊松分佈等也有效。因此,如果明確知道是多元高斯分佈,那麼就直接用高斯判別。否則就用Logistic。

相關推薦

深入淺出機器學習生成模型判別

        這一講是一塊單獨的內容,和上一部分的迴歸不太一樣,這塊側重用概率的方式來進行分類。        首先說一下判別學習和生成學習之間的區別,判別學習就是直接學習P(y| x),通過一系列

機器學習---生成模型判別模型

  監督學習方法可分為兩大類,即生成方法與判別方法,它們所學到的模型稱為生成模型與判別模型。 判別模型:判別模型是學得一個分類面(即學得一個模型),該分類面可用來區分不同的資料分別屬於哪一類; 生成模型:生成模型是學得各個類別各自的特徵(即可看成學得多個模型),可用這些

斯坦福機器學習筆記1:GDA判別分析演算法的原理及matlab程式實現

ps:我本身沒有系統的學過matlab程式設計,所以有的方法,比如求均值用mean()函式之類的方法都是用很笨的方法實現的,所以有很多需要改進的地方,另外是自學實現的程式,可能有的地方我理解錯誤,如果有錯誤請提出來,大家一起學習,本人qq553566286 首先,本文用到的

機器學習判別式模型生成模型

https://www.cnblogs.com/nolonely/p/6435213.html   判別式模型(Discriminative Model)是直接對條件概率p(y|x;θ)建模。常見的判別式模型有線性迴歸模型、線性判別分析、支援向量機SVM、神經網路、boosting

機器學習主題模型(七)

摘要:   主題模型是對文字隱含主題進行建模的方法。它克服了傳統資訊檢索中文件相似度計算方法的缺點,並且能夠在海量網際網路資料中自動尋找出文字間的語義主題。主題模型在自然語言和基於文字的搜尋上都起到非常大的作用。 引言:   兩篇文件是否相關往往不只決定於字面上的詞語重複,還取決於文字背後的語義關聯。對

機器學習生成模型判別模型

定義: 生成方法由資料學習聯合概率分佈P(x, y),然後求出條件概率分佈P(y|x)作為預測的模型。 包括樸素貝葉斯,貝葉斯網路,高斯混合模型,隱馬爾科夫模型等。 判別方法由資料直接學習決策函式

機器學習】EM演算法在混合模型學習中的應用

前言 EM演算法,此部落格介紹了EMEM演算法相關理論知識,看本篇部落格前先熟悉EMEM演算法。 本篇部落格打算先從單個高斯分佈說起,然後推廣到多個高斯混合起來,最後給出高斯混合模型引數求解過程。 單個高斯分佈 假如我們有一些資料,這些資料來自同一個

機器學習先驗分佈後驗分佈共軛先驗分佈

共軛先驗分佈的提出:某觀測資料服從概率分佈p(θ),當觀測到新的資料時,思考下列問題: 1.能否根據新觀測資料X更新引數θ; 2.根據新觀測的資料可以在多大的程度上改變引數θ:θ=θ+rθ; 3.當重

機器學習生成模型判別模型

經典提問:Navie Bayes和Logistic迴歸區別是什麼? Navie Bayes是生成式模型,Logistic迴歸是判別式模型,二者的區別就是生成式模型與判別式模型的區別。 首先,Navie Bayes通過已知樣本求得先驗概率P(Y), 及條件概率P(X|Y),

從免費的物聯網防火牆hihttps談機器學習生成對抗規則

 hihttps是一款基於MQTT的免費的物聯網防火牆,同時也是web應用防火牆,既支援傳統的檢測功能如SQL注入、XSS、惡意漏洞掃描、密碼暴力破解、CC、DDOS等),又支援無監督機器學習,自主對抗,重新定義網路安全。 今天筆者就從物聯網安全的角度,介紹hihttps怎樣通過機器學習自動生成對抗

Stanford機器學習-異常檢測和多元分佈

一、異常檢測 這章主要學習異常檢測問題,它是機器演算法的一個常見應用,同時也對於我們生活中的很多問題有很大的幫助,總的來說,它主要用於非監督的學習問題。 那我們怎麼來理解異常檢測是一個怎麼樣的問題呢?我們來看一個相關的問題:飛機引擎的檢測。因為引擎對於飛機來說

機器學習練習(五)——異常點檢測

#coding:utf-8 import numpy as np from sklearn.covariance import EllipticEnvelope from sklearn.svm import OneClassSVM import matplotlib.

機器學習實戰樸素貝葉演算法

貝葉斯分類是一類分類演算法的總稱,這類演算法均以貝葉斯定理為基礎,故統稱為貝葉斯分類,而樸素貝葉斯分類可謂是裡面最簡單、入門的一種。 首先關於貝葉斯定理,感覺簡單而偉大,前些天一直在看吳軍的數學之美(沒看過的極力推薦)系列文章,看到自然語言處理從規則模型到統計

【十九】機器學習路——樸素貝葉分類

  最近在看周志華《機器學習》的貝葉斯分類器這一章時覺得書上講的很難理解,很多專業術語和符號搞的我頭大,大學時候概率論我還是學的還是不錯的,無奈網上搜了搜前輩的部落格,看到一篇把樸素貝葉斯講的很簡單的文章,頓時豁然開朗。關於貝葉斯分類且聽我慢慢道來: 貝葉

機器學習模型選擇(K折交叉驗證超引數的選擇)

來源: https://www.cnblogs.com/jerrylead/archive/2011/03/27/1996799.html   對於解決同一個問題,如怎麼選擇模型去擬合線性迴歸中只有一個特徵時房價預測問題,如可能有不同的模型去解決,如: 1、d = 1,h(

機器學習混合模型(Gaussian Mixture Model)聚類演算法+程式碼

機器學習之混合高斯模型聚類演算法1 演算法原理2 演算法例項3 典型應用參考資料 機器學習分為監督學習、無監督學習和半監督學習(強化學習)。無監督學習最常應用的場景是聚類(clustering)和降維(dimension reduction)。聚類演算法包括:

Python與機器學習模型結構(生成學習演算法二)

多項式事件模型(multinomial event model) 回顧 上述文章討論了基於樸素貝葉斯的文字分類,即多變數伯努利事件模型(multi-variate Bernoulli event model) 本章繼續討論多項式事件模型(multi

機器學習Validation(驗證模型選擇)

  對於機器學習的模型選擇來說,即使只是對於二元分類,我們已經學習了很多方法,比如PLA,LR等;很多學習演算法都是可迭代的,需要決定迭代次數;你可能還需要決定每一次迭代走多大,例如梯度下降;或者有很多

生成學習演算法判別分析模型

第四部分  生成學習演算法 到目前為止,我們主要討論了建模——給定下的的條件分佈——的學習演算法。例如,邏輯迴歸把建模成,這裡是sigmoid函式。在這些講義中,我們將討論一種不同形式的學習演算法。 考慮一個分類問題,在這個分類問題中,我們想基於一個動物的一些特徵,來學習

機器學習決策樹與隨機森林模型

會有 strong pytho red -s 很多 4.5 是我 機器 歡迎大家前往騰訊雲技術社區,獲取更多騰訊海量技術實踐幹貨哦~ 作者:汪毅雄 導語 本文用容易理解的語言和例子來解釋了決策樹三種常見的算法及其優劣、隨機森林的含義,相信能幫助初學者真正地理解相關知識