1. 程式人生 > >PRML第二章筆記

PRML第二章筆記

這是關於PRML第二章的學習筆記。主要從內容思想的理解,具體的理論推導需要結合原文以及概率論的知識。這一章主要講概率分佈,概率分佈的⼀個作⽤是在給定有限次觀測x1, … , xN的前提下,對隨機變數x的概率分佈p(x)建模。這個問題被稱為密度估計,分為二元 多元 高斯 以及先驗分佈 beta 狄利克雷分佈,最後將這些分佈統一到指數簇家族一類中。

引言:概率分佈分為兩個經典學派,頻率學派和貝葉斯學派。 頻率學派關注資料,認為資料是不會說謊的,一切以資料為中心,採用最大似然函式來求取data 的概率。而貝葉斯學派則認為資料是不完全準確的,有些是資料的測量誤差,有些是無法避免的儀器誤差,或者說測量時有其他因素的干擾,總之一句話,資料不完全可信。所以貝葉斯會預設給資料新增一份先驗概率,這是一份經驗知識。而證實貝葉斯有效的就是第一章裡的多項式擬合裡的損失函式。當我們的先驗知識是有效的,貝葉斯會非常有效,一般會是這樣的,但如果先驗知識無效,或者說這種先驗知識是有侷限性條件時,貝葉斯反而會造成更大誤差。比若說投硬幣,預設大家認識的硬幣就是0.5 0.5 的概率,但如果這種硬幣有問題,投硬幣的概率是0.4 0.6,但如果你還是加入0.5 0.5的先驗進去,那就不行了。

一、 二元變數(⼆元隨機變數x ∈ {0, 1})
1, 伯努利分佈與二項分佈
伯努利分佈(Bernoulli distribution)又名兩點分佈或0-1分佈。伯努利試驗是隻有兩種可能結果的單次隨機試驗,即對於一個隨機變數X而言,x的概率分佈。

這裡寫圖片描述

二項分佈(Binomial distribution)是n重伯努利試驗成功次數的離散概率分佈。如果試驗E是一個n重伯努利試驗,每次伯努利試驗的成功概率為p,X代表成功的次數,則X的概率分佈是二項分佈,記為X~B(n,p)

這裡寫圖片描述

2, Beta分佈(二項分佈的先驗分佈)(後驗概率分佈(正⽐於先驗和似然函式的乘積)就會有著與先驗分佈相同的函式形式。這個性質被叫做共軛性(conjugacy))。資料少時用最大似然方法估計引數會過擬合,而貝葉斯方法認為模型引數有一個先驗分佈,因此共軛分佈在貝葉斯方法中很重要,現在看二項式分佈的共軛分佈beta分佈:

這裡寫圖片描述

二、多項式變數:⼆元變數可以⽤來描述只能取兩種可能值中的某⼀種這樣的量。然⽽,我們經常會遇到可以取K個互斥狀態中的某⼀種的離散變數。
1,多項式分佈:由K個互斥變數的分佈以及最大最大似然估計引入:m1, … ,mK在引數μ和觀測總數N條件下的聯合分佈,多項式分佈:

這裡寫圖片描述

2, 狄利克雷分佈(多項式的先驗分佈)

這裡寫圖片描述

三、高斯分佈:
1,高斯分佈的介紹
(1)高斯分佈的定義
⾼斯分佈,也被稱為正態分佈,⼴泛應⽤於連續型隨機變數分佈的模型中。根據中心極限定理,大量隨機變數的和呈正態分佈,這樣解釋了隨機誤差是正態分佈的原因。對於⼀元變數x的情形,⾼斯分佈可以寫成下⾯的形式:
這裡寫圖片描述
多元高斯分佈:
這裡寫圖片描述

(2)高斯分佈的幾何理解:也就是我們平時看到的高斯分佈是有一些規則或不規則的等高線表示
先給出樣本到均值的馬氏距離prml2-25
把協方差矩陣的逆 prml2-26 帶入上式
會得到以協方差矩陣的特徵值平方根為軸長的標準橢圓方程 prml2-27
其中prml2-28 prml2-29,這裡寫圖片描述

也就是原來的座標系經過平移和旋轉,由協方差矩陣特徵向量組成的矩陣U負責旋轉座標軸
這裡寫圖片描述

(3)介紹了高斯分佈座標變化後的形式,以及高斯分佈的炬,同時分析了高斯分佈的缺點(引數多,單峰)

2,條件高斯分佈和邊緣高斯分佈,同時引出⾼斯變數的貝葉斯定理,這兩個分佈由高斯分佈組成,自身也是高斯分佈。(推導過程使用矩陣的變換完成,具體看原文):令x中的⼆階項的係數矩陣等於協⽅差矩陣的逆矩陣Σ−1,令x中的線性項的係數等於Σ−1μ,這樣我們就可以得到μ。

3,高斯分佈的引數估計:極大似然估計、順序估計。
極大似然估計就是最大化我們的似然函式。順序估計每次考慮一個數據,通過遞推公式進行引數更新,者更適合於有先驗概率的貝葉斯方法。(同時也給出了一種通用的順序估計方法)

4,高斯分佈的貝葉斯推斷:假定資料集的⾼斯分佈的⽅差是已知的,⽬標是推斷均值,它的先驗分佈是高斯分佈。相反,假設均值是已知的,我們要推斷⽅差,先驗分佈是Gam(λ | aN, bN)的Gamma分佈,

5,混合高斯分佈
通過將更基本的概率分佈(例如⾼斯分佈)進⾏線性組合的這樣的疊加⽅法,可以被形式化為概率模型,被稱為混合模型。⾼斯分佈的線性組合可以給出相當複雜的概率密度形式。考慮K個⾼斯概率密度的疊加,混合高斯模型。
這裡寫圖片描述

四、指數族分佈:很多分佈包括我們上面提到的二項式分佈、beta分佈、多項式分佈、狄利克雷分佈、高斯分佈都可以轉換成這種指數族的形式:其中η是引數,g(η)是歸一化因子,u(x)是x的函式。
這裡寫圖片描述

1,指數族分佈的似然估計:
這裡寫圖片描述
這裡寫圖片描述

其中,我們收這裡寫圖片描述為充分統計量

2,指數族分佈的共軛先驗分佈,以及後驗分佈
這裡寫圖片描述
這裡寫圖片描述

3,無資訊先驗:可以尋找⼀種形式的先驗分佈,被稱為⽆資訊先驗。這種先驗分佈的⽬的是儘量對後驗分佈產⽣儘可能⼩的影響。這有時被稱為“讓資料⾃⼰說話”。如果我們有⼀個由引數λ控制的分佈p(x | λ),那麼我們可以嘗試假設先驗分佈p(λ) = 常數作為⼀個合適的先驗分佈。如果λ是⼀個有K個狀態的離散變數,這就相當於把每種狀態的先驗概率設定為1/K。(分別介紹了平移不變性和縮放不變性兩個例項)

五、非引數化方法:
前面概率分佈都有具體的函式形式,並且由少量的引數控制。這些引數的值可以由資料集確定。這被稱為概率密度建模的引數化(parametric)⽅法。這種⽅法的⼀個重要侷限性是選擇的概率密度可能對於⽣成資料來說,是⼀個很差的模型,從⽽會導致相當差的預測表現。從而提出非引數化方法。

1,密度估計的直方圖方法:簡單地把觀測數量除以觀測的總數N,再除以箱⼦的寬度Δi,得到每個箱⼦的概率的值。第⼀,為了估計在某個特定位置的概率密度,我們應該考慮位於那個點的某個鄰域內的資料點。第⼆,為了獲得好的結果,平滑引數的值既不能太⼤也不能太⼩。

2,核密度估計的方法與近鄰⽅法:密度估計的形式:p(x) =K/NV
我們可以固定K然後從資料中確定V 的值,這就是K近鄰⽅法。我們還可以固定V 然後從資料中確定K,這就是核⽅法。在極限N →∞的情況下,如果V 隨著N⽽合適地收縮,並且K隨著N增⼤,那麼可以證明K近鄰概率密度估計和核⽅法概率密度估計都會收斂到真實的概率密度。
核密度估計方法就是用核函式計數來代替K值。此我們回到區域性概率密度估計的⼀般結果(2.246)。與之前固定V 然後從資料中確定K的值不同,我們考慮固定K的值然後使⽤資料來確定合適的V 值。k鄰近方法,考慮⼀個以x為中⼼的⼩球體,然後我們想估計概率密度p(x)。並且,允許球體的半徑可以⾃由增長,直到它精確地包含K個數據點。這樣,概率密度p(x)的估計就可以得出,其中V 等於最終球體的體積。

k鄰近密度估計可以分析出k鄰近分類為什麼選擇最近k個物件最多分類的型別-最小化錯誤分類的概率

相關推薦

PRML第二筆記

這是關於PRML第二章的學習筆記。主要從內容思想的理解,具體的理論推導需要結合原文以及概率論的知識。這一章主要講概率分佈,概率分佈的⼀個作⽤是在給定有限次觀測x1, … , xN的前提下,對隨機變數x的概率分佈p(x)建模。這個問題被稱為密度估計,分為二元 多元

第二筆記

tex sca 寫上 score 命名 scanner類 不同 成績 余數 變量,數據類型和運算符 1.變量是一個數據存

作業系統——第二筆記(四)

一.程序通訊 程序通訊是指程序之間的資訊交換。 1.低階通訊——程序之間的互斥和同步 訊號量機制是有效的同步工具,但作為通訊工具缺點如下: (1)效率低(通訊量少) (2)通訊對使用者不透明(程式設計師實現,作業系統只提供共享儲存器供程式碼操作) 2.高階程序通訊 使用者直接利用作業系統提供

C#第二筆記

C#語法快速熱身語法if(條件表示式){程式碼塊}語法if(條件表示式){程式碼塊}else{程式碼塊2}語法if(條件表示式1){程式碼塊1if(條件表示式1)){}else{程式碼塊2}}else{程式碼塊3}switch結構switch(表示式){case:常量表達式1break;必須有case:常量表

Ng深度學習課程-第二筆記摘要

        計算機中為了儲存一張圖片,需要儲存三個矩陣,它們分別對應圖片中的紅、綠、藍三種顏色通道。如果你的圖片大小為 64x64 畫素,那麼就有三個規模為 64x64 的矩陣,分別對應圖片中紅、綠、藍三種畫素的強度值。為了把這些畫素值放到一個特徵向量

C++ Primer 第二筆記

Chapter 2 Variables and Basic Types 2.1 基本內建型別 2.1.1 算術型別 算術型別分為兩類:整型(integral type,包括字元和布林型別)和浮點型。 ​ 基本字元型別是 char,一個 char 的空間應確保可以

資料結構第二筆記

第二章線性表本章的基本內容是: 線性表的邏輯結構 線性表的順序儲存及實現 線性表的連結儲存及實現 順序表和單鏈表的比較 線性表的其他儲存及實現學生成績登記表 學號 姓 名 資料結構 英語 高數 0101 丁一 78 96 87 0102 李二 90 8

PRML第一筆記

ps:這是對模式識別與機器學習這本書的學習筆記,主要是一些自己的看法和總結(需要有一定的機器學習基礎,同時要結合PRML這本書) 模式識別:模式識別是指對錶徵事物或現象的各種形式的(數值的、文字的和邏輯關係的)資訊進行處理和分析,以對事物或現象進行描述、辨認、

《深入理解java虛擬機器》第二筆記

1. 執行時資料區域 名稱 是否共享 作用 存在的異常 程式計數器 執行緒私有 如果執行的是java方法,這個計數器記錄的是正在執行的虛擬機器位元組碼指令的地址 java虛擬機器棧 執行緒私有 每個

PRML 第二 非引數化概率密度估計

1. 概率密度建模的引數化( parametric)⽅法 前面介紹的概率分佈都有具體的函式形式,並且由少量的引數控制,這些引數的值可以由資料集確定。這被稱為概率密度建模的引數化( parametric)⽅法。這種⽅法的⼀個重要侷限性是選擇的概率密度函式可能對於

PRML 第二 多項式分佈

1.多項分佈的一次事件 隨機變數X有三種取值x1,x2,x3,那麼用一個三維向量表示多項式的取值就是{1,0,0},{0,1,0},{0,0,1}分別代表選中x1,x2,x3,即必須選中一個,同時只能選一個。如果用μk表示xk=1時的概率,那麼對於隨機變數x的

《人人都是產品經理》——第二筆記(下)

一手需求和二手需求 一手需求是在產品開發上線前,向目標使用者進行採集後分析總結出來的需求;二手需求是產品已經執行一段時間後,從老闆,運營人員,使用者等產品相關人員提出來的需求,其實我會認為這更加類似於改進方案和建議。 在整理文中提到的單項需求卡片的內容的時候,突然發現,需求

機器學習-概率分佈(PRML 第二總結)

概率分佈 1.離散變數 1.1伯努利分佈 伯努利分佈,進行一次伯努利實驗,如投擲一次硬幣,x=1代表正面,其概率為μ,x=0代表反面,其概率為1−μ。 p(x|μ)=ux(1−u)1−x 期望為E[x]=μ 方差為Var[x

西瓜書第二筆記

概念 錯誤率(error rate):分類錯誤的樣本數佔樣本總數的比例 精度(accuracy):精度 = 1 - 錯誤率 誤差(error):學習器的實際預測輸出與樣本的真實輸出之間的差異 訓練誤差(training error)/經驗誤差(empirical er

PRML讀書筆記第二

2018/4/111.共軛先驗:後驗概率分佈(正比於先驗和似然函式的乘積)擁有與先驗分佈相同的函式形式(比如都是高斯分佈)。這個性質被叫做共軛性(Conjugacy),這時先驗分佈就稱為共軛先驗;2.我們可以觀察似然函式的形式,找到一個正比與似然函式的函式式,將其作為先驗概率

【機器學習筆記第二:模型評估與選擇

機器學習 ini ppi 第二章 err cap ner rate rac 2.1 經驗誤差與過擬合 1. error rate/accuracy 2. error: training error/empirical error, generalization error

【網絡原理】期末復習筆記 第二 物理層

計算機網絡第二章 物理層2.1物理層的基本概念物理層定義:解決如何在連接各種計算機的傳輸媒體上傳輸數據比特流,而不是具體的傳輸媒體。物理層的主要任務為:確定與傳輸媒體的接口的特性機械特性:接口形狀,大小,引線數目功能特性:電壓強度決定信號大小電器特性 :規定電壓範圍過程特性:建立連接時各個相關部件的工作步驟.

【神經網絡和深度學習】筆記 - 第二 反向傳播算法

討論 固定 特征 array sed 並不會 思想 隨機梯度 相關 上一章中我們遺留了一個問題,就是在神經網絡的學習過程中,在更新參數的時候,如何去計算損失函數關於參數的梯度。這一章,我們將會學到一種快速的計算梯度的算法:反向傳播算法。 這一章相較於後面的章節涉及到的數學

深入.NET平臺和C#編程筆記第二

數據的操作 數據類型 面向 封裝 nbsp 分割 一個數 信息隱藏 [0 第二章 深入C#數據類型 1.封裝 .封裝又稱信息隱藏,是指利用抽象數據類型(自定義類)將數據和數據的操作結合在一起,使其構成一個不可分割的獨立實體,盡可能的隱藏內部的細節,只保留一些對外接口,使之於

《呂鑫:VC++6.0就業培訓寶典之MFC視頻教程》學習筆記 -- 第二 MFC原理介紹

第一個 寶典 數據類型 對話 視頻 資源管理 bsp 程序開發 第二章 第二章 MFC原理介紹 2.1 第一個Win32軟件 2.2 Win32對話框程序開發 2.3 程序資源管理和Windows數據類型 2.4 Win32環境下的多對話框管理 2.5 初步學習MFC軟件