1. 程式人生 > >理解交叉熵和最大似然估計的關係

理解交叉熵和最大似然估計的關係

理解交叉熵作為神經網路的損失函式的意義:

交叉熵刻畫的是實際輸出(概率)與期望輸出(概率)的距離,也就是交叉熵的值越小,兩個概率分佈就越接近,即擬合的更好。

CrossEntropy=H(p)+DKL(pq)Cross Entropy= H(p)+DKL(p||q)

當p分佈是已知,則熵是常量;於是交叉熵和KL散度則是等價的。

最小化KL散度和模型採用最大似然估計進行引數估計又是一致的。(可以從公式推導上證明)

這也是很多模型又採用最大似然估計作為損失函式的原因。

相關推薦

理解交叉估計關係

理解交叉熵作為神經網路的損失函式的意義: 交叉熵刻畫的是實際輸出(概率)與期望輸出(概率)的距離,也就是交叉熵的值越小,兩個概率分佈就越接近,即擬合的更好。 CrossEntropy=H(p)+DKL(p∣∣q)Cross Entropy= H(p)+DKL(p

函式估計與機器學習中的交叉函式之間的關係

關於似然函式和最大似然估計的詳細說明可以看這篇文章:https://blog.csdn.net/zgcr654321/article/details/83382729 二分類情況和多分類情況下的似然函式與最大似然估計: 二分類情況下的似然函式與最大似然估計: 我們知道按照生活中的常識

深度學習中交叉KL散度估計之間的關系

最大似然估計 溢出 效果 hub 了解 互換 穩定 最小 總結 機器學習的面試題中經常會被問到交叉熵(cross entropy)和最大似然估計(MLE)或者KL散度有什麽關系,查了一些資料發現優化這3個東西其實是等價的。 熵和交叉熵 提到交叉熵就需要了解下信息論中熵的定義

估計(相對)、KL散度、交叉相互關係及程式碼計算

1 熵 熵其實是資訊量的期望值,它是一個隨機變數的確定性的度量。熵越大,變數的取值越不確定,越無序。 公式: H(X)=E[I(x)]=−E[logP(x)]=-∑P(xi)logP(xi) 熵代表資訊量,基於P分佈自身的編碼長度,是最優的編碼長度。 2 ML

小二乘法估計的聯系區別(轉)

enc bsp 聯系 角度 tro span nbsp sdn .science 對於最小二乘法,當從模型總體隨機抽取n組樣本觀測值後,最合理的參數估計量應該使得模型能最好地擬合樣本數據,也就是估計值和觀測值之差的平方和最小。而對於最大似然法,當從模型總體隨機抽取n組樣本觀

估計(矩估計估計法)

估計即是近似地求某個引數的值,需要區別理解樣本、總體、量、值 大致的題型是已知某分佈(其實包含未知引數),從中取樣本並給出樣本值 我只是一個初學者,可能有的步驟比較繁瑣,請見諒~ 1、矩估計法

引數估計估計

點估計 設總體XXX的分佈函式的形式已知,但它的一個或多個引數未知,藉助於總體XXX的一個樣本來估計總體未知引數的值得問題稱為引數的點估計問題。 舉例: 某炸藥廠,一天中發生著火現象的次數XXX是一個隨

極大估計估計定義

最近看樸素貝葉斯法,發現有關於極大似然估計部分,網上找了好久,感覺也都說不清。然後還有個最大似然估計,最要命的是我發現還有人專門對兩者區別做了論述。然後我就看了下英文定義: 最大似然估計(maximum likelihood estimation, MLE) 極大似然估計方

函式與估計交叉概念與機器學習中的交叉函式

文章目錄 似然函式與最大似然估計 似然的概念 似然函式 最大似然估計 伯努利分佈 伯努利分佈下的最大似然估計 高斯分佈 高斯分佈下的最大似然估計 資訊量、熵、相對熵、交叉熵、機器學習中的交

關於估計小二乘法的理解公式推導

最小二乘法可以從Cost/Loss function角度去想,這是統計(機器)學習裡面一個重要概念,一般建立模型就是讓loss function最小,而最小二乘法可以認為是 loss function = (y_hat -y )^2的一個特例,類似的想各位說的還可以用各種距離度量來作為loss functi

估計交叉,相對(KL散度)

在機器學習中,選擇損失函式時,通常會遇到交叉熵的概念,也就是交叉熵損失函式,那麼我們知道最小化交叉熵損失函式等價於最大化對數似然,那麼最小化交叉熵損失函式其含義是怎麼樣本的?我們知道針對分類問題,我們並不知道Y的真實分佈,因此需要通過模型來估計Y的真實分佈,以邏

【機器學習基本理論】詳解估計(MLE)、後驗概率估計(MAP),以及貝葉斯公式的理解

總結 ora 二次 判斷 天都 特性 以及 解釋 意思 【機器學習基本理論】詳解最大似然估計(MLE)、最大後驗概率估計(MAP),以及貝葉斯公式的理解 https://mp.csdn.net/postedit/81664644 最大似然估計(Maximum lik

伯努利分佈高斯分佈下的估計

最大似然估計: 由於每一個樣本是否出現都對應著一定的概率,而且一般來說這些樣本的出現都不那麼偶然,因此我們希望這個概率分佈的引數能夠以最高的概率產生這些樣本。如果觀察到的資料為D1 , D2 , D3 ,…, DN ,那麼極大似然的目標如下: 通常上面這個概率的計算並不容易。

詳解估計(MLE)、後驗概率估計(MAP),以及貝葉斯公式的理解

<svg xmlns="http://www.w3.org/2000/svg" style="display: none;"><path stroke-linecap="round" d="M5,0 0,2.5 5,5z" id=

估計(MLE)、後驗概率估計(MAP)以及貝葉斯學派頻率學派

前言 frequentist statistics:模型引數是未知的定值,觀測是隨機變數;思想是觀測數量趨近於無窮大+真實分佈屬於模型族中->引數的點估計趨近真實值;代表是極大似然估計MLE;不依賴先驗。 Bayesian statistics:模型引數是隨機變數,

估計後驗概率估計(貝葉斯引數估計

舉個例子:偷盜的故事,三個村莊,五個人偷。 村子被不同小偷偷的概率:P(村子|小偷1)、P(村子|小偷2)、P(村子|小偷3) 小偷1的能力:P(偷盜能力)=P(村子1|小偷1)+P(村子2|小偷1)+P(村子3|小偷1)+P(村子4|小偷1)+P(村子5|小偷1) 小

理解估計

在統計學中,最大似然估計,也稱為最大概似估計,是用來估計一個概率模型的引數的一種方法。 預備知識 下邊的討論要求讀者熟悉概率論中的基本定義,如概率分佈、概率密度函式、隨機變數、數學期望等。同時

【機器學習】MAP後驗估計ML估計區別

A maximum a posteriori probability (MAP) estimate is an estimate of an unknown quantity, that equals the mode of the posterior distribution. The MAP can

函式,估計 簡單理解

摘抄自維基百科: https://zh.wikipedia.org/wiki/%E4%BC%BC%E7%84%B6%E5%87%BD%E6%95%B0 https://zh.wikipedia.org/wiki/%E6%9C%80%E5%A4%A7%E4%BC%BC%E7%84%B6%E4%BC%B0%

貝葉斯法分類

Bayes貝葉斯 一、Bayes小故事        貝葉斯(約1701-1761) Thomas Bayes,英國數學家。約1701年出生於倫敦,做過神甫。1742年成為英國皇家學會會員。1761年