1. 程式人生 > >理解Bias(偏差),Error(誤差),和Variance(方差)的區別和聯系?

理解Bias(偏差),Error(誤差),和Variance(方差)的區別和聯系?

不同的 Y軸 統計學 精準 是我 container 復雜度 數據 ner

內容導讀

最近聽機器學習課程時聽到這三個概念一開始有點模糊。感覺沒理解透,所以自己又查了點資料,消化了一下,然後做了個筆記。Bias反映的是模型在樣本上的輸出與真實值之間的誤差,即模型本身的精準度,其實Bias在股票上也有應用,也可以反映股價在波動過程中與移動平均線偏離程度(乖離率),炒股的朋友應該知道均線的概念。其實通過這個我感覺可以更容易的理解這個概念,我們知道Bias是受算法模型的復雜度決定的,假設下圖的紅線是我們給出的模型,藍色的點就是樣本,這是一個最簡單的線性模型,這個時候Bias就可以通過這些藍色的點到紅線沿Y軸的垂直距離來反映(即真實值與模型輸出的誤差),距離越大說明Bias越大,也說明擬合度更低。在概率論和統計學中方差是衡量隨機變量或一組數據時離散程度的度量。以上就是我對Bias(偏差),Error(誤差),和Variance(方差)的一些簡單理解,圖全是截取自李宏毅的PPT中。

最近聽機器學習課程時聽到這三個概念一開始有點模糊。感覺沒理解透,所以自己又查了點資料,消化了一下,然後做了個筆記。

首先三者之間的聯系是 Error = Bias + Variance(這裏應該是忽略的噪音)。Error反映的是整個模型的準確度,說白了就是你給出的模型,input一個變量,和理想的output之間吻合程度,吻合度高就是Error低。Bias反映的是模型在樣本上的輸出與真實值之間的誤差,即模型本身的精準度,其實Bias在股票上也有應用,也可以反映股價在波動過程中與移動平均線偏離程度(乖離率),炒股的朋友應該知道均線的概念。其實通過這個我感覺可以更容易的理解這個概念,我們知道Bias是受算法模型的復雜度決定的,假設下圖的紅線是我們給出的模型,藍色的點就是樣本,這是一個最簡單的線性模型,這個時候Bias就可以通過這些藍色的點到紅線沿Y軸的垂直距離來反映(即真實值與模型輸出的誤差),距離越大說明Bias越大,也說明擬合度更低。

技術分享圖片

當我們增加模型的復雜度,剛剛是一個線性的模型,現在是一個四次方的模型,可以明顯看出點到模型的沿Y軸的垂直距離更少了,即擬合度更高了,所以Bias也更低了。所以這樣我們就可以很容易理解Bias和模型復雜度之間的關系了。給出結論:當模型復雜度上升時,Bias減小。當模型復雜度降低時,Bias增加。這裏就涉及到了欠擬合(unfitting)和過度擬合(overFitting)的問題了。好了,接下來讓我們看看Variance(方差)的定義。

技術分享圖片

Variance(方差)反映的是模型每一次輸出結果與模型輸出期望之間的誤差,即模型的穩定性。在概率論和統計學中方差是衡量隨機變量或一組數據時離散程度的度量。下圖中紅線就是每一組樣本對應的模型,想象一下真實數據有無限多,我們以10個樣本為一組,選取了500個樣本組,然後在線性模型下,針對這500個樣本組,我們會有500組不同的b和w值組成的線性模型,最後構成左圖的樣子。當我們的模型升級成5次方的復雜程度時,針對這500個樣本組,我們會有右邊這張圖顯示的500組不同的參數構成的模型。可以看出,明顯右邊的圖比左邊的圖更離散一些,試想一個極端情況,當模型就是一個常數時,這個時候模型復雜度最低,同時Variance也為0。所以我們可以得出結論:當模型復雜度低時,Variance更低,當模型復雜度高時,Variance更高。

技術分享圖片

到這裏我們可以給出兩個結論。

一、Bias和模型復雜度的關系:當模型復雜度上升時,Bias減小。當模型復雜度降低時,Bias增加。(反比關系)

二、Variance和模型復雜度的關系:當模型復雜度低時,Variance更低,當模型復雜度高時,Variance更高。(正比關系)

一開始我們就知道Error = Bias + Variance。整個模型的準確度和這兩個都有關系,所以這下看似是有些矛盾的。如何才能取到最小的Error呢,看下圖,藍線就是Error的伴隨Bias和Variance的變化情況,可以看出橫坐標3應該是一個較好的結果。所以我們需要找到一個平衡點取得最優解。

技術分享圖片

實際情景中我們怎麽判斷自己的模型是Bias大還是Variance大呢,這個就要看到底是你的模型無法盡量大的擬合你的樣本還是你的模型高度擬合你的樣本但是用測試數據算時誤差右很大。前者就是應該bias大導致的,也就是模型復雜度太低導致的。後者就是因為模型復雜度高導致Variance高導致的。

以上就是我對Bias(偏差),Error(誤差),和Variance(方差)的一些簡單理解,圖全是截取自李宏毅的PPT中。

理解Bias(偏差),Error(誤差),和Variance(方差)的區別和聯系?