1. 程式人生 > >迴歸分析中的引數估計為何是最小二乘法(least squares),不是最小一乘法(least absolute deviations)

迴歸分析中的引數估計為何是最小二乘法(least squares),不是最小一乘法(least absolute deviations)

如題,面試被問到了。今天網上找了些資料,整理了一下。

迴歸分析就是找到一條最合適的擬合線來逼近所有的觀測點。如何衡量擬合的好壞程度呢,直接地,就是看擬合值與觀測值之間的距離了。在這種情況下,我們直接用擬合值與觀測值差的絕對值就可以衡量誤差(如公式1),為什麼要用差的平方呢(如公式2)?


文獻1給出了一個牽強的解釋,不過說的也確實很有道理。文獻1中的說法就是求解公式(2)的最小值很容易(見公式(3)(4),分別對a,b求偏導,令偏導等於0,求解線性方程組就可以了),但是對於公式(1)來說,由於存在絕對值,求導就不那麼容易了。所以,從微積分求解a,b兩個引數的角度來看,公式(2)優於(1),即最小二乘法勝過最小一乘法。這種說法雖然有點牽強,但是想想在計算機能力有限的年代,從公式(1)推匯出合適的a,b是不可能的,公式(2)就佔據了主流,漸漸地,人們就習慣用最小二乘法來做引數估計了~。

                                   

但是對於引數估計的準確度來說,公式(1)和公式(2)哪個更好呢?網上有說公式(1)優於(2)的,並且文獻1也提到了公式(1)求解出的a,b值能夠更好地擬合觀測值。如果想了解一下權威透徹的解釋,就看看文獻2吧~!

微軟的牛人劉未鵬從最大似然概率的角度給了一個巧妙的解釋(文獻3)。現將其總結如下:

用O記作觀測值,L記作擬合的曲線。那麼我們最大化的後驗概率就是公式(5):

每條擬合曲線的先驗概率都是相等的,因為在沒有觀測值衡量的情況下,很難說拿條曲線好,哪條曲線壞。於是,我們儘量最大化p(O|L)就是了。但是怎麼計算p(O|L)呢,如何才能使p(O|L)最大化呢?試想如果L是給定的擬合線,那麼擬合線產生某一特定觀測點的概率有多大?這個概率是跟觀測點到擬合線的距離有關的。假設擬合線產生觀測點的概率符合正態分佈,偏離擬合線越遠的觀測點,其產生的概率就越小。那麼p(O|L)的計算就如公式(6):


其中Delta(di)指的是觀測值與擬合值間的距離,其實就是公式(2)中的(yi-(a+bxi))。最大化公式(6)的本質就是最小化公式(2)。這也算是最小二乘法的一個來源吧~~!

參考文獻:

文獻1:Why we use “least squares” regression instead of “least absolute deviations” regression,http://www.bradthiessen.com/html5/docs/ols.pdf

相關推薦

迴歸分析引數估計為何乘法least squares乘法(least absolute deviations)

如題,面試被問到了。今天網上找了些資料,整理了一下。 迴歸分析就是找到一條最合適的擬合線來逼近所有的觀測點。如何衡量擬合的好壞程度呢,直接地,就是看擬合值與觀測值之間的距離了。在這種情況下,我們直接用擬合值與觀測值差的絕對值就可以衡量誤差(如公式1),為什麼要用差的平方呢(

ExcelIF函數的多條件判斷嵌套與LOOKUP函數的聯合應用

www. 默認 數組 不存在 返回 等於 美女圖片 解釋 函數基礎 1、IF函數的多條件判斷 當IF函數要對多個條件進行判斷時,除了AND和OR函數(前面文章介紹),更多的情況需要用到IF函數的嵌套。 例如要對學生的分數進行評級,當分數小於60分時,不及格;分數大於等於60

收藏 | 雲端計算領域全常用術語中英文對照你知道多少個?

“雲”發展得如此火熱,“雲”術語層出不窮。為了緊跟上科技潮流,做雲端計算領域的知識達人,小編整理了45個雲端計算領域常用的術語(含中英文對照)及其解釋,以供愛學習的你們參考,一起讓科技知識儲備量上升一個level~ 本文內容主要包含: •關於虛擬化 •關於雲端計算技術 •關於雲

B - I Hate It HDU - 1754 線段樹區間大值板子單點更新區間

struct pac 都是 else space ostream stream for 初始   第一次打 改了半天 各種小錯誤 難受 1 #include<cstdio> 2 #include<iostream> 3 using name

Java從m個數隨機選取n個不同的數m>=n並進行排序

我這裡直接給出我寫的函式,只需傳入引數便可直接使用://從x-y中的數中隨機找出num個不同的數,返回給integer的動態陣列中ArrayList<Integer> makeRandom(int x, int y, int num)      {        

pls迴歸分析 matlab

偏最小二乘用於查詢兩個矩陣(X和Y)的基本關係,即一個在這兩個空間對協方差結構建模的隱變數方法。偏最小二乘模型將試圖找到X空間的多維方向來解釋Y空間方差最大的多維方向。偏最小二乘迴歸特別適合當預測矩陣比觀測的有更多變數,以及X的值中有多重共線性的時候。通過投影預測變數和觀測變

迴歸分析的評價方法

       迴歸(Regression)不同於分類問題,在迴歸方法中我們預測一系列連續的值,在預測完後有個問題是如何評價預測的結果好壞,關於這個問題目前學術界也沒有統一的標準。下面是我在論文中的看到的一些常用方法,希望對有緣人有用。 1 MAE(Mean Absolute

Python 迴歸 普通乘法Ordinary Least Squares

廣義線性迴歸模型: 把作為係數向量(coef_);把作為截距(intercept_) 1.普通最小二乘法(Ordinary Least Squares) 線性迴歸的目的就是是的預測值與實際值的殘差平方和最小: import matplotlib.

【轉載】引數估計(Parameter Estimation):頻率學派大似然估計MLE、大後驗估計MAP與貝葉斯學派貝葉斯估計BPE

基礎 頻率學派與貝葉斯學派 最大似然估計(Maximum likelihood estimation,MLE) 最大後驗估計(maximum a posteriori estimation,MAP) 貝葉斯估計(Bayesian parameter estimation,BPE) 經典引數估計方

找出陣列第K個的數快速排序

問題描述:給定一個無序的陣列,從一個數組中找出第K個最小的數,例如,對於給定陣列序列{1,5,2,6,8,0,6},其中第4小的數為5。 演算法思路:採用快速排序,分而治之的思想,根據主元,每次Partiton以主元為軸,比它小的數在左邊,比它大的數在右邊,判

R語言 | 多元迴歸分析的對照編碼contrast coding | 第一節 dummy variable啞變數 和 dummy coding

對於一個自變數是分類變數Categorical Factor的迴歸模型,需要為該Factor的每個Level建立dummy variable。Contrast Matrix把每個Level對映為dummy variable的值。 我們看一個例子來感性認識下dummy v

7-25 暢通工程之局部花費問題35 分

cnblogs rdquo text str open main ble 正整數 dash 某地區經過對城鎮交通狀況的調查,得到現有城鎮間快速道路的統計數據,並提出“暢通工程”的目標:使整個地區任何兩個城鎮間都可以實現快速交通(但不一定有直接

PTA 7-1 暢通工程之局部花費問題35 分

不一定 統計表 ace pro pen max 數據 n) 間接 7-1 暢通工程之局部最小花費問題(35 分) 某地區經過對城鎮交通狀況的調查,得到現有城鎮間快速道路的統計數據,並提出“暢通工程”的目標:使整個地區任何兩個城鎮間都可以實現快速交通(但不一定有直接的快

bzoj 2044 三維導彈攔截——DAG路徑覆蓋二分圖

geo () cstring space 路徑 href ++ void 自己 題目:https://www.lydsy.com/JudgeOnline/problem.php?id=2044 還以為是CDQ。發現自己不會三維以上的…… 第一問可以n^2。然後是求最長不下降

matlab練習程序乘多項式擬合

相關 sum 因此 使用 val fit width clas height 最近在分析一些數據,就是數據擬合的一些事情,用到了matlab的polyfit函數,效果不錯。 因此想了解一下這個多項式具體是如何擬合出來的,所以就搜了相關資料。 這個文檔介紹的還不錯,我估計

用c++求一個維整數陣列大子陣列之和結對作業

題目:返回一個二維整數陣列中最大子陣列之和。 要求: 1.輸入一個二維整形陣列,數組裡有正有負。 2.二維陣列中連續的一個子矩陣 組成一個數組,每個子陣列都有一個和。 3.求所有子陣列的和的最大值。 結對程式設計要求 兩人結對完成程式設計任務。 一人負責程式分析,程式碼程式設計。 一

Leetcode 124 叉樹大路徑和 遞迴

給定一個非空二叉樹,返回其最大路徑和。 本題中,路徑被定義為一條從樹中任意節點出發,達到任意節點的序列。該路徑至少包含一個節點,且不一定經過根節點。 示例 1: 輸入: [1,2,3] 1 / \ 2 3 輸出: 6 示例 2:

演算法--統計文字出現次數多的單詞字典樹

統計一個文字中,出現次數最多的單詞:單詞全部小寫,單詞與單詞之間以空格間隔 1.利用字典  key為單詞  value為單詞出現的次數 def mostString(): dict = {} fr = open('preprocessing.txt')

ZOJ——Copying Books 大值化問題 貪心 + 二分

題目連結: #include <cstdio> #include <cmath> #include<vector> #include<cstring> #include<algorithm> #include<cmath>

PTA 暢通工程之區域性花費問題 35 分

  某地區經過對城鎮交通狀況的調查,得到現有城鎮間快速道路的統計資料,並提出“暢通工程”的目標:使整個地區任何兩個城鎮間都可以實現快速交通(但不一定有直接的快速道路相連,只要互相間接通過快速路可達即可)。現得到城鎮道路統計表,表中列出了任意兩城鎮間修建快速路的費用,以及該道路是否已經修