1. 程式人生 > >嶺回歸技術原理應用

嶺回歸技術原理應用

方程 及其 時長 原理 cnblogs 自己 文獻 其中 clas

嶺回歸技術原理應用

作者:馬文敏

嶺回歸分析及其SPSS實現方法

嶺回歸分析(RidgeRegression)是一種改良的最小二乘估計方法,它是用於解決在線性回歸分析中自變量存在共線性的問題。什麽?共線性是什麽?共線性就是指自變量之間存在一種完全或良好的線性關系,進而導致自變量相關矩陣之行列式近似為0,導致最小二乘估計失效。此時統計學家就引入了k個單位陣(I),使得回歸系數可估計。

嶺回歸分析就是用來解決多重共線性的問題。在醫學科研的實際工作中,往往不需要創造算法,會用算法就行。下面是我找到的關於SPSS的例子。

某研究者想了解B超下胎兒的身長、頭圍、體重與胎兒受精周數之間的關系,即B超測得上述參數之後,用它們來推測胎兒的受精時長(周數)。我們很容易想到用多重線性回歸來解決,以胎兒周數為因變量,以身長、頭圍和體重為因變量,做回歸之後我們發現,結果如下:

技術分享

技術分享

對比發現頭圍盡然與周齡成負相關。這個方程肯定是有問題,這時候嶺回歸該發揮作用了。

嶺回歸分析在SPSS中沒有可供點擊的對話框,所以需要寫一段超級簡單的語法來調用SPSS的宏。SPSS公司沒有提供人機交互的對話框,於是他們提供了一段宏程序,存儲路徑為“SPSS安裝目錄\SPSS\Statistics\22\Samples\Simplified Chinese\Ridge regression.sps”。

我們在做嶺回歸分析時,只需要調用它就行,調用語法如下(*後面是註釋):

技術分享

想要調用需在SPSS目錄下修改權限,修改權限一般默認不給用戶修改權限,需要用戶自己去改

進行上述運算後,

可以得到下幾個結果:1、不同K值下自變量的標準化回歸系數;2、嶺軌圖,3、R方的變化圖。

技術分享

技術分享

技術分享

怎樣選擇結果呢?我們需要選擇一定K值下的標準化回歸系數,選擇的原則是各個自變量的標準化回歸系數趨於穩定時的最小K值。因為K值越小引入的單位矩陣就少,偏差就小。我們把嶺跡圖放大,就可以看出k大約在0.05時,各個自變量的標準化回歸系數就趨於穩定了。如圖:

技術分享

通過上述分析就可以分析出嶺回歸各自變量的標準化回歸系數,同時我們可以獲得t值和p值但是SPSS原始的宏不提供p值的計算,所以我們需要在SPSS的宏中加入這一句話“. computeppp=2*(1-tcdf(abs(ratio),n-nv-1)).”,這句話就是計算p值的。同時我們對print結果略作修改。這句話加在下圖的位置上

技術分享

修改完宏之後,將其中的k改為等於0.05,SPSS就會做k=0.05時的嶺回歸分析,並給出各個自變量的檢驗結果,結果如下

技術分享

回歸分析是目前氣象統計分析中最常用的方法,回歸分析是最基本的分析,逐步分析可以幫助我們建立最優的回歸模型。

詳情參考:https://www.cnblogs.com/GMGHZ971322/

文章來源:---嗵嗵e妍

---百度文獻

嶺回歸技術原理應用