1. 程式人生 > >R 語言之資料分析高階方法「GLM 廣義線性模型」

R 語言之資料分析高階方法「GLM 廣義線性模型」

‍‍‍‍‍‍‍‍‍

640?

作者:姚某某

部落格:https://zhuanlan.zhihu.com/mydata

往期回顧:

640?wx_fmt=gif

本節主要總結「資料分析」的「GLM 廣義線性模型」思想。

「知其然,而不知其所以然」是一種很肉痛的感覺。

《 R 語言實戰》一書,從第 13 章開始,進入了資料分析高階方法的介紹,這些方法對於初學者而言,都顯的有些高深莫測。雖然能夠正確的將書中程式碼實現並得到正確的結果,但是總有一種抱著人家孩子卻體會不到人家造人快感的難受,所有我每實踐一種新的方法都天真的想去抓住這些方法的本質,甚至挖掘其來龍去脈,事實證明果然是真的天真,每一種方法的背後都有著一整套的理論體系,要想徹底弄清所有細節,非一日之功。所以,我選擇了退一步,只力求理解其理論思想,不糾結其公式推導,演算法的深入研究留給將來的實踐過程。

本節,我就講一講對「GLM 廣義線性模型」的理解。


1. 廣義線性模型理解

1.1. 個人對廣義線性模型的理解

廣義線性模型,其實沒想象中那麼嚇人,但是大多數文章中的解釋都太過公式化,初學者很難從這些抽象的數學推導中去總結巨集觀的思維過程,直到看到了這個問題「廣義線性模型和聯絡函式」中@Jack Diamond的回答,我才有一種恍然大悟的感覺。

相較與標準線性模型,廣義線性模型有兩個推廣:

  1. 響應變數 Y 在標準線性模型中服從於引數為的正態分佈(μY,δ2),推廣到廣義線性模型中,響應變數 Y 服從於指數分佈族中的一種分佈即可,相關引數根據具體分佈而定。(這個指數分佈族的坑就很深,手頭上沒有相關專案我還沒有打算花時間去填,只要記住幾個常用的指數分佈目前也就夠用了,比如二項分佈、泊松分佈等)

  2. 線性含義的推廣。在標準線性模型中,線性指的是,響應變數 Y 所服從的正態分佈的引數 μY是線性的,即 μY =a + bx 當然這個線性可以從 x 這個角度做其他推廣,多元、非線性之類)。而在廣義線性模型中,線性推廣至,響應變數  Y  所服從的一個分佈(指數分佈族)的引數θ它的函式  f(θ)是線性的,即(同樣可以從 f(θ)= a + bx 這個角度做其他推廣,這裡的  f(θ) 我們稱為聯結函式)。


1.2. 舉例

1.2.1. 標準線性迴歸

用廣義線性模型表示 Y~(μY,δ2) ,其中 μY =a + bx 。

640?wx_fmt=png


1.3. 總結

Jack Diamond 的總結已經很到位:

一般地說,GLM的建模過程是這樣的:首先弄清楚 y

服從什麼分佈,寫出

640?wx_fmt=png

640?wx_fmt=png

 往期精彩內容整理合集 

640?wx_fmt=jpeg

公眾號後臺回覆關鍵字即可學習

回覆 R                  R語言快速入門及資料探勘 
回覆 Kaggle案例  Kaggle十大案例精講(連載中)
回覆 文字挖掘      手把手教你做文字挖掘
回覆 視覺化          R語言視覺化在商務場景中的應用 
回覆 大資料         大資料系列免費視訊教程 
回覆 量化投資      張丹教你如何用R語言量化投資 
回覆 使用者畫像      京東大資料,揭祕使用者畫像
回覆 資料探勘     常用資料探勘演算法原理解釋與應用
回覆 機器學習     人工智慧系列之機器學習與實踐
回覆 爬蟲            R語言爬蟲實戰案例分享