1. 程式人生 > >Regression and Correlation (迴歸分析與相關分析)

Regression and Correlation (迴歸分析與相關分析)

變數之間的關係

分析 變數 之間 的 關係 需要 解決 下面 的 問題: ( 1) 變數 之間 是否 存在 關係? ( 2) 如果 存在, 它們 之間 是什麼 樣 的 關係? ( 3) 變數 之間 的 關係 強度 如何? ( 4) 樣本 所 反映 的 變數 之間 的 關係 能否 代表 總體 變數 之間 的 關係?
從 統計 角度 看, 變數 之間 的 關係 大體上 可分 為 兩種 型別, 即 函式 關係 和 相關 關係。 函式 關係 是 人們 比較 熟悉 的。 設有 兩個 變數 x 和 y, 變數 y 隨 變數 x 一起 變化, 並 完全 依賴於 x, 當 x 取 某個 值 時, y 依 確定 的 關係 取 相應 的 值, 則 稱 y 是 x 的 函式, 記 為 y= f( x)。 在 實際問題 中, 有些 變數 間的 關係 並不 像 函式 關係 那麼 簡單。 例如, 家庭 儲蓄 與 家庭 收入 這 兩個 變數 之間 就不 存在 完全 確定 的 關係。 也就是說, 收入水平 相同 的 家庭, 它們 的 儲蓄額 往往 不同, 而 儲蓄額 相同 的 家庭, 它們 的 收入水平 也可能 不同。 這 意味著 家庭 儲蓄 並不能 完全 由 家庭 收入 一個 因素 所 確定, 還有 銀行 利率、 消費水平 等 其他 因素 的 影響。 正是 由於 影響 一個 變數 的 因素 有 多個, 才 造成了 它們 間 關係 的 不確定性。 變數 之間 這種 不確定 的 關係 稱為 相關 關係( correlation)。

變數之間關係描述

變數之間的關係用散點圖來描述。如果兩個變數的觀測點完全落在直線上,稱為完全線性關係,這實際上就是函式關係。散點圖可以判斷兩個變數之間有無相關關係,並對關係形態作出大致描述,但要準確度量變數間的關係強度,則需要計算相關係數。

Correlation 相關分析

相關係數r(Correlation Coefficient)

是用來衡量兩個隨機變數X與Y之間直線關係的方向與強弱。 

-1 <= r <= 1; 

r=0 並不一定表示Y與X之間沒有關係,它表示Y與X間無線性關係


Regression 迴歸分析  

迴歸分析目的

迴歸分析的主要目的是研究一個或數個自變數(independent variable) 與一個因變數(dependent variable)之間的關係,進而建構一個適當的數學方程式,並利用這個方程式來解釋或預測因變數之值。在迴歸分析中自變數用 X 來表示,因變數用 Y 來表示,它們之間的函式關係可以用 Y = f(X) 來表示。

迴歸分析的例子

例如股票分析師建立一個公司的股價 Y 與該公司各項財務指標 X 的迴歸模型,以便準確的預測該公司的股價。

簡單迴歸與復回歸

影響因變數之自變數通常不止一個,例如 房價可能與房子大小(X1), 房齡(X2), 離市區距離(X3), 有無空調(X4) 等因素有關,但這些因素是否會影響因變數呢? 就可以用迴歸分析來找出影響房價最重要的因數,以作為預測房價的重要根據。在迴歸分析中若只考慮一個自變數,則稱為簡單迴歸(Simple Regression),否則稱為復回歸或多元迴歸(Multiple Regression)。

迴歸分析前提

  • 在迴歸分析之前,需先了解變數間呈何種關係,才能選擇一個適當的數學方程式或迴歸模式。
  • 在迴歸分析之前,需先確定資料不含離群值。

迴歸分析的用處

  • 描述資料
  • 估計引數
  • 預測與估計因變數之值
  • 控制因變數之值

簡單直線迴歸

從散佈圖可以看出自變數與因變數間的關係,最簡單的關係即為直線關係。 Yi = b0 + b1Xi + e

迴歸模式好壞的判斷

  • 由圖形判定,資料點與迴歸方程式越接近表示迴歸模式越有用
  • 判定係數 r2