Python金融系列第五篇：多元線性迴歸和殘差分析

阿新 • • 發佈：2018-11-10

作者：chen_h
微訊號 & QQ：862251340
微信公眾號：coderpai

第一篇：計算股票回報率，均值和方差

第六篇：現代投資組合理論

第七篇：市場風險

第八篇：Fama-French 多因子模型

介紹

在前某章中，我們介紹了簡單的線性迴歸，它只有一個自變數。在本章中，我們將學習具有多個自變數的線性迴歸。

簡單的線性迴歸模型以下列形式編寫：

$Y$

= α + β X + ϵ Y = \alpha + \beta X + \epsilon

Y = α + β X + ϵ

具有 p 個變數的多元線性迴歸模型可以由下面的公式給出：

$Y = α + β_{1} X_{1}$

+ β 2 X 2 + β 3 X 3 + ⋯ + β p X p + ϵ Y = \alpha + \beta_{1}X_{1}+ \beta_{2}X_{2}+ \beta_{3}X_{3}+ \cdots + \beta_{p}X_{p} + \epsilon

Y = α + β_{1} X_{1} + β_{2} X_{2} + β_{3} X_{3} + \dots + β_{p} X_{p} + ϵ

Python 實現

在上一章中，我們使用標普500指數來預測亞馬遜股票收益率。現在我們將新增更多變數來改進模型的預測。特別是，我們將考慮亞馬遜的競爭對手。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.formula.api as sm
from pandas_datareader import data as pdr
import fix_yahoo_finance as yf

# Get stock prices
spy_table  = pdr.get_data_yahoo("SPY")
amzn_table = pdr.get_data_yahoo("AMZN")
ebay_table = pdr.get_data_yahoo("EBAY")
wal_table  = pdr.get_data_yahoo("WMT")
aapl_table = pdr.get_data_yahoo("AAPL")

然後我們從 2016 年開始獲取收盤價：

spy  = spy_table .loc['2016',['Close']]
amzn = amzn_table.loc['2016',['Close']]
ebay = ebay_table.loc['2016',['Close']]
wal  = wal_table .loc['2016',['Close']]
aapl = aapl_table.loc['2016',['Close']]

在獲取每個股票的日誌返回後，我們將它們連線成一個 DataFrame，並打印出最後五行：

spy_log  = np.log(spy.Close) .diff().dropna()
amzn_log = np.log(amzn.Close).diff().dropna()
ebay_log = np.log(ebay.Close).diff().dropna()
wal_log  = np.log(wal.Close) .diff().dropna()
aapl_log = np.log(aapl.Close).diff().dropna()
df = pd.concat([spy_log,amzn_log,ebay_log,wal_log,aapl_log],axis = 1).dropna()
df.columns = ['SPY', 'AMZN', 'EBAY', 'WAL', 'AAPL']
df.tail()

	SPY	AMZN	EBAY	WAL	AAPL
Date
2016-12-23	0.001463	-0.007531	0.008427	-0.000719	0.001976
2016-12-27	0.002478	0.014113	0.014993	0.002298	0.006331
2016-12-28	-0.008299	0.000946	-0.007635	-0.005611	-0.004273
2016-12-29	-0.000223	-0.009081	-0.001000	-0.000722	-0.000257
2016-12-30	-0.003662	-0.020172	-0.009720	-0.002023	-0.007826

跟以前一樣，我們使用 statsmodels 包來執行簡單的線性迴歸：

import statsmodels.formula.api as sm
simple = sm.ols(formula = 'amzn ~ spy',data = df).fit()
print(simple.summary())

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                   amzn   R-squared:                       0.230
Model:                            OLS   Adj. R-squared:                  0.227
Method:                 Least Squares   F-statistic:                     74.46
Date:                Tue, 09 Oct 2018   Prob (F-statistic):           7.44e-16
Time:                        11:55:12   Log-Likelihood:                 680.94
No. Observations:                 251   AIC:                            -1358.
Df Residuals:                     249   BIC:                            -1351.
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      0.0002      0.001      0.196      0.845      -0.002       0.002
spy            1.0661      0.124      8.629      0.000       0.823       1.309
==============================================================================
Omnibus:                       67.332   Durbin-Watson:                   2.018
Prob(Omnibus):                  0.000   Jarque-Bera (JB):             2026.389
Skew:                          -0.074   Prob(JB):                         0.00
Kurtosis:                      16.919   Cond. No.                         121.
==============================================================================

同樣，我們可以構建一個多元線性迴歸模型：

import statsmodels.formula.api as sm
model = sm.ols(formula = 'amzn ~ spy + ebay + wal',data = df).fit()
print(model.summary())

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                   amzn   R-squared:                       0.250
Model:                            OLS   Adj. R-squared:                  0.238
Method:                 Least Squares   F-statistic:                     20.52
Date:                Tue, 09 Oct 2018   Prob (F-statistic):           1.32e-14
Time:                        13:23:15   Log-Likelihood:                 684.25
No. Observations:                 251   AIC:                            -1358.
Df Residuals:                     246   BIC:                            -1341.
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      0.0002      0.001      0.229      0.819      -0.002       0.002
spy            1.0254      0.170      6.038      0.000       0.691       1.360
ebay          -0.0774      0.058     -1.325      0.186      -0.193       0.038
wal           -0.0838      0.089     -0.943      0.346      -0.259       0.091
aapl           0.1576      0.084      1.883      0.061      -0.007       0.322
==============================================================================
Omnibus:                       69.077   Durbin-Watson:                   1.983
Prob(Omnibus):                  0.000   Jarque-Bera (JB):             1890.930
Skew:                          -0.272   Prob(JB):                         0.00
Kurtosis:                      16.435   Cond. No.                         179.
==============================================================================

從上表中我們可以看出，ebay，walmart 和 apple 的 p 值分別是 0.186，0.346，0.061，因此在 95% 置信水平下他們都不顯著。多元迴歸模型具有比簡單模型更高的 $R^{2}$ ，0.254 VS 0.234。實際上， $R^{2}$ 不會隨著變數數量的增加而減少。為什麼呢？如果在我們的迴歸模型中新增一個額外的變數，但它無法解釋響應中的變化（amzn），那麼它的估計係數將只是零。就好像該變數從未包含在模型中一樣，因此 $R^{2}$ 不會改變。但是，新增數百個變數並不總是更好，這個問題我們會在後續章節中討論。

我們可以進一步改進模型嗎？在這裡，我們嘗試 Fama-French 5因子模型，這是資產定價理論中的一個重要模型。我們將會在後面的教程中介紹。資料下載地址

path = './F-F_Research_Data_5_Factors_2x3_daily.CSV'
fama_table = pd.read_csv(path)

# Convert time column into index
fama_table.index = [datetime.strptime(str(x), "%Y%m%d")
                    for x in fama_table.iloc[:,0]]
# Remove time column
fama_table = fama_table.iloc[:,1:]

通過這些資料，我們可以構建一個 Fama-French 因子模型：

fama = fama_table['2016']
fama = fama.rename(columns = {'Mkt-RF':'MKT'})
fama = fama.apply(lambda x: x/100)
fama_df = pd.concat([fama, amzn_log], axis = 1)
fama_model = sm.ols(formula = 'Close~MKT+SMB+HML+RMW+CMA', data = fama_df).fit()
print(fama_model.summary())

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                  Close   R-squared:                       0.387
Model:                            OLS   Adj. R-squared:                  0.375
Method:                 Least Squares   F-statistic:                     30.96
Date:                Tue, 09 Oct 2018   Prob (F-statistic):           2.24e-24
Time:                        13:46:31   Log-Likelihood:                 709.57
No. Observations:                 251   AIC:                            -1407.
Df Residuals:                     245   BIC:                            -1386.
Df Model:                           5                                         
Covariance Type:            nonrobust                                         
======================================================

 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    Python金融系列第五篇：多元線性迴歸和殘差分析
       
 
  
  
 作者：chen_h 微訊號 & QQ：862251340 微信公眾號：coderpai 
  
 第一篇：計算股票回報率，均值和方差 
 第二篇：簡單線性迴歸 
 第三篇：隨機變數和分佈 
 第四篇：置信區間和假設檢驗 
 第五篇：多元線性迴歸和殘差分析 
 第六篇：現代投資組合 

  
 

    

    
    Python金融系列第六篇：現代投資組合理論
       
 
  
  
 作者：chen_h 微訊號 & QQ：862251340 微信公眾號：coderpai 
  
 第一篇：計算股票回報率，均值和方差 
 第二篇：簡單線性迴歸 
 第三篇：隨機變數和分佈 
 第四篇：置信區間和假設檢驗 
 第五篇：多元線性迴歸和殘差分析 
 第六篇：現代投資組合 

  
 

    

    
    Python金融系列第八篇：Fama-French 多因子模型
       
 
  
  
 作者：chen_h 微訊號 & QQ：862251340 微信公眾號：coderpai 
  
 第一篇：計算股票回報率，均值和方差 
 第二篇：簡單線性迴歸 
 第三篇：隨機變數和分佈 
 第四篇：置信區間和假設檢驗 
 第五篇：多元線性迴歸和殘差分析 
 第六篇：現代投資組合 

  
 

    

    
    Python金融系列第七篇：市場風險
       
 
  
  
 作者：chen_h 微訊號 & QQ：862251340 微信公眾號：coderpai 
  
 第一篇：計算股票回報率，均值和方差 
 第二篇：簡單線性迴歸 
 第三篇：隨機變數和分佈 
 第四篇：置信區間和假設檢驗 
 第五篇：多元線性迴歸和殘差分析 
 第六篇：現代投資組合 

  
 

    

    
    Python金融系列第四篇：置信區間和假設檢驗
      
							
							
							作者：chen_h
微訊號 & QQ：862251340
微信公眾號：coderpai





第五篇：多元線性迴歸和殘差分析
第六篇：現代投資組合理論
第七篇：市場風險
第八篇：Fama-French 多因子模型

介紹
在上一章中，我們討論了隨機變 

  
 

    

    
    Mysql高手系列 - 第8篇：詳解排序和分頁(order by & limit)，及存在的坑
      這是Mysql系列第8篇。
環境：mysql5.7.25，cmd命令中進行演示。
程式碼中被[]包含的表示可選，|符號分開的表示可選其一。
本章內容

詳解排序查詢
詳解limit
limit存在的坑
分頁查詢中的坑

排序查詢（order by）
電商中：我們想檢視今天所有成交的訂單，按照交易額從高到低排序 

  
 

    

    
    Python開發【第五篇】：Python基礎之2
      對齊方式   dex   字符串   後退   ring   lag   nic   有效   func   字符串格式化
Python的字符串格式化有兩種方式: 百分號方式、format方式
百分號的方式相對來說比較老，而format方式則是比較先進的方式，企圖替換古老的方式，目前兩者並存。[PEP-310 

  
 

    

    
    第五篇：python基礎_5
      執行過程   ini   間接   ray   復雜   func   時間   基於   time   本篇內容

協程函數
遞歸
二分法
import語句
from...import語句
模塊搜索路徑
包的導入
軟件開發規範
logging模塊的使用

 
一、 協程函數
 1.定義
協程函數就是使用了y 

  
 

    

    
    Python金融系列第二篇：簡單線性迴歸
      
							
							
							作者：chen_h
微訊號 & QQ：862251340
微信公眾號：coderpai



第三篇：多元線性迴歸和殘差分析
第四篇：現代投資組合理論
第五篇：市場風險
第六篇：Fama-French 多因子模型

介紹
在金融和經濟領域，大多數模型都是 

  
 

    

    
    第五篇：Python函式基礎篇
      
                　　本篇介紹什麼是函式、函式的特性、函式的定義、函式的呼叫、以及函式的引數、以及關於全域性變數和區域性變數的使用等等。

一、什麼是函式：

　　函式是最基本的一種程式碼抽象方式，為了實現某種特定的功能而組織的帶名字的程式碼塊。

　　那為什麼要使用函式呢？

　　　　1、避 

  
 

    

    
    Python開發【第五篇】：Python基礎之雜貨鋪
      字串格式化 
 
  
  Python的字串格式化有兩種方式: 百分號方式、format方式 
  百分號的方式相對來說比較老，而format方式則是比較先進的方式，企圖替換古老的方式，目前兩者並存。[PEP-3101] 
  This PEP proposes a new system for  

  
 

    

    
    OpenCV學習系列教程第五篇：測試和提高程式碼的效率
      Opencv-Python學習系列教程第五篇 
來自opencv-python官方學習文件，本人謹做翻譯和註釋，以及一些自己的理解 
本文由作者翻譯並進行程式碼驗證，轉載請註明出處~ 
官方文件請參閱：https://docs.opencv.org/4.0.1/dc/d71/tutorial_py_optim 

  
 

    

    
    第五篇：數據預處理(二) - 異常值處理
      ges   方向   分享   site   方式   得到   ros   聚類   測試   前言
       數據中如果有某個值偏離該列其他值比較離譜，那麽就有可能是一個異常的值。在數據預處理中，自然需要把這個異常值檢測出來，然後剔除掉，或者光滑掉，或者其他各種方法進行處理。
       需要註 

  
 

    

    
    前端學PHP之面向對象系列第五篇——對象操作
      fas   get   toolbar   影響   運算   描述   ssa   reference   保持   對象克隆
　　對象復制，又叫對象克隆，可以通過 clone 關鍵字來完成
　　在多數情況下，我們並不需要完全復制一個對象來獲得其中屬性。但有一個情況下確實需要：如果你有一個窗口對象，該對象持 

  
 

    

    
    Linux實戰第五篇：RHEL7.3下Nginx虛擬主機配置實戰（基於別名）
      虛擬主機 nginx個人筆記分享（在線閱讀）：http://note.youdao.com/noteshare?id=05daf711c28922e50792c4b09cf63c58PDF版本下載http://down.51cto.com/data/2323313本文出自 “人才雞雞” 博客，請務必保留此出處 

  
 

    

    
    第五篇：模塊
      pytho   擴展名   提升   特殊屬性   基本   們的   imp   rand   屬性    
定義模塊                            
一、模塊基本概念
1、模塊是從邏輯上組織python代碼的形式
2、當代碼量變得相當大的時候，最好把代碼分成一些有
3、組織的代碼段 

  
 

    

    
    第五篇：函數
      hello   name   module   操作   創建   n)   由於   cti   most    
函數基本操作 
一、函數基本概念1、函數是對程序邏輯進行結構化或過程化的一種編程方法
2、將整塊代碼巧妙地隔離成易於管理的小塊
3、把重復代碼放到函數中而不是進行大量的拷貝，這樣既能節省空間， 

  
 

    

    
    深入理解javascript作用域系列第五篇
      彈出   例子   深入理解java   logs   title   最終   pre   有變   context   前面的話
　　對於執行環境(execution context)和作用域(scope)並不容易區分，甚至很多人認為它們就是一回事，只是高程和犀牛書關於作用域的兩種不同翻譯而已。但實際上， 

  
 

    

    
    第五篇：Centos7上配置docker容器ssh登錄
      方式   service   col   客戶端連接   httpd   添加   遠程   初步   images   1.查看httpd容器是否運行2.啟動httpd容器3.默認情況下，我們只能在宿主機上通過如下方式連接容器說明：這是在宿主機連接容器直接有效的方法
我們能夠通過容器的IP地址連接容器呢？需 

  
 

    

    
    第五篇：jmeter圖形監控擴展
      col   服務   默認端口   PE   load   分享圖片   bat   serve   運行腳本   插件下載：http://jmeter-plugins.org/downloads/all/
插件：
1.首先將jmeterPluging.jar包復制到jmeter的lib目錄下面的ext目