出色不如走運 (II)?
摘要
本文介紹幾種主流的多重檢驗方法。它們可以排除 data mining 造成的運氣成分,從而有效的從大量因子中選出真正能夠解釋截面收益率的好因子;該方法也可用於基金經理或投資策略的篩選。
1 引言
兩年前,我寫了一篇《出色不如走運?》。該文使用順序統計量(order statistics)解釋了當很多投資者(或基金)使用相同的資料構建不同的策略時,最好的那個一定是非常優秀的,但它很有可能僅僅是因為運氣好,而非真正的水平高。
如果我們 直接 從某個經濟學規律中找出了 一個 解釋股票預期收益截面差異的因子,並且該因子在統計上顯著,那麼它可能是真的顯著;但如果我們試了 500 個因子,然後找到了一個最牛逼的,那麼哪怕它的 t-statistic 非常高,我們也不能保證它就一定是個真的因子。
這就好比我們在大街上隨便抓了一個人讓他猜 20 次扔硬幣的結果,如果他全都猜對了,那麼他很可能真的擁有天生神力;但是如果我們讓 3 億人同時玩猜 20 次扔硬幣結果的遊戲,20 輪過後全對的還會有 250 人左右,但是我們會認為這些人僅僅是運氣好。
這些例子背後的數學邏輯是,如果有一個因變數 Y 和一個解釋變數 X,通過迴歸分析後我們發現迴歸係數的 t-statistic 很高(比如 2.0,對應 5% 的顯著性水平),那麼從傳統的單因素假設檢驗角度可以認為 X 能夠顯著的解釋 Y。然而,如果我們有很多個變數(比如 100 個) 、
、…、
,我們全都試了之後發現第 55 個變數最好。這時,如果它的 t-statistic 也是 2.0,我們卻不能說 X_{55} 顯著的解釋 Y。 這是因為僅僅靠運氣,這 100 個變數(假設獨立)中最好的那個的 t-statistic 大於 2.0 的概率高達 99%。
如何在層出不窮的因子中排除靠 data mining 挖掘的、而找到真正能夠解釋股票預期收益截面差異的?如何在大量的基金經理(或策略)中排除走運的、而找到真正能夠戰勝市場的?這些已成為非常迫切的問題。
在《出色不如走運》中,我們只說了僅僅憑運氣就能得到非常好的結果,卻沒有說應該怎樣排除運氣,找到真正的好因子或者好策略。帶著這些問題,今天就來一篇升級版 —— 出色不如走運 (II)?
最後一點提示,本文非常 technical,建議靜下心來閱讀。此外,熟悉 ofollow,noindex" target="_blank">《股票多因子模型的迴歸檢驗》 、 《為什麼要進行因子正交化處理?》 、以及 《用 Bootstrap 進行引數估計大有可為》 對閱讀本文會有幫助。
2 理論依據
既然是升級版,就不能光靠 order statistics 說事兒了,咱也得武裝升級一下理論。
當學術界有大量因子來解釋同一個問題 —— 股票截面預期收益(或者有許多不同的策略在同一個市場中交易時),傳統的單一統計檢驗(single testing ,即每次檢驗一個 hypothesis,比如一個單因子是否有效?某一個基金經理是否能帶來超額收益?)就不再適合了;這時候需要 multiple testing(多重檢驗)。在統計上,multiple testing 指的是同時檢驗多個 hypotheses。
在金融領域應用 multiple testing 在最近幾年得到了飛速發展。這其中的代表人物要數杜克大學的 Campbell Harvey 教授(曾於 2016 年任美國金融協會主席),他自 2014 年以來發表了多篇文章、進行了多個演講。其中最具代表性的文章包括:
- Harvey et al. (2016) 研究了學術界發表的 316 個顯著的選股因子,在已有的多重檢驗方法 —— 包括 Bonferroni adjustment、Holm adjustment以及 Benjamini-Hochberg-Yekutieli (BHY) adjustment —— 的基礎上,提出了一種能夠利用不同因子之間相關性的全新的多重檢驗框架,並指出 只有在 single testing 中 t-statistic 超過 3(而非人們傳統認為的 5% 的顯著性水平對應的 2)的因子才有可能在考慮了多重檢驗之後依然有效。 Harvey 同時也指出,3 其實都是非常保守的。
- Harvey and Liu (2015a) 利用 Harvey et al. (2016) 的多重檢驗研究瞭如何修正策略的 Sharpe Ratio。一般的經驗認為策略在實盤中的 Sharpe Ratio 應該是其在回測期內 Sharpe Ratio 的 50%。 Harvey and Liu (2015a) 定量計算了不同大小的 Sharpe Ratio 在實盤外的“打折程度”(他們稱為 haircut ratio),發現了 haircut ratio 和 Sharpe Ratio 之間的非線性關係。
除上述研究外,Harvey and Liu (2015b) 提出了一個全新的基於 regression 的多重檢驗框架解決因子挑選問題。 它的優勢是可以按順序逐一挑出最顯著的因子、第二顯著的因子,以此類推,直到再沒有顯著因子。這麼做的好處是可以評價每個新增加的因子在解釋股票截面收益率時的增量貢獻。 這是傳統的多重檢驗無法做到的。此外,該方法也可以被用來找到真正能夠戰勝市場的基金經理或投資策略。
本文的主要目標是介紹 Harvey and Liu (2015b) 提出的基於 regression 的多重檢驗方法。考慮到早期的多重檢驗方法(即 Bonferroni、Holm、BHY adjustments)也非常容易上手便捎帶著加以說明。至於 Harvey et al. (2016) 提出的方法,其技術性較強,複製起來比較困難,因此我們今後找機會再聊它(倒是可以先記住它的結論,即 t-statistic 要至少大於 3 才有可能通過該多重檢驗)。
下面首先來看容易上手的 Bonferroni、Holm 以及 BHY adjustments。
3 Bonferroni、Holm、BHY Adjustments
這三種多重檢驗方法可以分為兩類:
- Bonferroni 和 Holm adjustments 的目的是控制 family-wise error rate(族錯誤率);
- BHY adjustment 的目的是控制 false discovery rate。
在多重檢驗中,family-wise error rate(FWER)和 false discovery rate(FDR)代表著 Type I error 的兩個不同的定義。Type I error 是錯誤的拒絕原假設,也叫 false positive 或 false discovery。 在我們的上下文中,它意味著錯誤的發現了一個其實沒用的因子。
假設 K 個 hypotheses 的 p-value 分別為 、
、…、
。根據事先選定的顯著性水平,比如 0.05,其中 R 個 hypotheses 被拒絕了。換句話說,我們有 R 個發現(discoveries) —— 包括 true discoveries 和 false discoveries。令
代表 false discoveries 的個數。由此,FWER 和 FDR 的定義如下:
從定義不難看出, FWER 是至少出現一個 false discovery 的概率,控制它對單個 hypothesis 來說是相當嚴格的,會大大提升 Type II Error。相比之下,FDR 控制的是 false discoveries 的比例,它允許 隨 R 增加,是一種更溫和的方法。 無論採用哪種方法,都會有相當一部分在 single testing 中存活下來的“顯著”因子被拒絕。
需要說明的是 Bonferroni、Holm 以及 BHY 這三種方法都是為了修正 single testing 得到的 p-value,修正後的 p-value 往往會大於原始的 p-value,也就意味著修正後的 t-statistic 更小,即 hypotheses 不再那麼顯著。
下面通過簡單的例子(出自 Harvey and Liu 2015a)解釋這三種方法。假設一共有六個因子,它們 single testing 的 p-value 從小到大依次是 0.005、0.009、0.0128、0.0135、0.045、0.06。按照 0.05 的顯著性水平來看,前五個因子是顯著的。
首先來看 Bonferroni correction(中文稱作邦費羅尼校正),它對每個原始 p-value 的調整如下:
根據定義,這六個因子的 Bonferroni p-value 分別為 0.03、0.054、0.0768、0.081、0.27 和 0.36。經過修正後,在 0.05 的顯著性水平下,僅第一個因子依然顯著。
接下來看看 Holm 修正(Holm 1979)。它按照原始 p-value 從小到大 依次修正,公式為:
根據上述定義,原始 p-value 最小的因子被修正後,其 Holm p-value 為 0.06;第二個因子的 Holm p-value 為 。以此類推就能計算出其他四個因子的 Holm p-value:
經過 Holm 修正後,在 0.05 的顯著性水平下,只有前兩個因子依然顯著。
最後來看看 BHY 修正(Benjamini and Hochberg 1995, Benjamini and Yekutieli 2001)。它從原始 p-value 中最大的一個開始 從大到小逆向修正 ,公示如下:
其中,
Line"/>
在本例中,因為 K = 6,因此 c(K) = 2.45。由 BHY 的定義可知原始 p-value 最大的因子調整後的 BHY p-value 就是它自己。然後從第二大的開始,依次按照上述公式計算,最終得到了全部因子調整後的 BHY p-value,它們是(從小到大排列):0.0496、0.0496、0.0496、0.0496、0.06、0.06。在 0.05 的顯著性水平下,前四個因子依然顯著。
BHY 方法是以控制 false discovery rate 為目標,它的修正比另外兩種以控制 family-wise error rate 的方法更加溫和。這體現出來的結果就是在 BHY 調整下,有更多的因子依然顯著。 此外,BHY 方法對檢驗統計量之間的相關性不敏感,它的適應性很強。
各位小夥伴不妨使用上面介紹的這三種方法對因子的 p-value 進行修正試試。
4 基於 Regression 的多重檢驗
本節介紹 Harvey and Liu (2015b) 提出的基於 regression 的多重檢驗方法,該方法受到了 Foster et al. (1997) 以及 Fama and French (2010) 的啟發,在這二者的基礎上又有不少的創新。它的目的是為了從一大堆號稱顯著的因子中排除 data mining、找到真正顯著的;該方法也可以被用於從一大堆基金經理或策略中找出真正能夠戰勝市場的。
當很多因子被用來解釋截面收益時,效果最顯著(最顯著可以由最高的 t-statistic、R-squared 等指標代表)的因子中一定包含了運氣的成分。 這個方法的巧妙之處在於通過正交化和 Bootstrap 得到了僅靠運氣能夠得到的顯著性的經驗分佈;如果在排除了運氣帶來的顯著性之後某個因子依然顯著,那它就是真正的因子,而非 data mining 的結果。
隨著處理方式略有不同,Harvey and Liu (2015b) 這個方法可以用於 predictive regression(考察哪個 X 能預測 Y)、panel regression 以及 Fama-MacBeth regression(這兩類迴歸可以用於挑選好因子),但它們背後的邏輯完全一致。下面高度概括一下該方法的邏輯( 正交化和 Bootstrap 是核心 ):

接下來以 predictive regression 為例說明這個多重檢驗方法的具體步驟。Harvey and Liu (2015b) 中給出了使用 panel regression 和 Fama-MacBeth regression 時所需的改動。為了評價哪個因子有效,需要用到 panel regression,因此下一節會介紹針對 panel regression 的改動。
假設有因變數 Y 和 100 個解釋變數 X 的 500 期樣本資料,我們想看看哪個 X 能夠預測 Y。多重檢驗的步驟為:
第一步: 用每個 X 和 Y 迴歸(在我們的例子中就是 100 次迴歸),得到 100 個殘差 OX,它們和 Y 正交。這構成了 null hypothesis:所有 OX 對 Y 沒有預測性。
第二步: 以這 500 期的 Y 和正交化得到的 OX 為原始資料(500 × 101 的矩陣,每一行代表一期,第一列為 Y,第二到第 101 列為 100 個 OX 變數),使用 帶放回 的 Bootstrap 重取樣從這 500 行中不斷的隨機抽取,構建和原始長度一樣的 bootstrapped 資料(也是 500 × 101 矩陣)。 整行抽取保留了這 100 個變數在截面上的相關性。此外 Bootstrap 的好處是不對原始資料中的概率分佈做任何假設。
第三步: 使用 bootstrapped 資料,用每個 OX 和 Y 迴歸得到一個檢驗統計量(比如是 t-statistic);找出所有 OX 中該檢驗統計量最大的那個值,稱為 max statistic。如果我們的檢驗統計量是 t-statistic,那麼這個 max statistic 就是 500 個 t-statistic 中最大的。
第四步: 重複上述第二、第三步 10000 次, 得到 max statistic 的經驗分佈(empirical distribution),這是純靠運氣(因為 null hypothesis 已經是 OX 對 Y 沒有任何預測性了)能夠得到的 max statistic 的分佈。
第五步: 比較原始資料 Y 和每個 X 迴歸得到的 max statistic 和第四步得到的 max statistic 的經驗分佈:
- a. 如果來自真實資料的 max statistic 超過了經驗分佈中的閾值(比如 95% 顯著性水平對應的經驗分佈中 max statistic 的取值),那麼真實資料中 max statistic 對應的解釋變數就是真正顯著的。假設這個解釋變數是 X_7。
- b. 如果來自真實資料的 max statistic 沒有超過經驗分佈中的閾值,則這 100 個解釋變數全都是不顯著的。本過程結束,無需繼續進行。
第六步:使用目前為止已被挑出來的全部顯著解釋變數對 Y 進行正交化,得到殘差 OY。 它是原始 Y 中這些變數無法解釋的部分。
第七步: 使用 OY 來正交化剩餘的 X(已經選出來顯著變數,比如 X_7,不再參與餘下的挑選過程)。
第八步: 重複上述第三步到第七步: 反覆使用已挑出的顯著因子來正交化 Y,再用 OY 來正交化剩餘解釋變數 X;在 Bootstrap 重取樣時,使用 OY、k 個已經選出的 X、和剩餘 500 - k 個正交化後的 OX 作為原始資料生成 bootstrapped 樣本;通過大量的 Bootstrap 實驗得到新的 max statistic 的經驗分佈,並判斷剩餘解釋變數中是否仍然有顯著的。
第九步: 當剩餘解釋變數的 max statistic 無法超過 null hypothesis 下 max statistic 的經驗分佈閾值時,整個過程結束,剩餘的解釋變數全都是不顯著的。
以上以 predictive regression 為例介紹了 Harvey and Liu (2015b) 提出的多重檢驗框架。
5 用 Panel Regression 多重檢驗挑選好因子
在分析因子是否能顯著的解釋股票或投資組合的截面預期收益率時,迴歸方法是 panel / cross-sectional regression 而非前一節的 predictive regression。 需要說明的是,這裡的選股因子都是某個投資組合的(超額)收益率,比如 MKT,HML,SMB 這種。
在使用 panel regression 的多重檢驗過程中,Bootstrap 的思想和上一節介紹的完全一致,但是在正交化、迴歸分析、以及 max statistic 的選取有上些差異。
5.1 正交化
在挑選因子中,null hypothesis 是因子對解釋預期收益率截面差異沒有作用。 如果能夠拒絕原假設,則說明因子是有效的。但是運氣的成分往往帶來 false discovery,即本來這個因子沒用,但是 data mining (嘗試了一大堆因子中找到的效果最好的那個)使得它看起來有用。為此,和前一節的 predictive regression 一樣,多重檢驗的第一步通過正交化來構造出一個“純淨”的 null hypothesis,即因子不能解釋截面收益率。
正交化的方法為:
- 在尚未選出任何顯著因子時,對所有潛在因子的正交化處理方法是 demean(去均值)。 由於每個因子都是一個收益率,因此使用原始的因子值減去它在時序上的均值就排除了它在截面上的解釋性(因為 demean 後該因子在截面上的期望收益是零)。
- 如果已經選出了 k 個顯著的因子,在繼續挑選第 k + 1 個顯著因子時,正交化的方法是使用這 k 個因子作為解釋變數和第 k + 1 個因子在時序上回歸,得到的殘差就是正交化之後的待檢驗因子。
5.2 迴歸分析
在 predictive regression 中,我們會對因變數和解釋變數都進行正交化。假設已經選出了 k ≥ 0 個顯著變數。在選擇第 k + 1 個時,首先將 Y 投影到這 k 個變數上得到殘差 OY,這就是對 Y 的正交化。之後,再把剩餘待檢驗的解釋變數 X 逐一投影到 OY 上,得到 OX。然後再用 OY 和每個 OX 獨立迴歸進行後續 Bootstrap 步驟。這使得我們可以評估新加入變數 X 在預測 Y 時的增量貢獻。
進行 panel regression 時,個股或者投資組合的收益率作為因變量出現在迴歸方程的左側,對它們不進行正交化處理。 在迴歸方程的右側,使用已經選出的 k(k ≥ 0)個顯著因子和正交化後的第 k + 1 個因子(正交化方法參考 5.1 節)作為解釋變數。 始終將已經選出的前 k 個因子加入迴歸方程的右側可保證檢驗第 k + 1 個因子對解釋截面收益率的增量貢獻。 將因變數和解釋變數在時序上回歸,得到的截距項就是這些因子無法解釋的 pricing error。
上面的對比說明:在 predictive regression 中,迴歸方程的左側是 OY(用已經選出的 k 個 X 正交化 Y),而右側只有一個 OX(每個剩餘的 X 依次和 OY 迴歸);而在 panel regression 中,迴歸方程的左側是 Y(不正交化),而是把已經選出的 k 個 X 都放在迴歸方程的右側,因此右側為 k 個 X 以及一個新的待檢驗的正交化後的 OX。不同的方法是由於這兩種迴歸中 null hypothesis 的性質不同造成的。雖然這兩種方法的略有不同,但都保證了考察待檢驗變數對解釋 Y 的增量貢獻。
在 Harvey and Liu (2015b) 的最新版本 Harvey and Liu (2018) 中對上述迴歸有非常詳細的說明。值得一提的是,雖然作者將這個迴歸稱為 panel regression,但 Harvey and Liu (2018) 對每個投資品單獨的使用這些因子進行時序迴歸。 因此對於 N 個投資品,一共得到了 N 個 pricing errors; 如果直接使用 N 個投資品一起做 panel regression 並加入 fixed effects 也可以得到 N 個不同的截距。
5.3 “Max statistic”
在 null hypothesis 下,因子不能解釋收益率的截面差異。這意味著迴歸的截距(pricing error)應該距離零越遠越好。由於因子挖掘界 data mining 的“優良傳統”,當很多因子被測試後,最好的那個僅僅靠著運氣的成分也可以讓 pricing error 非常接近零。 為了量化並排除運氣的影響,Bootstrap 的目標就是得到 null hypothesis 下 pricing error 的經驗分佈,即僅靠運氣能夠得到的 pricing error 的經驗分佈。
從 asset pricing 角度來說,如果一個因子能夠解釋收益率截面差異,那麼迴歸截距應十分接近零。 由於一共有 N 個投資品,使用這 N 個投資品的 pricing error 絕對值的中位數作為“max statistic” (實際上是希望 pricing error 的絕對值越小越好,因此應稱之為 min statistic;為了和前一節對應,故稱之為帶了引號的“max statistic”)來評價因子。通過 Bootstrap 得到“max statistic”的經驗分佈。 如果來自真實資料的最小 pricing error 絕對值的中位數小於從經驗分佈中得到的閾值,則它對應的因子就是真正有效的因子。
還有點亂?實在抱歉,我真的盡力了。
沒關係,下面介紹 Harvey and Liu (2015b) 中的一個例子來說明挑選因子的過程。
6 一個例子
Harvey and Liu (2015b) 給出了一個示例性例子說明如何應用他們提出的多重檢驗框架挑選真正有效的因子。這個例子考察了學術界的 13 個“顯著”因子。加個雙引號是因為它們都在 single testing 中顯著,但是在新的多重檢驗下很多就失效了。
這 13 個因子為:
- Fama and French (1993):MKT、SMB、HML;
- Fama and French (2015):RMW、CMA;
- Hou et al. (2015):ROE、IA;
- Frazzini and Pedersen (2014):BAB;
- Novy-Marx (2013):GP;
- Pastor and Stambaugh (2003):PSL;
- Carhart (1997):MOM;
- Asness et al. (2013):QMJ;
- Harvey and Siddique (2000):SKEW。
這些因子的 single testing 結果(以因子收益率的 t-statistic 表示)以及它們之間的相關性如下圖所示。從圖中不難看出:(1)除了 SMB 外,所有因子的 t-statistic 都大於 2,在 0.05 的顯著性水平下顯著;有些因子的 t-statistic 甚至超過 5!(2)這些因子中有一些對的相關性非常高,比如 ROE 和 QMJ、CMA 和 IA(它們都是 investment 類的因子)、CMA 和 HML 等。

為了測試因子,最好的因變數應該是一攬子股票,因為我們希望考察這些因子在解釋股票預期收益率截面差異上的作用。在 Harvey and Liu (2015b) 給出的例子中,二位作者使用的是 25 個投資組合,而非個股。他們強調例子的目的是為了說明多重檢驗的步驟。用來作為因變數的 25 個投資組合來自使用 Fama-French 三因子中的 SMB 和 HML 兩個因子各自把股池分成 5 組並交叉配對,因此一共 5 × 5 = 25 個組合。
Harvey and Liu (2015b) 使用了這 25 個組合的 pricing error 絕對值的中位數作為挑選因子的指標(在文章中,這個指標被記為 m_1^a)。除了這個指標外還有其他三個指標,這裡不做討論。
首先用這 13 個因子各自對這 25 個投資組合進行迴歸。每個因子 pricing error 絕對值的中位數如下圖所示。從單個因子迴歸結果來看,MKT(市場)因子是最顯著的(它的指標 0.285% 是所有因子中最小的),但是裡面包含了運氣的成分。

下面應用多重檢驗來排除運氣的成分。對這 13 個因子分別正交化(demean),然後使用 Bootstrap 重取樣進行反覆多次的大量實驗。每個實驗中,單獨使用 13 個正交化後的因子和 25 個投資組合收益率迴歸,得到每個因子的 pricing error 絕對值中位數的最小值(我們的“max statistic”)。大量 Bootstrap 實驗便得到了“max statistic”的經驗分佈。MKT 因子的取值(0.285%)在這個分佈下出現的概率僅為 3.9%,即 p-value = 3.9%,小於常用的 5% 的閾值。 因此我們說即便考慮了運氣成分後,MKT 因子依然是顯著的。市場因子是第一個被選出來的顯著因子,這多少符合預期。
在接下來的步驟中,使用 MKT 因子正交化其餘 12 個因子。然後用 MKT 因子和正交化之後的每個剩餘因子獨立對這 25 個投資組合進行迴歸分析,得到考慮了每個剩餘因子的 pricing error 絕對值的中位數,如下圖所示。不難看出,在剩餘的 12 個因子中,CMA 是最好的(它的 pricing error 最低),但是 HML 和 BAB 和它也難分伯仲!因此,在真實資料中,“max statistic”的取值為 0.112%(來自 CMA)。

再一次,使用 Bootstrap 重取樣進行反覆多次的大量實驗得到“max statistic”的經驗分佈。CMA 因子的取值(0.112%)在這個分佈下出現的概率僅為 2.2%,依然小於常用的 5% 的閾值。 在考慮了運氣以及 MKT 因子之後,CMA 因子依然是顯著的。 如果不選 CMA 作為第二個,也可以選 HML( 價值投資! )或 BAB 作為第二個顯著的因子。
如上所述,重複這個過程就可以一直分析下去。在找到了最有效的兩個因子 —— MKT 和 CMA —— 之後,剩餘 11 個因子中第三個最顯著的因子是 SMB,它的 pricing error 是 0.074%。然而,使用 Bootstrap 得到“max statistic”的經驗分佈後發現,SMB 因子的取值(0.074%)在這個分佈下出現的概率高達 13.9%,大於常用的 5% 的閾值,因此認為 SMB 以及其他 10 個因子在進一步解釋截面收益率差異時都不顯著。

經過多重檢驗發現,MKT 和 CMA(也可以選 HML 或 BAB)是兩個顯著的因子,其他因子均不顯著,均為 data mining 的產物。
以上便實現了從一攬子所謂顯著的因子中提出運氣成分、找到真正有效的因子。這就是這套多重檢驗體系最大的價值。這套體系也可以用於基金經理的篩選,具體的例子見 Harvey and Liu (2015b)。
7 結語
2015 年,Harvey 教授在 Jacobs Levy Center’s Conference 上進行了題為 Lucky Factors 的演講。在演講的開篇,他從生物進化的角度指出人類可能有 overfitting 或者 data mining 的傾向。
假設一隻機警的羚羊在草原中聽到了沙沙響聲。如果它開始奔跑,但事後發現響聲只是由於一陣微風造成的(即沒有威脅),那麼它無疑犯了 Type I error,為此付出的代價是消耗一定的能量;但是如果它不奔跑,但事後發現響聲是因為一隻獵豹衝向它造成的,那麼它則犯了 Type II error,為此則付出了生命的代價。可見,從 cost 的角度,它必須選擇奔跑。

這個故事告訴我們,動物想生存,就必須控制 Type II error,而可以允許更高的 Type I error(false discovery)。這種傾向在進化中被一代代傳下來。因此,人類在分析問題時允許更高的 Type I error、存在 overfitting 或者 data mining 的傾向。
下圖左側是一個假想的策略淨值曲線,它持續上漲,回撤可控,Sharpe Ratio 理想。然而,它僅僅是下圖右側中展示的 200 個使用零均值純隨機生成的策略淨值中表現最好的那個。換句話說,它的表現完全來自運氣。

出色還是走運?回答這個問題刻不容緩。
S&P Capital IQ 有一個 Alpha Factor Library(α 因子庫),宣稱有 500 個 α 因子!這裡面有多少是運氣?有多少是真正的 α?本文介紹的幾種方法是為了回答這個問題所做的努力。

美國統計協會(American Statistical Association)的 Ethical Guidelines for Statistical Practice 中,有這樣一句話,發人深省:
Selecting the one "significant" result from a multiplicity of parallel tests poses a grave risk of an incorrect conclusion. Failure to disclose the full extent of tests and their results in such a case would be highly misleading.
譯:從多項檢驗中挑出 “最重要”結果很有可能造成不正確的結論。在這種情況下,如不披露檢驗的全部內容及其結果,便會造成極大的誤導。
哪有那麼多阿爾法?!
感謝閱讀,祝各位國慶節快樂。
參考文獻
- Asness, C. S., A. Frazzini, and L. H. Pedersen (2013). Quality minus junk. AQR Capital Management working paper.
- Benjamini, Y. and Y. Hochberg (1995). Controlling the False Discovery Rate: A Practical and Powerful Approach to Multiple Testing. Journal of the Royal Statistical Society , Series B, Vol. 57, 289 – 300.
- Benjamini, Y. and D. Yekutieli (2001). The Control of the False Discovery Rate in Multiple Testing under Dependency. Annals of Statistics , Vol. 29, 1165 – 1188.
- Carhart, M. M. (1997). On Persistence in Mutual Fund Performance. Journal of Finance , Vol. 52(1), 57 – 82.
- Fama, E. F. and K. R. French (1993). Common Risk Factors in the Returns on Stocks and Bonds. Journal of Financial Economics , Vol. 33(1), 3 – 56.
- Fama, E.F. and K.R. French (2010). Luck versus skill in the cross-section of mutual fund returns. Journal of Finance , Vol. 65(5), 1915 – 1947.
- Fama, E. F. and K. R. French (2015). A Five-Factor Asset Pricing Model. Journal of Financial Economics , Vol. 116(1), 1 – 22.
- Foster, F. D., T. Smith and R. E. Whaley (1997). Assessing goodness-of-fit of asset pricing models: The distribution of the maximal R2. Journal of Finance , Vol. 52(2), 591 – 607.
- Harvey, C.R. and A. Siddique (2000). Conditional skewness in asset pricing tests. Journal of Finance , Vol. 55(3), 1263 – 1295.
- Harvey, C. R. and Y. Liu (2015a). Backtesting. Journal of Portfolio Management , Vol. 42(1), 13 – 28.
- Harvey, C. R. and Y. Liu (2015b). Lucky Factors. Working paper, available at https:// jacobslevycenter.wharton.upenn.edu /wp-content/uploads/2015/05/Lucky-Factors.pdf .
- Harvey, C. R. and Y. Liu (2018). Lucky Factors. Working paper, available at SSRN: https:// ssrn.com/abstract=25287 80 .
- Harvey, C. R., Y. Liu, and H. Zhu (2016). … and the cross-section of expected returns. Review of Financial Studies , Vol. 29(1), 5 – 68.
- Holm, S. (1979). A simple sequentially rejective multiple test procedure. Scandinavian Journal of Statistics , Vol. 6, 65 – 70.
- Hou, K., C. Xue, and L. Zhang (2015). Digesting anomalies: An investment approach. Review of Financial Studies , Vol. 28(3), 650 – 705.
- Novy-Marx, R. (2013). The other side of value: The gross profitability premium. Journal of Financial Economics , Vol. 108 (1), 1 – 28.
- Pastor, L. and R.F. Stambaugh (2003). Liquidity risk and expected stock returns. Journal of Political Economy , Vol. 111(3), 642 – 685.
- https:// en.wikipedia.org/wiki/B onferroni_correction
原創不易,請保護版權。如需轉載,請聯絡獲得授權,並註明出處,謝謝。已委託“維權騎士”( 維權騎士_免費版權監測/版權保護/版權分發 ) 為進行維權行動。