1. 程式人生 > >機器學習該如何應用到量化投資系列(三)

機器學習該如何應用到量化投資系列(三)

《基於 MT-SVM 模型的市場預測》

• 由於 A 股市場並非完全有效以及市場具有的分形特徵和記憶性,從理論上來說對股票市場一段時間內的市場趨勢所發生的概率進行預測成為可能。 • 我們構建了 MT-SVM 預測模型來對市場漲跌方向進行預測。 預測模型的引數主要用到巨集觀經濟變數、 技術指標變數以及市場價格漲跌波動的資料;預測方法以支援向量機為主並結合統計和其他數量化技術;模型以 1998 年以來近 13 年的時間作為全部的考察、訓練、預測和模擬樣本,並對 2002 年以來近 9 年的每月市場漲跌進行了滾動預測模擬和實證檢驗。

• 從 2002 年至今, 所預測的 103 個歷史月份中, 共預測錯誤 34 個月份,預測準確率為 67%;忽略掉單月漲跌在 2%以內震盪市的錯誤預測之後,整體預測準確率可以達到 73.79%,尤其是 2006 年以來的累計預測準確率實現 80%。 2005 年以前模型的預測準確率較低,2006 年、 2007 年以及 2009 年每年都只有 2 個月份預測錯誤。

• 以預測模型為實際投資操作依據, 以上證指數作為虛擬投資標的,簡單的假定預測下月上漲則買入並滿倉, 預測下跌則賣出並空倉。2002 年至今模擬投資操作累計收益率 416.44%,遠遠高於同期上證指數 60.24%的收益率。 8 年多的時間內,總計交易 21 次。分階段來看, 以預測模型為參考的模擬投資收益率也均遠優於市場收益率。

• MT-SVM 模型對 8 月份上證指數預測結果: 下跌。 需要注意的是,未來市場的預測準確率可能會因前期較高的準確性而出現一定折扣, 尤其近期遇到市場震盪反彈的格局,模型預測的困難可能會更大。

• 預測模型的適用範圍: 股票市場擇時、趨勢跟蹤、機構投資者股票倉位管理; 指數化投資以及基金投資;股指期貨套期保值的擇時決策,股指期貨的單邊投資決策。

• 模型存在的問題: 目前模型還不能預測漲跌的幅度; 模型預測的時間跨度僅以月為單位; 模型對市場震盪階段以及市場拐點預測效果較差; 存在接近 30%的錯誤率會影響投資的最終效果,因此模型的實際運用也應當與投資的實際決策過程相結合。

2010年08月31日——【長城證券】

《基於 SVM 的量化擇時方法》

•量化投資領域中,一個好的選股策略是比較容易實現的, 但擇時就不是那麼簡單。 一般來說量化擇時的解決思路會集中於兩大類:技術派和基本面派。技術派與基本面派都有自己的理論弱點,從判斷正確的概率來看,這兩種方法長期勝率一般難以超過70%,並可能在一些決策關鍵時點難以信賴。 •支援向量機(簡稱SVM) 是一種基於統計學習理論的模式識別方法,現在已經在生物資訊學、 文字和手寫識別等應用領域取得了成功。SVM能非常成功地處理分類、 判別分析等問題,並可推廣到預測與綜合評價領域。它的核心思想可以概括為:尋找一個最優分類超平面,使得訓練樣本中的兩類樣本點儘量被無錯誤的分開,並且要使兩類的分類間隔最大。

•我們利用 SVM 模型來判斷大盤的漲跌。 普通的 SVM 模型中輸入變數只有股市本身執行的引數,因此更像是一種技術派做法。我們設計的模型結合了技術派與基本面派的特點,主要是在模型的輸入變數中考慮到了經濟資料與股市本身的引數。為了便於整理變數,我們將輸入變數分為四個大類,分別是市場前期走勢、貨幣環境、經濟指標、外圍環境等。 模型執行的時間為 2000 年 1 月至 2010 年 7 月,訓練時間為 24 個月, 樣本外推預測期是從 2002 年 1 月至 2010 年 7 月。

•從實證結果來看, SVM 模型確實是一種不錯的擇時模型。模型在最近的 104 個月當中取得了 64%的判別勝率,並且模擬投資上證指數的策略累計收益率達到 375%。 模型在 06 年之後的表現要大大好於 06年之前, 06 年之後單月判別的勝率都在 67%以上。模型的缺點在於對震盪市和下跌市場的預測能力較差,並且交易訊號較為頻繁。而修正後的 SVM 模型的交易訊號能夠顯著減少。 而隨著經濟資料量、指數系列的豐富以及二次擇時模型的開發,未來我們的 SVM 模型還有進一步改進的可能。

2013年10月15日——【國信證券】

《機器學習法選股》

• 輸入:因子值 • 輸出:股票的表現 • 學習目標:輸入和輸出之間的對應關係

• AdaBoost演算法

• 選股模型可以表述為一個二元的分類問題:做多預期表現好的股票組合,做空預期表現差的股票組合 • 模型的輸出為信心指數,指數越高,表明預期表現越好,反之亦然。

2013年12月11日——【民生證券】

《基於機器學習的訂單簿高頻交易策略》

• 機器學習是訂單簿動態建模的前沿方法 訂單簿的動態建模,主要有兩種方法,一種是經典的計量經濟學方法,另一種是前沿的機器學習方法。機器學習通過對己知資料的學習,找到資料內在的相互依賴關係,從而對未知資料進行預測和判斷,最終使得機器具有良好的推廣能力。 支援向量機(SVM,Support Vector Machine)是目前較為先進的機器學習方法。 • 可以從訂單簿提煉指標庫來刻畫其特徵 訂單簿主要包括買一價、賣一價、買一量、賣一量等基礎指標, 並可以衍生出深度、斜率、 相對價差等指標, 其他指標包括持倉量、成交量、基差等, 共計17個指標。 還可以引入常見的技術分析指標如RSI、 KDJ、MA、 EMA等。

• IF主力合約訂單簿每天存在4000次交易機會

以IF1311合約在10月29日的行情資料為例, Δt=2tick的情況下, ΔP絕對值大於等於0.4的次數大約有4000次,這是潛在的交易機會。 • 模型檢驗準確率最高達70% 預測未來1tick的價格變化準確率較高,在ΔP≥ 0.4情況下,總體準確率大概70%; 在總體準確率大於60%的情況下,可以轉化為交易策略。

• 策略模擬收益 以IF1311合約在10月31日的行情為例, 在考慮手續費0.26/10000、 單邊滑點0.2點、每次交易1手情況下, 全天交易次數605次,盈利次數339次,勝率56%,淨利潤11814.99元。

2014年06月18日——【廣發證券】

《深度學習之股指期貨日內交易策略》

• 深度學習高頻股價預測模型 從市場微觀結構的角度來說,股票價格的形成和變化是由買賣雙方的交易行為決定的, 因此, 對高頻市場行情資料的挖掘有可能獲得對未來股票價格走勢的有預測能力的模式。本報告通過樣本內大量歷史資料訓練深度學習預測模型,對 1 秒鐘高頻下的股指期貨價格漲跌進行預測。該預測模型的樣本外的準確率超過73%,表現不俗。

• 深度學習股指期貨交易策略 基於深度學習股價預測模型對股票價格變化的預測,本報告提出了股指期貨的日內交易策略。 該交易策略自 2013 年以來累積收益率達 99.6%,年化收益率為 77.6%, 最大回撤為-5.86%。

• 結論 通過股指期貨高頻價格預測模型的實證研究, 本報告驗證了深度學習這一大資料時代的機器學習利器在股票價格預測上的有效性。 並基於預測模型提出了股指期貨交易策略,取得了良好的效果。

2014年06月18日——【廣發證券】

《深度學習演算法掘金 ALPHA 因子》

• 金融大資料下的 Alpha 因子挖掘 多因子 Alpha 策略是發掘出驅動個股產生 Alpha 收益的因子,根據有效的 Alpha 因子設計相應的選股策略,篩選投資的股票組合,以尋找超越市場的股票超額收益。 為了獲取新的 Alpha 來源, 我們一方面可以對傳統因子進行更加深入的挖掘, 例如挖掘因子的非線性特徵, 尋找有效的因子組合。 另一方面,我們可以利用更加高效的資料探勘手段從市場資料中間尋找新的 Alpha 因子。 隨著大資料時代的來臨, 資料探勘的方法不斷革新改進, 浩如煙海的市場資料為 Alpha 的來源提供了巨大的可能性。 • 深度學習股價預測模型 從市場微觀結構的角度來說,股票價格的形成和變化是由買賣雙方的交易行為決定的, 因此, 對高頻市場行情資料的挖掘有可能獲得對未來股票價格走勢的有預測能力的模式。本報告通過樣本內大量歷史資料訓練深度學習預測模型,對以周為頻率的中證 800 股票價格漲跌進行預測,建立起了可以對股價短期內走勢進行預測的機器學習模型。

• 深度學習股票多因子交易策略 基於深度學習股價預測模型對股票價格變化的預測得分,本報告提出了股票交易的 Alpha 策略。 在組合規模為 100 的情況下, 該多因子 Alpha策略自 2011 年以來累積收益率超過 120%, 各年度收益率都超過 15%。

• 結論 通過中證 800 成份股的實證研究, 本報告驗證了深度學習這一大資料時代的機器學習利器在股票價格預測上的有效性。 通過深度學習模型對市場資料進行挖掘,獲得了可以產生超額收益的因子, 該因子的表現超越了傳統的 Alpha 因子。

2016年05月09日——【東證期貨】

《量化投資策略之機器學習應用( 1)基於 SVM 模型的期貨擇時交易策略》

SVM 屬於監督學習演算法, 對於求解小樣本、 非線性、 高維度問題具有優秀的泛化學習能力,而擇時交易策略則屬於利用 SVM解決二元分類問題。構建 SVM 模型的過程可以簡要概括為尋求支援向量與超平面函式間隔的最大化,從而優化求解模型引數。SVM 在求解非線性問題時使用核函式將資料對映到高維空間,以尋求超平面進行分類,同時在低維空間進行內積運算。 SVM 擇時策略模型對資料進行歸一化和降維處理, 然後選取粒子群演算法和遺傳演算法進行引數優化。將帶有漲跌標籤的普通量價資料和技術指標作為訓練集資料來源,將 SVM 模型訓練成一個可以預測漲跌的分類器。

回測結果顯示 SVM 擇時策略模型預測準確率超過 50%,並且對下跌趨勢的預判能力較高。模型具有良好的累計授予率與夏普比率,其中技術指標類特徵量得出策略模型最大回撤控制在 10%以內。

2016年05月31日——【國信證券】

《Adaboost 演算法下的多因子選股》

• Adaboost 演算法 Adaboost 是一種迭代演算法,其核心思想是針對同一個訓練集訓練不同的弱分類器,尤其是對難以正確分類的資料重複進行訓練,然後把這些弱分類器集合起來,構成一個更強的強分類器。其演算法本身是通過改變資料分佈來實現的,它根據每次訓練集之中每個樣本的分類是否正確,以及上次的總體分類的準確率,來調整每個樣本的權值,這樣使得難以正確分類的資料得到訓練。將修改過權值的新資料集送給下層分類器進行訓練,最後將每次訓練得到的分類器最後融合起來,作為最後的決策分類器。 • 選股實證 由 Adaboost 演算法得到的強勢組合能夠跑贏市場,且強勢組合,市場指數,弱勢組合之間的較為明顯的淨值差別,演算法所構造的組合具有明顯的區分度,類似我們也發現所有十檔組合之間都有一定程度間隔,說明演算法具有有效性。對比 Adaboost 方法的結果,迴歸方法產生的組合從淨值資料上不管是強勢組還是弱勢組都是優於 Adaboost 演算法的。由迴歸方法與 Adaboost 演算法的淨值比圖來看,雖然兩種方法在回測期截止淨值相同,但迴歸方法產生的組合最高淨值更高。當然,可以發現的是,迴歸法的波動明顯比 Adaboost 演算法大,尤其有市場振盪時期。基於 Adaboost 演算法的多因子模型在組合淨值的波動率水平上仍有亮點。

• Adaboost 因子與傳統因子 從淨值曲線上看,考慮了因子大類後的演算法選股組合的區分度更高。強勢組合與弱勢組合的淨值差異明顯組合相對 HS300 指數的超額收益淨值曲線相對平穩,最大回撤發生在 2014 年12 月,最大回撤為 9%,而在此之前,超額收益的最大回撤為 5%左右。從月超額收益上看,組合的月勝率超過 50%,達到了 56%,整體效果良好。而對比弱勢組合的超額收益,多空策略的淨值波動更大,主要的回撤同樣發生在 2014 年底,但策略的勝率仍保持 50%以上,達到 58%。

2016年05月31日——【國信證券】

《利用機器學習實現組合優化》

• 用機器學習對股票收益分類 本報告以機器學習中的 SVM(支援向量機)為例,以中證 800 為基準,實現了對給定股票池的收益分類預測。 通過逐步削去法,得到五因子組合構成的“ SVM收益分類器”,輸入每年因子截面資料,在超平面上對未來一年的股票收益分類跑贏/跑輸進行預測。根據 2009 年至 2015 年的回測結果,平均年勝率為 55%。

• 用機器學習對股票波動分類

用類似的方法,同樣用 SVM 作為分類器,以全 A 股票年波動率中位數為基準,實現了對給定股票池的波動分類預測。通過逐步削去法,得到十因子組合構成的“ SVM 波動分類器”,輸入每年因子截面資料,在超平面上對未來一年的股票波動高/低進行預測。根據 2009 年至 2015 年的回測結果,平均年勝率超過61%,並且達到了降低投資組合波動率的目的。

• 深究因子組合 機器學習可以幫助我們綜合、歸納;可以幫助我們處理非線性因子;但無法代替人推理實證,無法保證模型的可靠性。作為事例,本報告加入單因子分析,給出了進一步構建五因子模型的可能解決辦法之一,通過五個因子打分形式,共同構建“成長 40 組合”,在 2009 年至 2015 年間,成長 40 組合年化收益率超過 36%,而同期全 A 等權的年化收益不足 14%。

2016年05月31日——【國信證券】

《SVM 演算法選股以及 Adaboost 增強》

• 支援向量機演算法 支援向量機的最大特點是改變了傳統的經驗風險最小化原則,而是針對結構風險最小化原則提出的,因此具有很好的泛化能力。同時,支援向量機在處理非線性問題時,通過將非線性問題轉化為高維空間的線性問題,利用核函式替代高維空間中的內積運算,從而巧妙的解決了複雜計算問題,並且有效的克服了維數災難以及區域性極小問題。在不考慮非線性分類的情況下, 12 個月的樣本資料滾動回測結果顯示出較好的分類效果。強勢組合能夠顯著的跑贏弱勢組合。

• Adaboost-SVM 組合演算法 從 Adaboost 的角度出發,我們認為利用 Adaboost 對於每個月的資料的 SVM分類演算法進行增強,可以有效的提高 SVM 分類的效果。從線性 SVM 分類結果來看,利用 12 層資料的 Adaboost 組合相比單月 SVM 效果顯著增強,多空組合收益能夠明顯的區分開。 但對比前述的傳統 SVM 方法,其多空策略的淨值收益並沒有顯著增加,傳統的 SVM 模型整體優於 Adaboost演算法下的 SVM 分類。

• 非線性分類 在前一篇報告中我們對於非線性分類的處理主要通過對因子的多檔概率統計完成,也具有顯著的效果。為了使 SVM 模型與之更具有可比性,我們考慮 SVM的非線性模型。將非線性因素考慮進來之後,模型的超額收益顯著高於無 SVM 的 Adaboost 演算法。多空組合的區分度明顯, 5 年的勝率在 58%的水平。 效果的增強,除了證明我們之前的猜想:弱分類器的選擇可能增加 Adaboost 演算法的效果之外,也從側面反映了多因子模型中,因子與收益間的非線性關係。從結果上看, Adaboost 的效果仍然不如單獨的 SVM 演算法效果,理論上考慮,Adaboost 的增強效果是需要建立在弱分類器的基礎上的。 SVM 演算法本身的顯著分類可能對 Adaboost 演算法造成影響。因此,對比概率統計的 Adaboost 分類,Adaboost-SVM 具有顯著的提高, 但更優的分類方法是非線性的 SVM 分類。

2016年09月08日——【國泰君安】

《基於機器學習的牛股精選》

決策樹是通過一系列規則對資料進行分類的預測模型。它提供一種在什麼條件下會得到什麼值的類似規則的方法,相比神經網路、支援向量機等方法,其優點在於它是易於理解的“白箱”模型,可理解性更高。

決策樹模型機器學習使得多個技術指標的綜合運用成為可能。相比線性模型,決策樹演算法在處理非線性解釋變數時,其表現要優於線性模型。

本文通過機器學習的方法構建了選股策略。以中證500指數為對衝標的,從2011年1月至2015年12月,組合累計超額收益為165%,年化收益可達21%,資訊比率2.11,最大回撤9.33%,發生於2015年8月下旬。l組合在各年份的收益率及資訊比都比較穩定。基於機器學習策略在演算法上和邏輯上與傳統的多因子模型的區別,模型在一定程度上提供了較好的互補性,提高了收益的穩定性。