1. 程式人生 > >量化策略多因子選股之SPSS MODLER建模

量化策略多因子選股之SPSS MODLER建模

TARGET設定為當日股價/半年前股價,若大於1則為盈利,設為1.小於等於1,設為0。 以後可以考慮再減去無風險收益率或者滬深300收益率,以體現超額收益。

資料來自於20180324的股價,20170901的股價,股票池為中證500和滬深300成分股(與數千只A股總量相比,它們的流動性、市值和規模具有顯著特點,所以測試結果並不保證適用於其他股票,尤其是小市值不穩定的創業板塊)

部分財務資料取對數減少其流動性,訓練集為70%,測試集30%,沒有考慮採用迅雷+驗證+測試,因為資料量不夠大。


選取財務資料為:個股行業,201709月公佈財報時的股價,log流通市值,log總市值,pe,roe,log淨利潤,利潤同比增長,淨利潤率,毛利率,log營業收入,mbrg主營業務收入增長率(%),nprg淨利潤增長率(%),20180323(財報半年後股價)。mbrg和nprg都有部分空缺值。

目標為預測股價是否增長。

對13個分類演算法模型進行測試並評分,選出測試集準確最高的3個模型進行加權組合為集合模型

排名前三位的是三個決策樹類模型


組合模型的準確度顯著高過三個單獨的模型,但三個決策樹的組合不禁讓我懷疑是否會過度擬合。


變數重要性比較圖,差別不大,ROE較為重要


CHAID 樹檢視器,75%


C&R樹:




C5.0:


--

LOGISTIC 分類


  方程式用於 0


   + 0.00000000000000000000

  方程式用於 1


   0.0003492 * pe + 
   0.001576 * roe + 
   0.004322 * profits_yoy + 
   -0.05296 * net_profit_ratio + 
   0.005209 * gross_profit_rate + 
   0.007028 * mbrg + 
   -0.004223 * nprg + 
   -0.9064 * marketvalue_Log10 + 
   3.007 * totalvalue_Log10 + 
   2.537 * net_profits_Log10 + 
   -1.173 * business_income_Log10 + 
   9.481 * [industry=白酒] + 
   10.06 * [industry=百貨] + 
   11.67 * [industry=半導體] + 
   8.279 * [industry=保險] + 
   9.406 * [industry=玻璃] + 
   -73.2 * [industry=倉儲物流] + 
   9.078 * [industry=超市連鎖] + 
   0.5356 * [industry=出版業] + 
   -1.141 * [industry=船舶] + 
   10.74 * [industry=電腦裝置] + 
   10.54 * [industry=電氣裝置] + 
   2.065 * [industry=電器連鎖] + 
   10.46 * [industry=電器儀表] + 
   9.407 * [industry=電信運營] + 
   -1.332 * [industry=多元金融] + 
   -0.1655 * [industry=房產服務] + 
   -0.2103 * [industry=服飾] + 
   1.235 * [industry=鋼加工] + 
   9.663 * [industry=港口] + 
   9.816 * [industry=工程機械] + 
   0.7729 * [industry=公共交通] + 
   0.8514 * [industry=供氣供熱] + 
   0.1322 * [industry=廣告包裝] + 
   9.676 * [industry=航空] + 
   1.709 * [industry=紅黃藥酒] + 
   8.165 * [industry=網際網路] + 
   2.06 * [industry=化工機械] + 
   10.09 * [industry=化工原料] + 
   10.54 * [industry=化纖] + 
   10.83 * [industry=化學制藥] + 
   -0.04307 * [industry=環境保護] + 
   -0.1378 * [industry=黃金] + 
   7.757 * [industry=火力發電] + 
   10.49 * [industry=機場] + 
   9.776 * [industry=機械基件] + 
   9.982 * [industry=家居用品] + 
   10.75 * [industry=家用電器] + 
   7.33 * [industry=建築施工] + 
   -1.836 * [industry=焦炭加工] + 
   7.917 * [industry=空運] + 
   53.2 * [industry=礦物製品] + 
   3.84 * [industry=林業] + 
   19.61 * [industry=旅遊服務] + 
   9.343 * [industry=鋁] + 
   -20.75 * [industry=煤炭開採] + 
   0.5587 * [industry=摩托車] + 
   11.34 * [industry=農藥化肥] + 
   2.063 * [industry=農業綜合] + 
   0.6792 * [industry=批發業] + 
   21.29 * [industry=啤酒] + 
   -7.317 * [industry=普鋼] + 
   11.49 * [industry=其他建材] + 
   1.779 * [industry=汽車服務] + 
   8.598 * [industry=汽車配件] + 
   8.333 * [industry=汽車整車] + 
   -1.283 * [industry=鉛鋅] + 
   0.4774 * [industry=輕工機械] + 
   9.946 * [industry=區域地產] + 
   9.494 * [industry=全國地產] + 
   11.56 * [industry=染料塗料] + 
   18.25 * [industry=乳製品] + 
   9.661 * [industry=軟體服務] + 
   1.447 * [industry=軟飲料] + 
   -0.2329 * [industry=商貿代理] + 
   -0.7887 * [industry=商品城] + 
   10.86 * [industry=生物製藥] + 
   6.504 * [industry=石油加工] + 
   0.4152 * [industry=石油開採] + 
   10.23 * [industry=食品] + 
   -0.216 * [industry=水力發電] + 
   -2.132 * [industry=水泥] + 
   -38.98 * [industry=水運] + 
   22.57 * [industry=飼料] + 
   3.261 * [industry=塑料] + 
   -2.684 * [industry=鐵路] + 
   9.348 * [industry=通訊裝置] + 
   -0.4796 * [industry=銅] + 
   0.7619 * [industry=文教休閒] + 
   -1.559 * [industry=小金屬] + 
   -1.829 * [industry=新型電力] + 
   10.36 * [industry=醫療保健] + 
   -0.4588 * [industry=醫藥商業] + 
   -0.7248 * [industry=影視音像] + 
   9.393 * [industry=元器件] + 
   -0.9525 * [industry=園區開發] + 
   17.83 * [industry=運輸裝置] + 
   20.67 * [industry=造紙] + 
   37.8 * [industry=證券] + 
   10.16 * [industry=中成藥] + 
   21.55 * [industry=種植業] + 
   9.94 * [industry=專用機械] + 
   0.6874 * [industry=裝修裝飾] + 
   + -22.5



樸素貝葉斯:


神經網路:









SVM: