1. 程式人生 > >kaggle金融的資料處理方式

kaggle金融的資料處理方式

kaggle金融資料的解決

如何設定x和y

拿股票來說,對於股票的眾多屬性都可以變成一個向量的形式。這個向量x = ( x1, x2, x3....xn) 注意,x1也是一個向量,這個向量是縱向的,有m個數值代表m個樣本。x每一個數據裡面不同的值,裡面的值就是取值,可以來自於不同時間,或者不同公司。y代表各種觸發狀態。

例如: X: [ Open, Prev Close, Big, Ask, Beta...] y: today's Close

三種經常用的模型

線性模型,決策樹和NNR。

決策樹優勢:非黑盒,輕鬆去除無關的屬性,測試速度快。但是隻能線性分割資料。

三個決策方式複習一下,ID3,C4.5,CART。整合的方式有:bagging,random forest和boosting。

bagging:

boosting:原始tree,未完美,weight,reweight tree,加權。

random forest:booststrap, 有放回,隨機,樣本集合,迴歸樹;隨機,特徵;最大限度,不剪;分類,投票或者平均。

神經網路,之後介紹。

案例:

房價預測:

https://github.com/gaoyishu/kaggle_practice/ 直接在我的名字的github中有,歡迎大家指出不足。