機器學習預測時label錯位對未來資料做預測

阿新 • • 發佈：2018-11-23

前言

　　這篇文章時承繼上一篇機器學習經典模型使用歸一化的影響。這次又有了新的任務，通過將label錯位來對未來資料做預測。

實驗過程

　　使用不同的歸一化方法，不同得模型將測試集label錯位，計算出MSE的大小；

　　不斷增大錯位的資料的個數，並計算出MSE，並畫圖。通過比較MSE（均方誤差，mean-square error）的大小來得出結論

過程及結果

資料處理(和上一篇的處理方式相同)：

1 test_sort_data = sort_data[:5000]
2 test_sort_target = sort_target[:5000]
3 
4 sort_data1 = _sort_data[5000 
:16060]
5 sort_data2 = _sort_data[16060:]
6 sort_target1 = _sort_target[5000:16060]
7 sort_target2 = _sort_target[16060:]

View Code

完整資料處理程式碼：

 1 #按時間排序
 2 sort_data = data.sort_values(by = 'time',ascending = True)
 3 
 4 sort_data.reset_index(inplace = True,drop = True)
 5 target = data[' 
T1AOMW_AV']
 6 sort_target = sort_data['T1AOMW_AV']
 7 del data['T1AOMW_AV']
 8 del sort_data['T1AOMW_AV']
 9 
10 from sklearn.model_selection import train_test_split
11 test_sort_data = sort_data[16160:]
12 test_sort_target = sort_target[16160:]
13 
14 _sort_data = sort_data[:16160]
15 _sort_target = sort_target[:16160 
]
16 
17 from sklearn.model_selection import train_test_split
18 test_sort_data = sort_data[:5000]
19 test_sort_target = sort_target[:5000]
20 
21 sort_data1 = _sort_data[5000:16060]
22 sort_data2 = _sort_data[16060:]
23 sort_target1 = _sort_target[5000:16060]
24 sort_target2 = _sort_target[16060:]
25 
26 import scipy.stats as stats
27 dict_corr = {
28     'spearman' : [],
29     'pearson' : [],
30     'kendall' : [],
31     'columns' : []
32 }
33 
34 for i in data.columns:
35     corr_pear,pval = stats.pearsonr(sort_data[i],sort_target)
36     corr_spear,pval = stats.spearmanr(sort_data[i],sort_target)
37     corr_kendall,pval = stats.kendalltau(sort_data[i],sort_target)
38     
39     dict_corr['pearson'].append(abs(corr_pear))
40     dict_corr['spearman'].append(abs(corr_spear))
41     dict_corr['kendall'].append(abs(corr_kendall))
42     
43     dict_corr['columns'].append(i)
44     
45 # 篩選新屬性  
46 dict_corr =pd.DataFrame(dict_corr)
47 dict_corr.describe()

View Code

選取25%以上的；

1 new_fea = list(dict_corr[(dict_corr['pearson']>0.41) & (dict_corr['spearman']>0.45) & (dict_corr['kendall']>0.29)]['columns'].values)

View Code

包含下面的用來畫圖：

1 import matplotlib.pyplot as plt 
2 lr_plt=[]
3 ridge_plt=[]
4 svr_plt=[]
5 RF_plt=[]

View Code

正常的計算mse（label沒有移動）：

 1 from sklearn.linear_model import LinearRegression,Lasso,Ridge
 2 from sklearn.preprocessing import MinMaxScaler,StandardScaler,MaxAbsScaler
 3 from sklearn.metrics import mean_squared_error as mse
 4 from sklearn.svm import SVR
 5 from sklearn.ensemble import RandomForestRegressor
 6 import xgboost as xgb
 7 #最大最小歸一化
 8 mm = MinMaxScaler()
 9 
10 lr = Lasso(alpha=0.5)
11 lr.fit(mm.fit_transform(sort_data1[new_fea]), sort_target1)
12 lr_ans = lr.predict(mm.transform(sort_data2[new_fea]))
13 lr_mse=mse(lr_ans,sort_target2)
14 lr_plt.append(lr_mse)
15 print('lr:',lr_mse)
16 
17 ridge = Ridge(alpha=0.5)
18 ridge.fit(mm.fit_transform(sort_data1[new_fea]),sort_target1)
19 ridge_ans = ridge.predict(mm.transform(sort_data2[new_fea]))
20 ridge_mse=mse(ridge_ans,sort_target2)
21 ridge_plt.append(ridge_mse)
22 print('ridge:',ridge_mse)
23 
24 svr = SVR(kernel='rbf',C=100,epsilon=0.1).fit(mm.fit_transform(sort_data1[new_fea]),sort_target1)
25 svr_ans = svr.predict(mm.transform(sort_data2[new_fea]))
26 svr_mse=mse(svr_ans,sort_target2)
27 svr_plt.append(svr_mse)
28 print('svr:',svr_mse)
29 
30 estimator_RF = RandomForestRegressor().fit(mm.fit_transform(sort_data1[new_fea]),sort_target1)
31 predict_RF = estimator_RF.predict(mm.transform(sort_data2[new_fea]))
32 RF_mse=mse(predict_RF,sort_target2)
33 RF_plt.append(RF_mse)
34 print('RF:',RF_mse)
35 
36 bst = xgb.XGBRegressor(learning_rate=0.1, n_estimators=550, max_depth=4, min_child_weight=5, seed=0,
37                              subsample=0.7, colsample_bytree=0.7, gamma=0.1, reg_alpha=1, reg_lambda=1)
38 bst.fit(mm.fit_transform(sort_data1[new_fea]),sort_target1)
39 bst_ans = bst.predict(mm.transform(sort_data2[new_fea]))
40 print('bst:',mse(bst_ans,sort_target2))

View Code

先讓label移動5個：

1 change_sort_data2 = sort_data2.shift(periods=5,axis=0)
2 change_sort_target2 = sort_target2.shift(periods=-5,axis=0)
3 change_sort_data2.dropna(inplace=True)
4 change_sort_target2.dropna(inplace=True)

View Code

讓label以5的倍數移動：

 1 mm = MinMaxScaler()
 2 
 3 for i in range(0,45,5):
 4     print(i)
 5     lr = Lasso(alpha=0.5)
 6     lr.fit(mm.fit_transform(sort_data1[new_fea]), sort_target1)
 7     lr_ans = lr.predict(mm.transform(change_sort_data2[new_fea]))
 8     lr_mse=mse(lr_ans,change_sort_target2)
 9     lr_plt.append(lr_mse)
10     print('lr:',lr_mse)
11     
12     ridge = Ridge(alpha=0.5)
13     ridge.fit(mm.fit_transform(sort_data1[new_fea]),sort_target1)
14     ridge_ans = ridge.predict(mm.transform(change_sort_data2[new_fea]))
15     ridge_mse=mse(ridge_ans,change_sort_target2)
16     ridge_plt.append(ridge_mse)
17     print('ridge:',ridge_mse)
18     
19     svr = SVR(kernel='rbf',C=100,epsilon=0.1).fit(mm.fit_transform(sort_data1[new_fea]),sort_target1)
20     svr_ans = svr.predict(mm.transform(change_sort_data2[new_fea]))
21     svr_mse=mse(svr_ans,change_sort_target2)
22     svr_plt.append(svr_mse)
23     print('svr:',svr_mse)
24     
25     estimator_RF = RandomForestRegressor().fit(mm.fit_transform(sort_data1[new_fea]),sort_target1)
26     predict_RF = estimator_RF.predict(mm.transform(change_sort_data2[new_fea]))
27     RF_mse=mse(predict_RF,change_sort_target2)
28     RF_plt.append(RF_mse)
29     print('RF:',RF_mse)
30     
31 #     bst = xgb.XGBRegressor(learning_rate=0.1, n_estimators=550, max_depth=4, min_child_weight=5, seed=0,
32 #                              subsample=0.7, colsample_bytree=0.7, gamma=0.1, reg_alpha=1, reg_lambda=1)
33 #     bst.fit(mm.fit_transform(sort_data1[new_fea]),sort_target1)
34 #     bst_ans = bst.predict(mm.transform(change_sort_data2[new_fea]))
35 #     print('bst:',mse(bst_ans,change_sort_target2))
36     
37     change_sort_target2=change_sort_target2.shift(periods=-5,axis=0)
38     change_sort_target2.dropna(inplace=True)
39     change_sort_data2 = change_sort_data2.shift(periods=5,axis=0)
40     change_sort_data2.dropna(inplace=True)

View Code

結果如圖：

然後就是畫圖了；

1 plt.plot(x,lr_plt,label='lr',color='r',marker='o')
2 plt.plot(x,ridge_plt,label='ridge',color='b',marker='o')
3 plt.plot(x,svr_plt,label='svr',color='g',marker='o')
4 plt.plot(x,RF_plt,label='RF',color='y',marker='o')
5 plt.legend()
6 plt.show()

View Code

捨去lr，並擴大縱座標：

1 #plt.plot(x,lr_plt,label='lr',color='r',marker='o')
2 plt.plot(x,ridge_plt,label='ridge',color='b',marker='o')
3 plt.plot(x,svr_plt,label='svr',color='g',marker='o')
4 plt.plot(x,RF_plt,label='RF',color='y',marker='o')
5 plt.legend()
6 plt.show()

View Code

其他模型只需將MinMaxScaler改為MaxAbsScaler,standarScaler即可；

總的來說，label的移動會使得mse增加，大約在label=10時候差異最小，結果最理想；

機器學習預測時label錯位對未來資料做預測

前言　　這篇文章時承繼上一篇機器學習經典模型使用歸一化的影響。這次又有了新的任務，通過將label錯位來對未來資料做預測。實驗過程　　使用不同的歸一化方法，不同得模型將測試集label錯位，計算出MSE的大小；　　不斷增大錯位的資料的個數，並計算出MSE，並畫圖。通過比較MSE（均方誤差，me

機器學習資料處理時label錯位對未來資料做預測機器學習經典模型簡單使用及歸一化（標準化）影響

這篇文章繼上篇機器學習經典模型簡單使用及歸一化（標準化）影響，通過將測試集label（行）錯位，將部分資料作為對未來的預測，觀察其效果。實驗方式以不同方式劃分資料集和測試集使用不同的歸一化（標準化）方式使用不同的模型將測試集label錯位，計算出MSE的大小不斷增大錯位的

機器學習實戰（一）—— 用線性回歸預測波士頓房價

-1 png 機器學習 mage 回歸線性回歸 blog 分享機器機器學習實戰（一）—— 用線性回歸預測波士頓房價

掌握Spark機器學習庫-07.6-線性回歸實現房價預測

linear 線性 ack transform regress build count random () 數據集 house.csv 數據概覽代碼 package org.apache.spark.examples.examplesforml import org

學習python的感想和對未來的暢想

**今天是2018年9月12日，距離我開始學習python已經過去將近兩個月了，在這兩個月裡面，我學到了很多東西。本人今年二十三，大四學生，明年畢業。由於大四沒有課程，所以在今年上半年大三後半學期就早早開始考慮自己的以後了，我是資訊工程專業，偏於硬體，軟體也

機器學習的趨勢和人工智慧的未來

每家公司現在是一個數據公司，在一定範圍能夠使用機器學習在雲中部署智慧應用程式，這歸功於三個機器學習的趨勢：資料飛輪，演算法經濟，和智慧雲託管。有了機器學習模型，企業現在可以快速分析大型，複雜的資料，並提供更快，更準確的見解，沒有部署和維護機器學習系統的高成本。 “當

【機器學習筆記之五】用ARIMA模型做需求預測用ARIMA模型做需求預測

本文結構：時間序列分析？什麼是ARIMA？ ARIMA數學模型？ input，output 是什麼？怎麼用？－程式碼例項常見問題？時間序列分析？時間序列，就是按時間順序排列的，隨時間變化的資料序列。生活中各領域各行業太多時間序列的資料了，銷售額，顧客數，訪問量，股價，油價，GDP，氣溫。。。

機器學習專案實戰----泰坦尼克號獲救預測(一)

一、任務基礎泰坦尼克號沉沒是歷史上最著名的沉船事故之一。1912年4月15日，在她的處女航中，泰坦尼克號在與冰山相撞後沉沒，在2224名乘客和機組人員中造成1502人死亡。這場聳人聽聞的悲劇震驚了國際社會，併為船舶制定了更好的安全規定。造成海難失事的原因之一是乘客和機組人員沒有足夠的救生艇。儘管倖存下沉有

機器學習專案實戰----泰坦尼克號獲救預測(二)

四、特徵重要性衡量通過上面可以發現準確率有小幅提升，但是似乎得到的結果還是不太理想。我們可以發現模型似乎優化的差不多了，使用的特徵似乎也已經使用完了。準確率已經達到了瓶頸，但是如果我們還想提高精度的話，還是要回到最原始的資料集裡面。對分類器的結果最大的影響還是輸入的資料本身。接下來採用的方法一般是從原始的

基於Kubernetes的機器學習微服務系統設計系列——(十)資料視覺化

內容提要資料視覺化視覺化演示資料視覺化應用訪問介面如圖所示：應用服務UI介面包括：微服務配置、分類任務配置；微服務資源監控，動態顯示；資料集分析圖、分類對比圖；

[譯]使用遞迴神經網路（LSTMs）對時序資料進行預測

原文地址：A Guide For Time Series Prediction Using Recurrent Neural Networks (LSTMs) 原文作者：Neelabh Pant 譯文出自：掘金翻譯計劃本文永久連結：github.com/xitu/gold-m

機器學習實踐（二）—sklearn之資料集

一、可用資料集 Kaggle網址：https://www.kaggle.com/datasets UCI資料集網址： http://archive.ics.uci.edu/ml/ scikit-learn網址：http://scikit-learn.org/sta

[機器學習] 3: TensorFlow練習+MNIST手寫資料集+softmax實驗（未完待續）

前言 MNIST是一個入門級的計算機視覺資料集，是NIST的一個子集，常被用於機器學習的入門實踐。它包含各種手寫數字圖片，同時也包含每一張圖片對應的標籤，告訴我們這個是數字幾。比如，上面這四張圖片的標籤分別是5，0，4，1 本文目標是練習tensorflow

《機器學習系統設計》之應用scikit-learn做文字分類（上）

前言：本系列是在作者學習《機器學習系統設計》（[美] WilliRichert）過程中的思考與實踐，全書通過Python從資料處理，到特徵工程，再到模型選擇，把機器學習解決問題的過程一一呈現。書中設計的原始碼和資料集已上傳到我的資源：http://download

Python資料分析與機器學習-Python庫分析科比生涯資料

原始碼下載：http://download.csdn.net/download/adam_zs/10222492 import matplotlib.pyplot as plt import pandas as pd import numpy as np '''科比生涯

使用三種不同的核函式（迴歸）對Boston房價進行預測，同時對測試資料做出預測

from sklearn.datasets import load_boston from sklearn.svm import SVR from sklearn.cross_validation import train_test_split from sklearn.m

python機器學習——十次交叉驗證訓練的資料準備演算法

攝於 2017年4月21日臺灣墾丁船帆石海灘前言 python強大的機器學習包scikit-learn可以直接進行交叉分割，之所以寫個相當於鍛鍊自己思維。這兩天本來打算開始寫樸素貝葉斯分類器的演算法的，由於上一篇博文python實現貝葉斯推斷

《機器學習系統設計》之應用scikit-learn做文字分類（下）

# inspired by http://scikit- # learn.org/dev/auto_examples/cluster/plot_kmeans_digits.html#example- # cluster-plot-kmeans-digits-py import os import scipy

.NET平臺機器學習元件-Infer.NET(三) Learner API—資料對映與序列化

關於本文件的說明　　本文件基於Infer.NET 2.6對Infer.NET User Guide進行中文翻譯，但進行了若干簡化和提煉，按照原網站的思路進行，但不侷限與其順序。　　歡迎傳播分享，必須保持原作者的資訊，但禁止將該文件直接用於商業盈利。　　本人正在研究基於Infer.NET

CSDN機器學習筆記七實戰樣本不均衡資料解決方法

信用卡檢測案例原始資料：0特別多，1特別少——樣本不均衡。要麼讓0和1一樣多，要麼讓0和1一樣少。 1.下采樣對於資料0和1，要變為同樣少——在0裡選擇和1一樣多資料。 from sklearn.preprocessing imp

機器學習預測時label錯位對未來資料做預測

前言

實驗過程

過程及結果

相關推薦