1. 程式人生 > >時間序列預測問題中特徵工程和訓練的經驗小結

時間序列預測問題中特徵工程和訓練的經驗小結

        鑑於影象的語義分析需求已經不再侷限於常規的單幀影象,視訊語義分析的地位日漸重要。初步考慮,幀與幀之間依靠時間維度進行銜接,或許需要適當研究基礎的LSTM與RNN結構。

特徵工程/訓練:

        許多大資料工程師都認為,預測任務中80%的時間用來做特徵工程,20%的時間用來做訓練。這裡總結一下自己最近作比賽四處討教來的、針對時間序列預測問題而出現的特徵工程技巧和訓練技巧,不定時更新補充:

假設場景:

    公司給出了這樣的資料:以天為單位;每天有N維特徵;一共是最近1000天的資料

專案要求:

    預測往後20天的資料。

一:該怎麼做比例合適的測試集和訓練集?

  1.  對於非平穩序列,通過差分預處理獲得平穩時間序列。
  2.  按照時間先後順序(有頭有尾);以【1】天為步長,依次把第【J】天的資料做為X,把第【J+1】天的資料做為Y,形成一個embedding;那麼有999個embedding。
  3. 按照時間先後順序(有頭有尾);以【m】天為步長,依次把【(J*m:J*m+N】天拓展資料做為X,把第【J*m+N+1】天作為Y,進行大跨度切片,形成一個embedding;那麼有(1000-N)% m 個embedding。
  4. 把時間序列首尾相連形成迴圈佇列狀(無頭無尾),按照2的規則進行切片。不同的是,有的切片會切到時間序列上收尾相接的部分。
  5. 在3或4的規則下,以適當小的比例打亂單個embedding的X內部元素的順序,也新增到訓練集中。
  6. 在3或3的規則下,協同過濾方法為訓練集增加特徵:去除樣本中的時間維度,計算每個樣本和其他樣本之間的相似度,用相似度乘以其他樣本的【某一個維度A】進行加權平均,得到純基於特徵相似度的【A】特徵,加入到樣本特徵中。
  7. 在5規則下,各種組合。
  8. 去除異常點(四種方法,先mark)

二:該怎麼安排訓練過程?

  1. 完全按照時間序列的前後順序進行訓練,更新rnn的隱藏層輸出值,這是利用網路之前的輸出會影響之後的輸入的特性
  2. 不完全按照時間序列的前後順序進行訓練,而是打亂shuffle順序或者隨機抽取測試樣本進行訓練,kaggle競賽有些是這麼處理的(這個過程有點粗暴,相當於用著lstm/rnn網路,卻丟掉了時間維度,只是做著傳統cnn的特徵提取工作。所以我寫了“不完全按照時間序列”,這樣處理可以泛化除時間維度之外的特徵提取能力,同時在資料量小的情況下也可以增加樣本,適當地防止過擬合,算是個小竅門),預測準確性獲得提升。

wonderseen | Xiamen University | 2018.03.17


相關推薦

時間序列預測問題特徵工程訓練經驗小結

        鑑於影象的語義分析需求已經不再侷限於常規的單幀影象,視訊語義分析的地位日漸重要。初步考慮,幀與幀之間依靠時間維度進行銜接,或許需要適當研究基礎的LSTM與RNN結構。特徵工程/訓練:        許多大資料工程師都認為,預測任務中80%的時間用來做特徵工程,

長短期記憶(LSTM)系列_1.1、迴歸神經網路在時間序列預測的介紹應用

摘要,通過本文你可以學到: 傳統的時間序列預測方法側重於具有線性關係的單變數資料以及固定和手動診斷的時間依賴性。 神經網路增加了學習可能的噪聲和非線性關係的能力,其中任意定義但固定數量的輸入和輸出支援多變數和多步預測。 遞迴神經網路增加了有序觀察的顯式處理和從上下文學習時間依賴

時間序列2擬合檢驗預測#R

logs clas 診斷 mean 噪聲 移動平均 clu 常數 設定 一、擬合 1、自動擬合模型 要使用auto.arima( )函數需要先下載zoo和forecast程序包,並用library調用這兩個程序包。auto.arima()函數的命令格式如下 auto.ar

時間序列預測問題轉換為python的監督學習問題

像深度學習這樣的機器學習方法可以用於時間序列預測。 在機器學習方法可以被使用前,時間序列預測問題必須重新構建成監督學習問題,從一個單純的序列變成一對序列輸入和輸出。 在這個教程中,你將瞭解如何將單變數和多變數時間序列預測問題轉換為與機器學習演算法一起使用的監督學習問題

只需一行代碼!Python9大時間序列預測模型

rim reg tsm 水平 包括 組成 相關性 sta mod 在時間序列問題上,機器學習被廣泛應用於分類和預測問題。當有預測模型來預測未知變量時,在時間充當獨立變量和目標因變量的情況下,時間序列預測就出現了。 預測值可以是潛在雇員的工資或銀行賬戶持有人的信用評分。任何正

時間序列分析預測類問題下的建模方案

【說在前面】本人部落格新手一枚,象牙塔的老白,職業場的小白。以下內容僅為個人見解,歡迎批評指正,不喜勿噴![認真看圖][認真看圖] 【補充說明】時間序列分析主要有兩個方向,一個通過是對歷史資料的分析進行異常檢測和分類,二是進行預測!  【補充說明】迴歸分析假設每個資料點都是獨立的,而時間序列分析則是

86、使用Tensorflow實現,LSTM的時間序列預測預測正弦函數

ati pre win real testing could sqrt sha ima ‘‘‘ Created on 2017年5月21日 @author: weizhen ‘‘‘ # 以下程序為預測離散化之後的sin函數 import numpy as np impo

對象序列 子類父類構造函數的調用問題

images png http 分享 com 函數 對象 情況 序列 第三種情況: 對象序列化中 子類和父類構造函數的調用問題

計量經濟與時間序列_時間序列過程的移動平均自回歸表示

div 條件 變量 過去 描述 相關 ive 包含 就是 1 在時間序列分析中有兩種有用的表示來描述時間序列過程。一種是將過程寫成一列不相關的隨機變量的線性組合。這個過程叫moving average過程,也叫MA過程。 2 Wold(1938年)證明:純非確定性的

keras-anomaly-detection 代碼分析——本質上就是SAE、LSTM時間序列預測

encoding urn odin forward mean code -a reat ati keras-anomaly-detection Anomaly detection implemented in Keras The source codes of the re

時間序列預測——深度好文

原文地址:https://medium.com/open-machine-learning-course/open-machine-learning-course-topic-9-time-series-analysis-in-python-a270cb05e0b3 Open Machine Learnin

Tensorflow LSTM時間序列預測的嘗試

一、網上的資源 網上有不少用LSTM來預測時間序列的資源,如下面: 深度學習(08)_RNN-LSTM迴圈神經網路-03-Tensorflow進階實現 http://blog.csdn.net/u013082989/article/details/73693392 Applying

時間序列預測演算法總結

時間序列演算法 time series data mining 主要包括decompose(分析資料的各個成分,例如趨勢,週期性),prediction(預測未來的值),classification(對有序資料序列的feature提取與分類),clustering(相似數列聚類)等。 時間序

LSTM時間序列預測學習

一、檔案準備工作       下載好的例程式 二、開始執行   1、在程式所在目錄中(chapter_15)開啟終端   輸入下面的指令執行 python train_lstm.py 此時出現了報錯提

機器學習——特徵工程文字特徵工程提取

機器學習的資料:檔案csv 可用的資料集: scikit-learn  :資料量小,方便學習 kaggle: 大資料競賽平臺,真實資料,資料量巨大 UCI:收錄了360個數據集,覆蓋科學、生活、經濟等領域,資料量幾十萬 常用資料集資料的結構組成

基於深度學習時間序列預測系統專案需求分析心得

專案第一次迭代已經進入了尾聲,在我們小組剛確定這個專案的時候,花了兩個周的時間來確定專案的需求。以下是我們在進行需求分析的一些心得。   需求分析過程:   (1) 小組內部進行討論:在進行團隊專案開發之初,我們在需求分析還有資料庫設計上花了很多時間,首先是進行多次需求分析的團隊會議,小組人員

ARIMA 時間序列預測

ARIMA 時間序列預測  (學習資料及程式碼均從網上獲取。) 資料記錄AirPassengers.csv: Month,#Passengers 1949-01,112 1949-02,118 1949-03,132 1949-04,129 1949-05,121 1949

Keras LSTM 時間序列預測

Keras LSTM 時間序列預測   international-airline-passengers.csv資料記錄: time,passengers "1949-01",112 "1949-02",118 "1949-03",132 "1949-04",129

基於Keras的LSTM多變數時間序列預測 (學習筆記)

本文翻譯自Jason Brownlee的部落格https://machinelearningmastery.com/multivariate-time-series-forecasting-lstms-keras/ 本部落格主要參考以下中文版部落格 https://blog.csdn.net/qq_280

客戶貸款逾期預測[5] - 特徵工程

目錄   任務 資料探索 特徵刪除 缺失值處理 異常值處理 特徵生成 特徵合併 特徵縮放 資料歸一化 資料標準化 相關性分析 劃分訓練集、模型評估和選擇 參考 任務