1. 程式人生 > >機器學習與統計建模 —— 時間序列

機器學習與統計建模 —— 時間序列

時間序列的定義

所謂時間序列就是按照時間的順序記錄的一列有序資料。對時間序列進行觀察、研究、找尋他發展變化的規律,預測他將來的走勢就是時間序列分析,時間序列分析方法只適用於近期與短期的預測。

相關特徵統計量:

  1. 均值函式序列:反映的是時間序列每時每刻的平均水平

  2. 方差函式序列:反映的是時間序列圍繞其均值做隨機波動時平均的波動程度

  3. 協方差函式和相關係數度量的是兩個不同的事件彼此之間的相互影響程式。而自協方差函式和自相關係數(ACF)度量的是同一事件在不同時期之間的相關程度,形象地講就是度量自己過去的行為對自己現在的影響

  4. 偏自相關係數:在剔除了中間k1個隨機變數的干擾後,Xt

    kXt影響的相關變數。

時間序列常用模型:

  • 長期趨勢:是時間序列在長時期內呈現出來的持續向上或持續向下的變動。
  • 季節變動:是時間序列在一年內重複出現的週期性波動。
  • 迴圈波動:是時間序列呈現出得非固定長度的週期性變動。迴圈波動的週期可能會持續一段時間,但與趨勢不同,它不是朝著單一方向的持續變動,而是漲落相同的交替波動。
  • 不規則波動:是時間序列中除去趨勢、季節變動和週期波動之後的隨機波動。不規則波動通常總是夾雜在時間序列中,致使時間序列產生一種波浪形或震盪式的變動。只含有隨機波動的序列也稱為平穩序列

時間序列分析方法

1、移動平均法

缺點:預測值總是停留在過去的水平上而無法預計會導致將來更高或更低的波動

N越大,修勻的程度也越大,起伏也越小,有利於消除不規則變動的影響,但同時週期變動難於反映出來。一般N值的取值範圍:5<=N<=200。當歷史序列的基本變化不大且序列中隨機變動成分較多時,N的取值應該大一些,否則N的取值應該小一些。選擇N值的一個有效方法是,比較若干模型的預測誤差,預測誤差最小者為好。

一次移動平均法

  • 使用最近N期序列值的平均值作為未來各期的預測結果,每期資料求平均時的作用是一樣的

  • 適用範圍:適用於發展趨勢變化不大的情況

計算公式為:

這裡寫圖片描述

預測標準誤差為:
這裡寫圖片描述

加權移動平均法

  • 考慮各期資料的重要性,對近期資料給予較大的權重。

  • 需要計算總的平均相對誤差,修正預測值

  • 適用範圍:適用於發展趨勢變化不大的情況

計算公式為:
這裡寫圖片描述

二次移動平均法

  • 利用移動平均的滯後偏差的規律來建立直線趨勢的預測模型,是一種既能反映趨勢變化,又可以有效分離出週期變化的方法。

  • 適用範圍:適用於具有線性趨勢的情況

計算公式為:
這裡寫圖片描述

這裡寫圖片描述

2、指數平滑法

指數平滑法實際上是一種特殊的加權移動平均法。預測值是以前觀測值的加權和,且對不同的資料給予不同的權,新資料給較大的權,舊資料給較小的權。

缺點:難以確定指數平滑係數,受主觀影響較大

一次指數平滑法

  • 適用範圍:適用於發展趨勢變化不大的情況

計算公式為:
這裡寫圖片描述
即:最新預測值=前一期預測值+前期預測值產生的誤差的修正值。

平滑係數的確定:

  • 平滑係數a起到一個調節器的作用。a值選取得越大,預測值受近期影響越大;a值選取得越小,預測值受遠期影響越大。
  • 如果時間序列波動不大,比較平穩,則a應取小一點(如0.1~0.5),以減少修正幅度,使預測模型能包含較長時間序列的資訊
  • 如果時間序列具有迅速且明顯的變動傾向,則a應取大一點,如(0.6~0.8)

初始值的確定:

  • 當時間序列的資料較多時,取第一期的實際值為初值
  • 當時間序列的資料較少時,取最初幾期的平均值為初值

二次指數平滑法

  • 適用範圍:適用於具有線性趨勢的情況

計算公式為:
這裡寫圖片描述
這裡寫圖片描述

平穩時間序列

一個時間序列,如果均值沒有系統的變化(無趨勢)、方差沒有系統變化,且嚴格消除了週期性變化,就稱之是平穩的。

根據限制條件的嚴格程度,平穩時間序列可以分為以下兩種型別

  • 嚴平穩時間序列:只有當序列的所有統計特徵都不會隨時間而變化時才能被稱為嚴平穩。是對序列聯合分佈的要求,以保證序列所有的統計特徵都相同

  • 寬平穩時間序列:只要求序列二階平穩,對於高於二階的維度沒有任何要求

平穩時間序列有以下兩個統計性質

  • 常數均值

  • 自協方差函式和自相關函式只依賴於時間的平移長度而與時間的起止點無關

時間序列的預處理

對序列進行純隨機值和平穩性的檢驗

1、平穩性的檢驗

對序列的平穩性有兩種檢驗方法,一種是根據時序圖和自相關圖顯示的特徵做出判斷的圖檢驗方法;一種是構造檢驗統計量進行假設檢驗的方法。圖檢驗方法操作簡便,但其主觀性較強,最好能用假設檢驗的方法進行輔助判斷。

時序圖檢驗

  • 根據平穩時間序列方差和均值為常數的特點,平穩序列的時序圖應該顯示出該序列始終在一個常數值附近隨機波動,並且波動的範圍由界的特點。

  • 如果觀察序列的時序圖顯示出該序列有明顯的趨勢性或週期性,那它通常不是平穩序列。

這裡寫圖片描述

如圖所示,銷量有明顯的上升趨勢,所以它一定不是平穩序列。

自相關圖檢驗

  • 自相關圖的一個座標軸表示延遲時間數,另一個座標軸表示自相關係數

  • 平穩序列通常具有短期自相關性:隨著延遲期數的增加,平穩序列的自相關性會很快衰減到0。反之,非平穩序列的自相關係數衰減向0的速度會比較慢。

三角對稱性:具有單調趨勢的非平穩序列

長期位於零軸的一邊:具有單調趨勢的非平穩序列

正弦波動規律:具有周期變化規律的非平穩序列

在零軸附近波動:隨機性強的平穩時間序列(很快衰減到0)

單位根檢驗

如果該統計量的P值小於a時,則可以以1-a的置信水平拒絕原假設,認為該序列為平穩序列;否則,接受原假設,認為該序列為非平穩序列。假設a為0.05,此時p值顯著大於0.05,則該序列為非平穩序列。

這裡寫圖片描述

2、純隨機性的檢驗

純隨機序列又稱為白噪聲序列。如果序列值之間沒有任何的相關性,這種序列我們稱為白噪聲序列。白噪聲序列沒有任何分析的價值

  • 非平穩序列一定不是白噪聲序列
  • 平穩序列如果顯示出顯著的短期相關性,那麼該序列一定不是白噪聲序列,否則要對其進行純隨機性檢驗

如果該統計量的P值小於a時,則可以以1-a的置信水平拒絕原假設,認為該序列為非白噪聲序列;否則,接受原假設,認為該序列為純隨機序列。假設a為0.05,此時p值顯著小於0.05,則該序列為非白噪聲序列。
這裡寫圖片描述

平穩時間序列分析

某個時間序列經過預處理,被判定為平穩非白噪聲序列,就可以利用ARMA模型進行建模

建模步驟:
這裡寫圖片描述
這裡寫圖片描述

非平穩時間序列分析

ARIMA模型的實質就是差分運算與ARMA模型的組合。

差分運算:

這裡寫圖片描述

建模步驟:
這裡寫圖片描述

相關推薦

機器學習統計建模 —— 時間序列

時間序列的定義 所謂時間序列就是按照時間的順序記錄的一列有序資料。對時間序列進行觀察、研究、找尋他發展變化的規律,預測他將來的走勢就是時間序列分析,時間序列分析方法只適用於近期與短期的預測。 相關特徵統計量: 均值函式序列:反映的是時間序列每時每

機器學習統計建模 —— 歸一化和標準化

歸一化(Min-Max Normalization) 特點 1、對不同特徵維度進行伸縮變換  2、改變原始資料的分佈。使各個特徵維度對目標函式的影響權重是一致的(即使得那些扁平分佈的資料伸縮變換成類圓形)  3、對目標函式的影響體現在數值上  4、把有量綱表示式變為無量

機器學習定義、機器學習資料建模、分析的區別

一、什麼是機器學習? 先來看一則開場白: 看完這段話,可以發現這裡涉及了很多基於“經驗”而做出的判斷。換句話說就是:通過對經驗的利用,就能對新的情況做出有效的決策。 ** 機器學習定義是什麼呢: **筆者摘錄了兩則,大家批評接受 —>①

分享《機器學習資料科學(基於R的統計學習方法)》高清中文PDF+原始碼

下載:https://pan.baidu.com/s/1Lrgtp7bnVeLoUO46qPHFJg 更多資料:http://blog.51cto.com/3215120 高清中文PDF,299頁,帶書籤目錄,文字可以複製。配套原始碼。 本書指導讀者利用R語言完成涉及機器學習的資料科學專案。作者: Da

分享《機器學習數據科學(基於R的統計學習方法)》高清中文PDF+源代碼

data 圖片 intro enc proc 文字 目錄 baidu fff 下載:https://pan.baidu.com/s/1Lrgtp7bnVeLoUO46qPHFJg 更多資料:http://blog.51cto.com/3215120 高清中文PDF,299頁

分享《機器學習數據科學(基於R的統計學習方法)》+PDF+源碼+Daniel+施翔

目錄 intro r語言 ges ati href ext 學習方法 learn 下載:https://pan.baidu.com/s/1TBuxErDDcKQi4oJO3L-fEA 更多資料:http://blog.51cto.com/14087171 高清中文PDF,2

時間之外】機器學習優化-1

正在讀《機器學習與優化》,涉及了不少人工智慧的概念,做一個筆記,供自己和需要的朋友們學習和理解,如果需要詳細瞭解,請購買正版圖書。 最近鄰方法 由於自然界不允許跳躍,感覺有點神學的味道了。這裡舉了一個例子,撿蘑菇,你能明白嗎?上個圖吧 不同型別的誤差 以下幾個率值得記住,畢

機器學習資料科學 基於R的統計學習方法(一)-第1章 機器學習綜述

1.1 機器學習的分類 監督學習:線性迴歸或邏輯迴歸, 非監督學習:是K-均值聚類, 即在資料點集中找出“聚類”。 另一種常用技術叫做主成分分析(PCA) , 用於降維, 演算法的評估方法也不盡相同。 最常用的方法是將均方根誤差(RMSE) 的值降到最小, 這一數值用於評價測試集的預測結果是否準確。 R

軟件——機器學習Python,聚類,K——means

4.0 etc sichuan readlines 文件夾 8.4 k-means 數據 -m K-means是一種聚類算法: 這裏運用k-means進行31個城市的分類 城市的數據保存在city.txt文件中,內容如下: BJ,2959.19,730.79,749.41

機器學習量化交易-2-3

.cn img -1 bsp 9.png ges 量化 ima image 機器學習與量化交易-2-3

大數據、機器學習信息安全

機器學習 信息安全 從機器學習的角度來看,大數據不過是訓練各類參數、概率分布模型的輸入。合適的、經過篩選的、符合事物客觀特征描述的大數據方才是好的數據,故在目前這個所謂“泛大數據時代”,數據確實是最為精貴的資源,但並不是所有數據都是,我們只能去蕪存菁方可認清數據的本質以及事物(包括人類自身)的本質。因此

機器學習R語言——基本語法

-s onedrive 和數 class 下載 取消 lan 選中 學習 一、註釋 1、選中要註釋的內容,快捷鍵Ctrl+Shift+C(取消註釋方法相同) 2、在需註釋內容前輸入# 1 #需註釋的內容 3、利用if語句,將判斷條件設置為false則可跳過if語句中的內

機器學習AI相關的資料

get pos 機器 post 機器學習 notes .com www .cn 機器學習與AI相關的資料: 1、 http://www.fast.ai/ 基礎學習 2、http://geek.ai100.com.cn/ 中文 3、http://geek.ai100.

機器學習量化交易項目班 [從零搭建自動交易系統]

tid TP 項目班 ref AR 模型選擇 簡介 控制 Go 第一課 自動化交易綜述知識點1: 課程內容綜述,自動化/算法交易介紹,python在自動交易中的應用簡介第二課 量化交易系統綜述知識點1:回測,自動交易,策略建模,常見平臺使用第三課 搭建自己的量化數據庫知識點

機器學習升級版(VII)——第1課 機器學習數學分析

矩陣分解 變化 回歸分析 兩個 例如 處理 fff mage 我們 參考:鄒博 《機器學習升級版》 1. 機器學習概論 1. 什麽是機器學習 定義:對於某給定的任務T,在合理的性能度量方案P的前提下,某計算機程序可以自主學習任務T的經驗E;隨著提供合適、

深度學習機器學習NLP的前世今生

規則引擎 工程 都是 適應性 事情 簡單的 .com 合並 而且 隨著深度學習的發展,自然語言處理領域的難題也得到了不斷突破,AlphaGo項目的主要負責人David Silver曾說“深度學習 (DL)+ 強化學習 (RL) = 人工智能 (AI)”。目前深度學習在自然語

【Mark Schmidt課件】機器學習資料探勘——特徵選擇

本課件的主要內容如下: 上次課程回顧:尋找“真實”模型 資訊準則 貝葉斯資訊準則 關於食物過敏 特徵選擇 全基因組關聯分析 “迴歸權重”方法 搜尋評分法 評分函式的選擇 “特徵數量”懲罰

【Mark Schmidt課件】機器學習資料探勘——非線性迴歸

本課件主要內容包括: 魯棒迴歸 體育運動中的非線性級數 自適應計數/距離法 線性模型的侷限性 非線性特徵變換 一般多項式特徵(d = 1) 英文原文課件下載地址: http://page5.dfpan

【Mark Schmidt課件】機器學習資料探勘——數值優化梯度下降

本課件主要包括以下內容: 優化簡介 上次課程回顧:線性迴歸 大規模最小二乘 尋找區域性最小值的梯度下降法 二維梯度下降 存在奇異點的最小二乘 魯棒迴歸 基於L1-範數的迴歸 L1-範數的平滑近似

【Mark Schmidt課件】機器學習資料探勘——正規方程組

本課件的主要內容包括: d維資料的梯度和臨界點 最小二乘偏導數 矩陣代數回顧 線性最小二乘 線性和二次梯度 正規方程組 最小二乘問題的不正確解 最小二乘解的非唯一性 凸函式 如何判斷函式的