時間序列相關演算法與分析步驟

阿新 • • 發佈：2019-01-08

1.純隨機序列（白噪聲序列），這時候可以停止分析，因為就像預測下一次硬幣哪一面朝上一樣毫無規律。

2.平穩非白噪聲序列，它們的均值和方差是常數，對於這類序列，有成熟的模型來擬合這個序列在未來的發展狀況，如AR，MA，ARMA等（具體模型演算法及實現在後面）

3.非平穩序列，一般做法是把他們轉化為平穩的序列，在按照平穩序列的演算法進行擬合。如果經過差分後平穩，則應使用ARIMA模型進行擬合。

注：本文模型採用的資料為某餐廳一個多月內的銷量資料，包含兩個特徵：時間和銷量

Q1：序列的平穩性用什麼來衡量呢？

方法1：

根據時序圖和自相關圖的特徵做出主觀的判斷，如下圖：
時序圖：
這裡寫圖片描述
自相關圖：

從上圖可以基本看出，自相關係數的絕對值長期都保持了較大的值，所以可以判斷上述時間序列存在自相關性。

平穩的序列自相關圖和偏自相關圖不是拖尾就是截尾。

截尾就是在某階之後，係數都為 0 。
拖尾就是有一個衰減的趨勢，但是不都為 0 。

從自相關圖來看，呈現三角對稱形式，不存在截尾或拖尾，屬於單調序列的典型表現形式，原始資料屬於不平穩序列。

注：

如果自相關是拖尾，偏相關截尾，則用 AR 演算法
如果自相關截尾，偏相關拖尾，則用 MA 演算法
如果自相關和偏相關都是拖尾，則用 ARMA 演算法， ARIMA 是 ARMA 演算法的擴充套件版，用法類似。

相關係數的計算方法：

VAR表示方差

方法2：

根據單位根檢驗

如果存在單位根，則此序列為隨機非平穩序列

Q2：平穩序列應該怎麼分析呢？

目前最常用的擬合平穩序列的模型為ARMA（Autoregressive moving average）模型，全稱是自迴歸移動平均模型，他又可以分為AR模型，MA模型和ARMA模型三大類。

1.自迴歸AR(p)模型

這裡寫圖片描述
自迴歸模型描述的是當前值與歷史值之間的關係。

2.移動平均MA(q)模型

這裡寫圖片描述
移動平均模型描述的是自迴歸部分的誤差累計。

3.ARMA(p,q)模型

ARMA(p,q)模型中包含了p個自迴歸項和q個移動平均項，ARMA(p,q)模型可以表示為：
這裡寫圖片描述

當q=0時，是AR(p)模型
當p=0時，是MA(q)模型

一般分析步驟：
這裡寫圖片描述

Q3：非平穩序列怎麼分析呢？

從上面的模型中可以看出，如果是非平穩序列，我們需要先把它轉為平穩序列之後再進行分析。

一般我們使用ARIMA(Autoregressive Integrated Moving Average model)進行分析

ARIMA（p，d，q）中，AR是”自迴歸”，p為自迴歸項數；MA為”滑動平均”，q為滑動平均項數，d為使之成為平穩序列所做的差分次數（階數）

。

“差分”一詞雖未出現在ARIMA的英文名稱中，卻是關鍵步驟。

Q4：舉個栗子看下唄！

讀取資料

#-*- coding: utf-8 -*-
#arima時序模型

import pandas as pd

#引數初始化
discfile = '../data/arima_data.xls'
forecastnum = 5

#讀取資料，指定日期列為指標，Pandas自動將“日期”列識別為Datetime格式
data = pd.read_excel(discfile, index_col = u'日期')

自相關檢測


#時序圖
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei'] #用來正常顯示中文標籤
plt.rcParams['axes.unicode_minus'] = False #用來正常顯示負號
data.plot()
plt.show()

#自相關圖
from statsmodels.graphics.tsaplots import plot_acf
plot_acf(data).show()

#平穩性檢測
from statsmodels.tsa.stattools import adfuller as ADF
print(u'原始序列的ADF檢驗結果為：', ADF(data[u'銷量']))
#返回值依次為adf、pvalue、usedlag、nobs、critical values、icbest、regresults、

自相關圖
這裡寫圖片描述
可以看出自相關係數的絕對值長期都保持很大，多以基本判斷存在自相關性。

ADF檢測結果p值顯著大於0.05（p=0.9983），最終判斷為非平穩序列

一階差分後繼續檢測

#差分後的結果
D_data = data.diff().dropna()
D_data.columns = [u'銷量差分']
D_data.plot() #時序圖
plt.show()
plot_acf(D_data).show() #自相關圖
from statsmodels.graphics.tsaplots import plot_pacf
plot_pacf(D_data).show() #偏自相關圖
print(u'差分序列的ADF檢驗結果為：', ADF(D_data[u'銷量差分'])) #平穩性檢測

#白噪聲檢驗
from statsmodels.stats.diagnostic import acorr_ljungbox
print(u'差分序列的白噪聲檢驗結果為：', acorr_ljungbox(D_data, lags=1)) #返回統計量和p值

這裡寫圖片描述
上圖是差分後的銷量結果

這裡寫圖片描述
自相關圖顯示出1階截尾的性質

偏自相關圖顯示出1階拖尾的性質

從ADF的結果（p=0.0226）和自相關圖以及偏自相關圖中可以看出一階差分後的序列是平穩的非白噪聲序列。

給ARIMA模型定階
從一階差分後的序列是平穩的非白噪聲序列可以看出ARIMA模型中的d=1

定階方法：
1.人為判斷：自相關圖顯示出從第1階之後的截尾性質，偏自相關圖從第1階之後顯示出拖尾的性質，所以人為判斷使用MA(1)模型，即ARMA(0,1,1)
2.相對最優模型識別，當p和q均小於等於3的所有組合的BIC資訊量，取其中BIC資訊量達到最小的模型階數。

#定階
pmax = int(len(D_data)/10) #一般階數不超過length/10
qmax = int(len(D_data)/10) #一般階數不超過length/10
bic_matrix = [] #bic矩陣
for p in range(pmax+1):
  tmp = []
  for q in range(qmax+1):
    try: #存在部分報錯，所以用try來跳過報錯。
      tmp.append(ARIMA(data, (p,1,q)).fit().bic)
    except:
      tmp.append(None)
  bic_matrix.append(tmp)

bic_matrix = pd.DataFrame(bic_matrix) #從中可以找出最小值

p,q = bic_matrix.stack().idxmin() #先用stack展平，然後用idxmin找出最小值位置。
print(u'BIC最小的p值和q值為：%

BIC矩陣
取其中BIC資訊量達到最小的模型階數。
這裡寫圖片描述
確定p=0，q=1

擬合模型

model = ARIMA(data, (p,1,q)).fit() #建立ARIMA(0, 1, 1)模型
model.summary2() #給出一份模型報告
model.forecast(5) #作為期5天的預測，返回預測結果、標準誤差、置信區間。

最終得到模型的預測結果

資料和完整程式碼可以通過在留言中留下郵箱獲取哦~

時間序列相關演算法與分析步驟

1.純隨機序列（白噪聲序列），這時候可以停止分析，因為就像預測下一次硬幣哪一面朝上一樣毫無規律。2.平穩非白噪聲序列，它們的均值和方差是常數，對於這類序列，有成熟的模型來擬合這個序列在未來的發展狀況，如AR，MA，ARMA等（具體模型演算法及實現在後面）3.非平穩序列，一般做法是把他們轉化為平穩的序列，在按照

【統計學】【2017.05】時間序列資料預測與分析

本文為布拉格捷克理工大學（作者：Oleg Ostashchuk）的碩士論文，共78頁。本文討論了時間序列分析和預測的問題。論文的目的是研究現有的時間序列預測方法，包括必要的資料預處理步驟。本文選取了ARIMA、人工神經網路和雙指數平滑三種有前景的預測方法。本文的主要工作是對所提供的資

四種求最大子序列的演算法與分析(python描述)

目錄目錄演算法1——窮舉法演算法分析時間複雜度分析演算法2——優化版窮舉法

時間序列預測演算法總結

時間序列演算法 time series data mining 主要包括decompose（分析資料的各個成分，例如趨勢，週期性），prediction（預測未來的值），classification（對有序資料序列的feature提取與分類），clustering（相似數列聚類）等。時間序

字典序問題（計算機演算法與分析 1-2 王曉東）

問題描述：在資料加密和資料壓縮中常需要對特殊的字串進行編碼.給定的字母表A由26個小寫英文字母組成,即A={a,b...z}.該字母表產生的長序字串是指定字串中字母從左到右出現的次序與字母在字母表中出現的次序相同,且每個字元最多出現1次.例如,a,b,ab,bc,xy

2-SAT問題相關演算法與題目講解（O(n*m)與O(m)）

2-SAT問題資訊學競賽 OI ACM O(m) O(nm) 2-SAT問題張天翔前置技能拓撲排序基本邏輯運算強聯通分量問題模型給出n個布林值組成的序列{Ai}，給出一些限制，每個限制最多針

時間序列分解演算法：STL

1. 詳解 STL (Seasonal-Trend decomposition procedure based on Loess) [1] 為時序分解中一種常見的演算法，基於LOESS將某時刻的資料$Y_v$分解為趨勢分量（trend component）、週期分量（seasonal component）

時間序列資料庫KDB 與Java結合使用介紹 -- 1 KDB Java程式碼解讀

KDB是Kx System開發的時間序列資料庫，通常用於處理交易行情相關資料。具體介紹可以參考：https://en.wikipedia.org/wiki/Kdb%2B。在我們的計價系統中使用kdb來儲存計價資料，由於KDB是基於Q語言的，我們的計價系統是Java寫的，所

計量經濟與時間序列_時間序列分析的幾個基本概念(自相關函數,偏自相關函數等)

sig 永不均值 blog 那種屬於 class 觀察自相關 1. 在時間序列分析中，數學模型是什麽？數學公式又是什麽？數學推導過程又是什麽？... ... 　　一句話：用數學公式後者符號來表示現實存在的意義。數學是“萬金油”的科學，它是作為工作和分析方法運用到某

R語言--時間序列分析步驟

align 如何 -- list arima test bsp nat 建立大白。（1）根據趨勢定差分 plot(lostjob,type="b") 查看圖像總體趨勢，確定如何差分 df1 = diff(lostjob) d=1階差分 s4_df1=diff(df1,

演算法設計與分析課程的時間空間複雜度

演算法設計與分析課程的時間空間複雜度：總結演算法時間複雜度空間複雜度說明 Hanoi $ O(2^n) $ $ O(n) $ 遞迴使用會場安排問題 \(O

時間序列分析相關概念

1. 在時間序列分析中，數學模型是什麼？數學公式又是什麼？數學推導過程又是什麼？… … 一句話：用數學公式後者符號來表示現實存在的意義。數學是“萬金油”的科學，它是作為工作和分析方法運用到某個學科當中。比如在物理學中，數學公式或者數學符號也是表示現實存在的意

【原始碼】時間序列分析與預測工具箱（Time Series Analysis and Forecast，TSAF）

時間序列是一組隨時間變化而收集的定量型變數觀測值。比如：道瓊斯工業股價指數、線上銷售、庫存、客戶數量、利率、費用等歷史資料都屬於時間序列。預測時間序列變數對於企業準確掌控運營狀態非常有用。通常，獨立變數不能用來建立時間序列變數的迴歸模型。時間序列分析的特點：

8601 最大長方體問題（優先做）時間限制:1000MS 記憶體限制:1000K 提交次數:950 通過次數:383 計算機演算法設計與分析王曉東

題目 8601 最大長方體問題（優先做）時間限制:1000MS 記憶體限制:1000K 提交次數:950 通過次數:383 題型: 程式設計題語言: G++;GCC;VC Description 一個長,寬,高分別是m,n,p的長方體被分割成mnp個小

精通Excel資料統計與分析 - 摘要（第8章：時間序列預測）

一、時間序列預測 8.1 簡介時間序列預測法：也稱歷史引申預測法，是以時間數列所能反映的社會經濟現象的發展過程和規律性進行引申外推，預測其發展趨勢的方法； 8.2 移動平均法預測有三種：簡單移動平均法、加權移動平均法、中心移動平均預測法。

《演算法設計與分析》實踐報告--求兩個有序序列的中位數

實驗題目：兩個有序序列的中位數已知有兩個等長的非降序序列S1, S2, 設計函式求S1與S2並集的中位數。有序序列A0,A1,⋯,AN−1的中位數指A(N−1)/2的值,即第⌊(N+1)/2⌋個數（A0為第1個數）。輸入格式:

演算法設計與分析學習筆記——最長公共子序列

最長公共子問題待解決問題：給定兩個序列Ｘ和Ｙ，求其一個最長公共的序列Ｚ。補充解釋：X(m)={x1, x2,,,,,xm}，Ｙ(n)={y1, y2,,,,,yn}，Ｘ和Ｙ可以有共同的元素，Ｚ是這些共同元素的集合，其元素順序在ＸＹＺ中都是升序排序的（Z中元素的

演算法導論－最大子陣列問題－線性時間複雜度演算法分析與實現

之前寫了最大子陣列問題的分治法，今天把這個問題的線性時間複雜度的演算法寫出來。這個方法在演算法導論最大子陣列問題的課後思考題裡面提出來了，只是說的不夠詳細。思考題如下：使用如下思想為最大子陣列問題設計一個非遞迴的，線性時間複雜度的演算法。從陣列左邊界開始，由左至右處理，

時間序列分析-python(一、自相關係數的意義)

最近在學習時間序列預測銷量，做一些筆記。參考：自相關係數平穩時間序列時間序列必須是平穩的才可以做後續分析，差分和log都是為了使時間序列平穩。一個時間序列，如果均值和方差沒有系統變化或週期性變化（均值無變化：沒有明顯趨勢，方差無變化：波動比較穩定），就稱之為平穩的。自相關係數

演算法設計與分析------歸併排序求序列最小值問題

題目要求:用分治法實現找一個序列最小值的功能那我剛學演算法，就引用書上的程式碼寫這個程式。書籍：《演算法設計與分析》(第2版)#include<iostream>using namespace std;void Merge(int r[],int r1[],int

時間序列相關演算法與分析步驟

Q1：序列的平穩性用什麼來衡量呢？

方法1：

方法2：

Q2：平穩序列應該怎麼分析呢？

1.自迴歸AR(p)模型

2.移動平均MA(q)模型

3.ARMA(p,q)模型

Q3：非平穩序列怎麼分析呢？

Q4：舉個栗子看下唄！

相關推薦