時間序列的分析和預測ARIMA

阿新 • • 發佈：2019-01-04

　　分析的資料來自一個kaggle的比賽資料，是一組維基百科頁面的瀏覽量資料，對資料進行簡單的分析和處理，預測未來的流量．資料包含部分網頁從2015年７月１日到２０１６年１２月３１日的每天的瀏覽量資料，資料有存在缺失，網頁的型別包含多個語種．
下面是資料的部分截圖：
這裡寫圖片描述
Page為網頁的地址，列標籤為日期，值為每日的瀏覽量．

下面倒入用到的python庫和類

import numpy as np 
import pandas as pd 
import re 
import matplotlib.pyplot as plt 
from statsmodels.tsa.arima_model import 
 ARIMA

讀取資料

train_df = pd.read_csv('webLL/train_1.csv').fillna(0) # 用０來補充缺失值

轉換資料型別，釋放記憶體空間

# 資料為浮點數型別的整數，消耗記憶體較大，轉換為整型資料釋放一些記憶體600M減少到300M
for col in train＿df.columns[1:]:
    train_df[col] = pd.to_numeric(train_df[col],downcast='integer')

正則表達提取網頁的語種資訊

# 正則表達匹配的物件是一個不可迭代的物件，可以通過group()轉換為一個字串物件 

def get_language(page):
    res = re.search('[a-z][a-z].wikipedia.org',page)
    if res:
        return res.group()[:2]
    return 'na'

新增語言列

train_df['lang'] = train_df['Page'].map(get_language)

　　用一個字典物件來儲存，不同語言的網頁的流量資料，key為語言標記，value為對應的dataFarame物件

lang_sets = {}
lang_sets['en'] = train_df[train_df.lang=='en' 
].iloc[:,0:-1]
lang_sets['ja'] = train_df[train_df.lang=='ja'].iloc[:,0:-1]
lang_sets['de'] = train_df[train_df.lang=='de'].iloc[:,0:-1]
lang_sets['na'] = train_df[train_df.lang=='na'].iloc[:,0:-1]
lang_sets['fr'] = train_df[train_df.lang=='fr'].iloc[:,0:-1]
lang_sets['zh'] = train_df[train_df.lang=='zh'].iloc[:,0:-1]
lang_sets['ru'] = train_df[train_df.lang=='ru'].iloc[:,0:-1]
lang_sets['es'] = train_df[train_df.lang=='es'].iloc[:,0:-1]

　
計算每種語言wiki頁面的日平均流量

sums = {}
for key in lang_sets:
    sums[key] = lang_sets[key].iloc[:,1:].sum(axis=0) / lang_sets[key].shape[0]

# 字典轉換為DataFrame物件繪圖方便，Nan表示在網頁的地址中沒有明確表示文字格式
traffic_sum = pd.DataFrame(sums)

更新列名

traffic_sum.columns=['German','English','Spanish','French','Japanese','Nan','Russian','Chinese']

traffic_sum.plot(figsize=(12,6))
plt.show()

每種語言wiki頁面15/7/1-16/12/31的日平均瀏覽量
png 這裡寫圖片描述

　　下面利用上面的資料繪製不用wiki頁面瀏覽資料的自相關和部分自相關圖，以估計用於訓練ARIMA模型的超引數。

from statsmodels.tsa.stattools import pacf
from statsmodels.tsa.stattools import acf

for key in sums:
    fig = plt.figure(1,figsize=[12,4])
    ax1 = fig.add_subplot(121)
    ax2 = fig.add_subplot(122)
    data = np.array(sums[key])
    autocorr = acf(data)
    pac = pacf(data)

    x = [x for x in range(len(pac))]
    ax1.plot(x[1:],autocorr[1:])
    ax1.grid(True)
    ax1.set_xlabel('Lag')
    ax1.set_ylabel('Autocorrelation')

    ax2.plot(x[1:],pac[1:])
    ax2.grid(True)
    ax2.set_xlabel('Lag')
    ax2.set_ylabel('Partial Autocorrelation')
    print(key)
    plt.show()

俄語

這裡寫圖片描述

日語

這裡寫圖片描述

法語

這裡寫圖片描述

德語

這裡寫圖片描述

英語

這裡寫圖片描述

漢語

這裡寫圖片描述

na

這裡寫圖片描述

西班牙

這裡寫圖片描述

觀察上面的圖表

英語，俄語，法語，Nan語種頁面的瀏覽量的自相關係數都有較快的收斂，序列比較平穩，所以不需要在進行處理．其他的時間序列有明顯的週期性趨勢，並沒有較好的收斂，需要對序列進行處理，這裡通過一階差分來是序列趨於平穩．
對於日語，漢語，德語和西班牙語他們的流量資料下的自相關係數沒７天左右會出現一個高峰，階數Ｐ取７，其他的取３／４都ok,特別在意的話可以查詢更多關於ARIMA模型定階的資料．
平穩序列的部分相關係數都有較快的收斂，所以q=0,非平穩序列的收斂情況不一，為了方便計算，統一q=1.總之定階的問題，我也比較頭疼，還在摸索．

下面對不同語言的序列用ARIMA模型進行預測未來的流量

params = {'en': [4,1,0], 'ja': [7,1,1], 'de': [7,1,1], 'na': [4,1,0], 
          'fr': [4,1,0], 'zh': [7,1,1], 'ru': [4,1,0], 'es': [7,1,1]}

for key in sums:
    data = np.array(sums[key])
    result = None
    arima = ARIMA(data,params[key])
    result = arima.fit(disp=False)
    #print(result.params)
    pred = result.predict(2,599,typ='levels')
    x = pd.date_range('2015-07-02','2017-02-18')


    print(key)
    plt.figure(figsize=(10,5))
    plt.plot(x[:548],data[2:] ,label='Data')
    plt.plot(x,pred,label='ARIMA Model')
    plt.xlabel('Days')
    plt.ylabel('Views')
    plt.legend()
    plt.show()

俄語

這裡寫圖片描述

日語

這裡寫圖片描述

法語

這裡寫圖片描述

德語

這裡寫圖片描述

英語

這裡寫圖片描述

漢語

這裡寫圖片描述

na

這裡寫圖片描述

西班牙

這裡寫圖片描述

時間序列分析和預測

導論研究時間序列主要目的：進行預測，根據已有的時間序列資料預測未來的變化。時間序列預測關鍵：確定已有的時間序列的變化模式，並假定這種模式會延續到未來。時間序列預測法的基本特點假設事物發展趨勢會延伸到未來預測所依據的資料具有不規則性不

R中時間序列分析-趨勢預測ARIMA

時間序列預測（time series forecasting） ARIMA模型（Autoregressive Integrated Moving Average Model） ARIMA模型，將非平

第十三章時間序列分析和預測

時間序列的關鍵是確定出已有的時間序列的變化模式，並假定這種模式會延續到未來。時間序列分析就其發展的歷史階段和所使用的統計分析方法來看，有傳統的時間序列分析和現代時間序列分析。下文主要介紹傳統的時間序列的分析方法，內容包括時間序列資料的統計和預測方法。

時間序列的分析和預測ARIMA

　　分析的資料來自一個kaggle的比賽資料，是一組維基百科頁面的瀏覽量資料，對資料進行簡單的分析和處理，預測未來的流量．資料包含部分網頁從2015年７月１日到２０１６年１２月３１日的每天的瀏覽量資料，資料有存在缺失，網頁的型別包含多個語種．下面是資料的部分

【原始碼】時間序列分析與預測工具箱（Time Series Analysis and Forecast，TSAF）

時間序列是一組隨時間變化而收集的定量型變數觀測值。比如：道瓊斯工業股價指數、線上銷售、庫存、客戶數量、利率、費用等歷史資料都屬於時間序列。預測時間序列變數對於企業準確掌控運營狀態非常有用。通常，獨立變數不能用來建立時間序列變數的迴歸模型。時間序列分析的特點：

時間序列分析中預測類問題下的建模方案

【說在前面】本人部落格新手一枚，象牙塔的老白，職業場的小白。以下內容僅為個人見解，歡迎批評指正，不喜勿噴！[認真看圖][認真看圖] 【補充說明】時間序列分析主要有兩個方向，一個通過是對歷史資料的分析進行異常檢測和分類，二是進行預測！【補充說明】迴歸分析假設每個資料點都是獨立的，而時間序列分析則是

ARIMA時間序列分析-----Python例項（一週銷售營業額預測）

以ARIMA模型為例介紹時間序列演算法在python中是如何實現的，一下是應用Python語言建模步驟： -- coding: utf-8 -- “”” Created on Mon Apr 2 16:45:36 2018 @author: hou

時間序列分析——ARIMA模型預測(R)

讀取資料(scan()及read.csv()等函式，row.names引數可以用來指定索引列) 觀察檢驗時間序列是否平滑，對不平滑的時間序列要進行差分（diff()函式)，差分的階數=arima(p,d,q)中d引數的值 acf()和 pacf()兩個函式分

基於R語言的簡單時間序列分析預測

資料來源： R語言自帶 co2 資料集分析工具：R-3.5.0 & Rstudio-1.1.453 本篇分析只是一個簡單的教程，不作深究 #清理環境，載入包 rm(list=ls()) library(forecast) library(tseries) #檢視資料 co2 Vi

python時間序列分析（ARIMA模型）

原文地址：https://blog.csdn.net/u011596455/article/details/78650458 轉載請註明出處。什麼是時間序列時間序列簡單的說就是各時間點上形成的數值序列，時間序列分析就是通過觀察歷史資料預測未來的值。在這裡需要

《python資料分析和資料探勘》——時間序列分析學習筆記

時間序列分析給定一個已被觀測了的時間序列，預測該序列的的未來值。重點介紹AR模型、MA模型、ARMA模型和ARIMA模型 1、時間序列的預處理拿到一個觀察值序列後，首先要對它的純隨機性和平穩性進行檢驗，稱之為預處理。在此區別純隨機序列、平穩非白噪聲序列、非平穩序列。純隨機序

[python] 時間序列分析之ARIMA

1 時間序列與時間序列分析在生產和科學研究中，對某一個或者一組變數 x(t) 進行觀察測量，將在一系列時刻 t1,t2,⋯,tn 所得到的離散數字組成的序列集合，稱之為時間序列。時間序列分析是根據系統觀察得到的時間序列資料，通過曲線擬合和引數估計來建立數

python利用LSTM進行時間序列分析預測

　　關鍵詞：python、Keras、LSTM、Time-Series-Prediction 　　　　關於技術理論部分，可以參考這兩篇文章（RNN、LSTM），本文主要從資料、程式碼角度，利用LSTM進行時間序列預測。時間序列（或稱動態數列）是指

python 時間序列分析之ARIMA

1 時間序列與時間序列分析在生產和科學研究中，對某一個或者一組變數 x(t) 進行觀察測量，將在一系列時刻 t1,t2,⋯,tn 所得到的離散數字組成的序列集合，稱之為時間序列。時間序列分析是根據系統觀察得到的時間序列資料，通過曲線擬合和引數估計來建立數學模型的理

乾貨|python利用LSTM進行時間序列分析預測

時間序列（或稱動態數列）是指將同一統計指標的數值按其發生的時間先後順序排列而成的數列。時間序列分析的主要目的是根據已有的歷史資料對未來進行預測。時間序列構成要素：長期趨勢，季節變動，迴圈變動，不規則變動長期趨勢（ T ）現象在較長時期內受某種根本性因素作用而形成的總的變動趨勢

2017.06.9 金融時間序列分析之Eview使用基礎

file 打開操作 span bject 生成 com 工作表時間序列分析一.創建時間序列工作文件：首先將數據轉換為Eviews系統能夠分析的Eviews Workfile數據集 1.創建工作文件：工作文件結構類型：非結構/非日期型；日期-規則頻率型；平衡面板型；

Excel中，時間序列數據預測補全數據

excel 時間序列數據 logs 列數 image images alt 時間序列 blog Excel中，時間序列數據預測補全數據

R語言--時間序列分析步驟

align 如何 -- list arima test bsp nat 建立大白。（1）根據趨勢定差分 plot(lostjob,type="b") 查看圖像總體趨勢，確定如何差分 df1 = diff(lostjob) d=1階差分 s4_df1=diff(df1,

計量經濟與時間序列_時間序列分析的幾個基本概念(自相關函數,偏自相關函數等)

sig 永不均值 blog 那種屬於 class 觀察自相關 1. 在時間序列分析中，數學模型是什麽？數學公式又是什麽？數學推導過程又是什麽？... ... 　　一句話：用數學公式後者符號來表示現實存在的意義。數學是“萬金油”的科學，它是作為工作和分析方法運用到某

時間序列分析

數理統計 bsp 移動分段 gpo 降雨量基礎知識 -s data- 時間序列分析( time series analysis)方法,強調的是通過對一個區域進行一定時間段內的連續遙感觀測，提取圖像有關特征，並分析其變化過程與發展規模。當然，首先需要根據檢測對象的時相變化

時間序列的分析和預測ARIMA

觀察上面的圖表

相關推薦