python資料分析學習筆記七

阿新 • • 發佈：2019-01-15

第七章訊號處理與時間序列

（需要統計學知識）

1 statsmodels 子庫

示例程式碼如下

import pkgutil as pu
import pydoc
import statsmodels as sm

# statmodels版本號
print("statmodels version", sm.__version__)


def clean(astr):
    s = astr
    # remove multiple spaces
    s = ' '.join(s.split())
    s = s.replace('=', '')

    return s


 
def print_desc(prefix, pkg_path):
    print("pkg_path", pkg_path)
    '''
    :param prefix: 模組名稱
    :param pkg_path:模組包路徑
    :return:
    '''
    for pkg in pu.iter_modules(path=pkg_path):
        '''Yields (module_loader,模組
         name,子庫名
         ispkg)是否'''
        print("pkg", pkg)
        name = prefix +  
"." + pkg[1]

        # 輸出子庫名,幫助文件資訊
        if pkg[2] == True:
            try:
                docstr = pydoc.plain(pydoc.render_doc(name))
                docstr = clean(docstr)
                start = docstr.find("DESCRIPTION")
                docstr = docstr[start: start + 140]
                print 
(name, docstr)
            except:
                continue


print_desc("statsmodels", sm.__path__)

執行結果如下:

statmodels version 0.8.0rc1

statsmodels.base

statsmodels.compat

statsmodels.datasets

statsmodels.discrete

statsmodels.distributions

statsmodels.duration

statsmodels.emplike

statsmodels.formula

statsmodels.genmod

statsmodels.graphics

statsmodels.imputation

statsmodels.interface

statsmodels.iolib

statsmodels.miscmodels

statsmodels.multivariate

statsmodels.nonparametric DESCRIPTION Foran overview of this module, see docs/source/nonparametric.rst PACKAGE CONTENTS_kernel_base _smoothers_lowess api bandwidths

statsmodels.regression

statsmodels.resampling

statsmodels.robust

statsmodels.sandbox

statsmodels.src

statsmodels.stats

statsmodels.tools

statsmodels.tsa

2 移動平均值

示例程式碼如下:

import matplotlib.pyplot as plt
import statsmodels.api as sm
from pandas.stats.moments import rolling_mean

data_loader = sm.datasets.sunspots.load_pandas()
df = data_loader.data

year_range = df['YEAR'].values
plt.plot(year_range, df["SUNACTIVITY"].values, label="Original")
plt.plot(year_range, rolling_mean(df, 11)["SUNACTIVITY"].values, label="SMA 11")
plt.plot(year_range, rolling_mean(df, 22)["SUNACTIVITY"].values, label="SMA 22")
plt.legend()
plt.show()

方法二:

import matplotlib.pyplot as plt
import statsmodels.api as sm
from pandas.stats.moments import rolling_mean
import pandas.core.generic

data_loader = sm.datasets.sunspots.load_pandas()
df = data_loader.data
df11 = data_loader.data.rolling(window=11, center=False).mean()
df22 = data_loader.data.rolling(window=22, center=False).mean()
year_range = df['YEAR'].values
plt.plot(year_range, df["SUNACTIVITY"].values, label="Original")
# plt.plot(year_range, rolling_mean(df, window=11, center=False)["SUNACTIVITY"].values, label="SMA 11")
# plt.plot(year_range, rolling_mean(df, window=22, center=False)["SUNACTIVITY"].values, label="SMA 22")
plt.plot(year_range, df11["SUNACTIVITY"].values, label="SMA 11")
plt.plot(year_range, df22["SUNACTIVITY"].values, label="SMA 22")
plt.legend()
plt.show()

執行結果如下:

3 視窗函式

是定義在一個區間(視窗)上的函式,超出定義,函式值取零,可以用來分析頻譜,設計濾波器

import matplotlib.pyplot as plt
import statsmodels.api as sm
from pandas.stats.moments import rolling_window
import pandas as pd

data_loader = sm.datasets.sunspots.load_pandas()
# 從尾部取150行
df = data_loader.data.tail(150)

df = pd.DataFrame({"SUNACTIVITY": df['SUNACTIVITY'].values}, index=df['YEAR'])
ax = df.plot()


def plot_window(win_type):
    # df2 = rolling_window(df, 22, win_type)
    df2 = df.rolling(window=22, win_type=win_type).mean()
    df2.columns = [win_type]
    # 顯示原始資料
    df2.plot(ax=ax)


# 矩形視窗
plot_window("boxcar")
# 三角形視窗
plot_window("triang")
# 布萊克曼視窗
plot_window("blackman")
# 漢寧窗
plot_window("hanning")
# 巴特萊特窗
plot_window("bartlett")
# 顯示網格
plt.grid()
plt.show()

執行結果如下:

4 協整的定義

示例程式碼如下:

import statsmodels.api as sm
from pandas.stats.moments import rolling_window
import pandas as pd
import statsmodels.tsa.stattools as ts
import numpy as np


# 用來計算ADF統計量
def calc_adf(x, y):
    result = sm.OLS(x, y).fit()
    return ts.adfuller(result.resid)


# 太陽黑子資料載入到numpy陣列
data_loader = sm.datasets.sunspots.load_pandas()
data = data_loader.data.values
N = len(data)

# 計算正弦值,求出該值與自身的協整關係
t = np.linspace(-2 * np.pi, 2 * np.pi, N)
sine = np.sin(np.sin(t))
print('Self ADF', calc_adf(sine, sine))

# 給正弦波新增噪音
noise = np.random.normal(0, .01, N)
print('ADF sine with noise', calc_adf(sine, sine + noise))

# 生成一個幅值和偏移量更大的餘弦波,並混入噪音
cosine = 100 * np.cos(t) + 10
print('ADF sine vs cosine with noise', calc_adf(sine, cosine + noise))
# 正弦與太陽黑子
print('Sine vs sunspots', calc_adf(sine, data))

執行結果如下:

Self ADF (2.1752959320935576e-16,

0.95853208606005602,

308,

{'10%': -2.5717944160060719,

'1%': -3.4517611601803702,

'5%': -2.8709700936076912},

-21598.896016765088)

ADF sine with noise (-11.80572756306368,

9.1062110841151392e-22,

306,

{'10%': -2.5718274501260199,

'1%': -3.4519023023726696,

'5%': -2.8710320399170537},

-1857.1417094083959)

ADF sine vs cosine with noise(-6.9222457355201135,

1.1386106445203264e-09,

16,

292,

{'10%': -2.5720714378870331,

'1%': -3.4529449243622383,

'5%': -2.8714895534256861},

-10180.957513197414)

Sine vs sunspots (-6.7242691810700963,

3.4210811915549913e-09,

16,

292,

{'10%': -2.5720714378870331,

'1%': -3.4529449243622383,

'5%': -2.8714895534256861},

-1102.5867415291168)

5 自相關

資料集內部的相關性,可以用來指明趨勢

示例程式碼如下:

import numpy as np
import pandas as pd
import statsmodels.api as sm
import matplotlib.pyplot as plt
from pandas.tools.plotting import autocorrelation_plot

# 讀入測試資料
data_loader = sm.datasets.sunspots.load_pandas()
data = data_loader.data['SUNACTIVITY'].values

# 計算自相關值
y = data - np.mean(data)
norm = np.sum(y ** 2)
correlated = np.correlate(y, y, mode='full') / norm
res = correlated[len(correlated) / 2:]

# 關聯度最高值的索引
print(np.argsort(res)[-5:])
# 結果為[ 9 11 10  1  0]

# 繪製圖形
plt.plot(res)
plt.grid(True)
plt.xlabel('Lag')
plt.ylabel('Autocorrelation')
plt.show()

# 使用pandas繪製
autocorrelation_plot(data)
plt.show()

執行結果如下:

使用pandas繪製

6 自迴歸模型

可用於預測時間序列將來的值

一元線性迴歸的計算公式(因變數y與自變數x之間的線性關係)

β0和β1為模型的引數

ε誤差項一個期望值為0的隨機變數

迴歸方程

E(y)=β0+β1x

自加歸模型的數學公式

示例程式碼如下：

from scipy.optimize import leastsq
import statsmodels.api as sm
import matplotlib.pyplot as plt
import numpy as np


# 搭建模型程式碼
def model(p, x1, x10):
    p1, p10 = p
    return p1 * x1 + p10 * x10


def error(p, data, x1, x10):
    return data - model(p, x1, x10)


# 給引數表賦值
def fit(data):
    p0 = [.5, 0.5]
    params = leastsq(error, p0, args=(data[10:], data[9:-1], data[:-10]))[0]
    return params


# 載入資料
data_loader = sm.datasets.sunspots.load_pandas()
sunspots = data_loader.data['SUNACTIVITY'].values
print(sunspots)

# 訓練模型
cutoff = .9 * len(sunspots)
params = fit(sunspots[:cutoff])
print('Params', params)

# 取得各個指標的值
pred = params[0] * sunspots[cutoff - 1:-1] + params[1] * sunspots[cutoff - 10:-10]
actual = sunspots[cutoff:]
print('Root mean square error', np.sqrt(np.mean(actual - pred) ** 2))
print('Mean absolute error ', np.mean(np.abs(actual - pred)))
print('Mean absolute percentage error', 100 * np.mean(np.abs(actual - pred) / actual))
mid = (actual + pred) / 2
print('Symmetric Mean absolute percentage error', 100 * np.mean(np.abs(actual - pred) / mid))
print('Cofficient of determination', 1 - ((actual - pred) ** 2).sum() / ((actual - actual.mean()) ** 2).sum())
year_range = data_loader.data['YEAR'].values[cutoff:]

# 繪製圖像
# 太陽黑子活動數值
plt.plot(year_range, actual, 'o', label='Sunspots')
# 預測值
plt.plot(year_range, pred, 'x', label='Prediction')
plt.grid(True)
plt.xlabel('YEAR')
plt.ylabel('SUNACTIVITY')
plt.legend()
plt.show()

執行結果如下:

Params [ 0.67172672 0.33626295]

Root mean square error 1.02884848439

Mean absolute error 17.6515446503

Mean absolute percentage error60.7817800736

Symmetric Mean absolute percentage error34.9843386176

Cofficient of determination 0.799940292779

7 ARMA模型

由自迴歸模型和移動平均模型結合而成,用於時間序列的預測

示例程式碼如下：

import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.api as sm
import datetime

# 載入資料
data_loader = sm.datasets.sunspots.load_pandas()
df = data_loader.data

# 擬合數據
years = df['YEAR'].values.astype(int)
str(years[0])
df.index = pd.Index(sm.tsa.datetools.dates_from_range(str(years[0]), str(years[-1])))

del df['YEAR']
# 預測資料
model = sm.tsa.ARMA(df, (10, 1)).fit()
prediction = model.predict('1975', str(years[-1]), dynamic=True)

# 繪製資料
# 太陽黑子活動資料
df['1975':].plot()
# 預測資料
prediction.plot(style='--', label='Prediction')
plt.grid(True)
plt.legend()
plt.show()

執行結果如下：

8 生成周期訊號

示例程式碼如下：

from scipy.optimize import leastsq
import statsmodels.api as sm
import matplotlib.pyplot as plt
import numpy as np


# 搭建模型
def model(p, t):
    C, p1, f1, phi1, p2, f2, phi2, p3, f3, phi3 = p
    return C + p1 * np.sin(f1 * t + phi1) + p2 * np.sin(f2 * t + phi2) + p3 * np.sin(f3 * t + phi3)


def error(p, y, t):
    return y - model(p, t)


# 給引數表賦值
def fit(y, t):
    p0 = [y.mean(), 0, 2 * np.pi / 11, 0, 0, 2 * np.pi / 22, 0, 0, 2 * np.pi / 100, 0]
    params = leastsq(error, p0, args=(y, t))[0]
    return params


# 載入資料
data_loader = sm.datasets.sunspots.load_pandas()
sunspots = data_loader.data["SUNACTIVITY"].values
years = data_loader.data["YEAR"].values

# 訓練模型
cutoff = .9 * len(sunspots)
params = fit(sunspots[:cutoff], years[:cutoff])
print("Params", params)

# 取得各個指標的值
pred = model(params, years[cutoff:])
actual = sunspots[cutoff:]
print("Root mean square error", np.sqrt(np.mean((actual - pred) ** 2)))
print("Mean absolute error", np.mean(np.abs(actual - pred)))
print("Mean absolute percentage error", 100 * np.mean(np.abs(actual - pred) / actual))
mid = (actual + pred) / 2
print("Symmetric Mean absolute percentage error", 100 * np.mean(np.abs(actual - pred) / mid))
print("Coefficient of determination", 1 - ((actual - pred) ** 2).sum() / ((actual - actual.mean()) ** 2).sum())
year_range = data_loader.data["YEAR"].values[cutoff:]

# 繪製圖形
plt.plot(year_range, actual, 'o', label="Sunspots")
plt.plot(year_range, pred, 'x', label="Prediction")
plt.grid(True)
plt.xlabel("YEAR")
plt.ylabel("SUNACTIVITY")
plt.legend()
plt.show()

執行結果如下：

Params [ 47.18800156 28.89947466 0.56827281 6.51174621 4.55214731

0.29372076 -14.3092358 -18.16524066 0.06574835 -4.37789397]

Root mean square error 59.5619988827

Mean absolute error 44.581532168 #平均絕結誤差

Mean absolute percentage error65.1643378479

Symmetric Mean absolute percentage error78.4479302694

Coefficient of determination-0.363528934815 #判定係數應儘量接近於1

9 傅量葉分析

FFT (fast fourier transform)快速傅立葉變換

示例程式碼如下：

import numpy as np
import statsmodels.api as sm
import matplotlib.pyplot as plt
from scipy.fftpack import rfft
from scipy.fftpack import fftshift

# 載入資料
data_loader = sm.datasets.sunspots.load_pandas()
sunspots = data_loader.data["SUNACTIVITY"].values

# 建立一個正弦波
t = np.linspace(-2 * np.pi, 2 * np.pi, len(sunspots))
mid = np.ptp(sunspots) / 2
sine = mid + mid * np.sin(np.sin(t))

sine_fft = np.abs(fftshift(rfft(sine)))
# 最大振幅的相應索引
print("Index of max sine FFT", np.argsort(sine_fft)[-5:])

# 對太陽黑子進行 fft
transformed = np.abs(fftshift(rfft(sunspots)))
print("Indices of max sunspots FFT", np.argsort(transformed)[-5:])

# 太陽黑子活動資料和sine函式
plt.subplot(311)
plt.plot(sunspots, label="Sunspots")
plt.plot(sine, lw=2, label="Sine")
plt.grid(True)
plt.legend()

# 傅立葉變換後的太陽黑子活動資料
plt.subplot(312)
plt.plot(transformed, label="Transformed Sunspots")
plt.grid(True)
plt.legend()

# 傅立葉變換後的sine函式
plt.subplot(313)
plt.plot(sine_fft, lw=2, label="Transformed Sine")
plt.grid(True)
plt.legend()

plt.show()

執行結果如下：

Index of max sine FFT [160 157 166 158 154]

Indices of max sunspots FFT [205 212 215209 154]

10 譜分析

功率頻譜

示例程式碼如下：

import numpy as np
import statsmodels.api as sm
import matplotlib.pyplot as plt
from scipy.fftpack import rfft
from scipy.fftpack import fftshift

# 載入資料
data_loader = sm.datasets.sunspots.load_pandas()
sunspots = data_loader.data["SUNACTIVITY"].values

# 建立一個正弦波
t = np.linspace(-2 * np.pi, 2 * np.pi, len(sunspots))
mid = np.ptp(sunspots) / 2
sine = mid + mid * np.sin(np.sin(t))

# 對正弦波進行FFT
sine_fft = np.abs(fftshift(rfft(sine)))
# 最大振幅的相應索引
print("Index of max sine FFT", np.argsort(sine_fft)[-5:])

# 對太陽黑子進行 fft
transformed = fftshift(rfft(sunspots))
print("Indices of max sunspots FFT", np.argsort(transformed)[-5:])

# 太陽黑子活動資料和sine函式
plt.subplot(311)
plt.plot(sunspots, label="Sunspots")
plt.plot(sine, lw=2, label="Sine")
plt.grid(True)
plt.legend()

# 繪製功率頻譜
plt.subplot(312)
plt.plot(transformed ** 2, label="Power Spectrum")
plt.grid(True)
plt.legend()

# 相位譜,正弦函式的起始角
plt.subplot(313)
plt.plot(np.angle(transformed), label="Phase Spectrum")
plt.grid(True)
plt.legend()

plt.show()

執行結果如下：

11 濾波

是一種訊號處理技術,可以對訊號的某些部分進行刪減或抑制，可以對高頻或是低頻進行濾波

中值濾波

Wiener濾波

Detrend濾波

示例程式碼如下：

import statsmodels.api as sm
import matplotlib.pyplot as plt
from scipy.signal import medfilt
from scipy.signal import wiener
from scipy.signal import detr

python資料分析學習筆記七

第七章訊號處理與時間序列（需要統計學知識） 1 statsmodels 子庫示例程式碼如下 import pkgutil as pu import pydoc import statsmodels as sm # statmodels版本號 print("statm

Python資料分析學習筆記（1）numpy模組基礎入門

numpy模組可以進行高效的資料處理，並提供了陣列的支援，很多模組都依賴他，比如pandas、scipy、matplotlib等，因此這個模組是基礎。（1）匯入： import numpy （2）建立一維和二維陣列： #建立一維陣列 x=numpy.

Python資料分析學習筆記（6）資料規約實戰--以主成分分析PCA為例

一、相關理論： 1、資料規約：產生更小且保持資料完整性的新資料集。意義在於降低無效、錯誤資料；降低儲存成本；少量且具有代表性的資料大幅加快，主要分為以下兩類： ①屬性規約：屬性合併或刪除無關維，目標是尋找最小子集使子集概率分佈儘可能與原來相同。常用方法：（

Python資料分析學習筆記——DataFrame(還在更新中)

pandas的官方文件 1.DataFrame DataFrame是一個表格型的資料結構，它含有一組有序的列，每列可以是不同的值型別（數值、字串、布林值等）。DataFrame既有行索引也有列索引，它可以被看做由Series組成的字典（共用同一個索引）。 DataFrame可以通過類

python 資料分析學習筆記（第三章）

boxplot 箱形圖 catering_sale = '../data/catering_sale.xls' #餐飲資料 data = pd.read_excel(catering_sa

python資料分析學習筆記九

第九章分析文字資料和社交媒體 1 安裝nltk 略 2 濾除停用字姓名和數字示例程式碼如下: import nltk # 載入英語停用字語料 sw = set(nltk.corpus.stopwords.words('english')) print('Sto

資料分析學習筆記（七）-- 股價分析

本例子，通過numpy分析股價 csv檔案讀寫 CSV（Comma-Separated Value，逗號分隔值）是一種常見的檔案格式，通常資料庫的轉存檔案就是csv格式，檔案中的各個欄位對應於資料庫表中的列。這裡有一份csv格式的檔案，本文一該檔案資

利用python進行資料分析學習筆記-Pandas篇

無論如何，堅持啊！ pandas的資料結構 Series obj = Series([]) #產生一個Series obj = Series({})#可以通過引入一個dict來建立一個Series 包括values和index兩個屬性，而valu

學習Python資料分析隨手筆記【三】numpy陣列的函式ix_()

今天我去圖書館借了一本Python DataAnalysis的書那今天來說一個關於numpy庫的內容。當然課本給出的是著名的lena圖片。不過在pycharm上執行的時候發現它報錯了。隨即就去查看了scipy的檔案搜尋了半天。原來在新版本的scipy中已經將lena移除，不

資料分析學習筆記part_4

資料分析 Lesson 4 : 統計學描述性統計學 - 第一部分資料型別數值型別數值資料採用允許我們執行數學運算（例如計算狗的數量）的數值。分類資料分類資料用於標記一個群體或一組條目（例如狗的品種 —— 牧羊

資料分析學習筆記part_1

資料分析 Lesson 1 : SQL初探 SQL和移動平均值 SQL簡介實體關係圖(ERD) 是檢視資料庫中資料的常用方式。下面是我們將用於 Parch & Posey 資料庫的 ERD。包括：1. 表的名稱 2. 每個表中的列 3. 表配合工作的方式。如下圖所

Python資料分析學習路徑圖

本文摘自同行說使用者“風一樣的男子”，原文連結：http://www.yidianzixun.com/n/0CAz84ve?s=1&appid=yidian，如涉及版權問題請及時聯絡小編！ Python是一種面向物件、直譯式計算機程式設計語言，由Guido van Rossum於1989

資料分析學習筆記(1):工作環境以及建模理論基礎

一、環境部署　　1.python包管理：　　　　(1)安裝：pip install xxx,conda install xxx 　　　　(2)解除安裝：pip uninstall xxx,　　conda uninstall xxx 　　　　(3)升級：pip install -upgrade xx

大資料分析學習筆記（Z檢驗，分類器以及Association Rule）

大資料分析學習筆記（Z檢驗，分類器以及Association Rule） Task 1 – Hypothesis Testing To improve student learning performance, a teacher developed two new learning app

spark快速大資料分析學習筆記（1）

本文是《spark快速大資料分析學習》第三章學習筆記，文中大量摘抄書中原本，僅為個人學習筆記。 RDD基礎： RDD是一個不可變的分散式物件集合。每個RDD都被分為多個分割槽，這個分割槽執行在叢集的不同節點上。RDD可以包含Python、Java、Scala中任意型別的物件。建立RDD的方式：

史上最全Python資料分析學習路徑圖

Python是一種面向物件、直譯式計算機程式設計語言，由Guido van Rossum於1989年底發明。由於他簡單、易學、免費開源、可移植性、可擴充套件性等特點，Python又被稱之為膠水語言。下圖為主要程式語言近年來的流行趨勢，Python受歡迎程度扶搖直上。圖

Python資料爬蟲學習筆記（13）爬取微信文章資料

一、需求：在微信搜尋網站中,通過設定搜尋關鍵詞以及搜尋頁面數，爬取出所有符合條件的微信文章：二、搜尋頁URL分析階段： 1、在搜尋框中輸入任意關鍵詞，在出現的搜尋結果頁面點選下一頁，將每一頁的URL複製下來進行觀察： 2、注意到頁碼由page=X決定，搜尋關鍵

原 Python資料爬蟲學習筆記（15）Scrapy常見命令及專案檔案介紹

一、Scrapy常見命令提示符CMD命令：（1）scrapy -h 檢視指令幫助。（2）scrapy fetch http://baidu.com 直接爬取特定網頁。（3）scrapy runspider scrapytest.py 執行特定爬蟲（前提要使用cd

Python資料爬蟲學習筆記（17）Scrapy糗事百科自動爬蟲

一、需求：在糗事百科主頁下，無需設定頁碼，自動爬取所有段子詳情頁的段子完整內容。（1）糗事百科主頁：（2）段子詳情頁：二、Scrapy實現思路：在糗事百科主頁上自動提取出所有段子的詳情連結，在每個段字詳情頁中爬取段子內容。三、網頁原始

Python資料爬蟲學習筆記（21）爬取京東商品JSON資訊並解析

一、需求：有一個通過抓包得到的京東商品的JSON連結，解析該JSON內容，並提取出特定id的商品價格p，json內容如下： jQuery923933([{"op":"7599.00","m":"9999.00","id":"J_5089253","p":"7099.00"}

python資料分析學習筆記七

相關推薦