【Python例項第10講】視覺化股票市場結構

阿新 • • 發佈：2018-11-29

機器學習訓練營——機器學習愛好者的自由交流空間（qq 群號：696721295）

本例採用幾個無監督學習技術，從股票的歷史報價變異裡提取股票市場結構。這裡，我們使用的數量是每日的報價變異。

學習一個圖結構

我們使用稀疏的可逆協方差估計尋找哪些報價是條件相關的，即，給定其它報價下，它們是相關的。特別地，稀疏的可逆協方差估計給出了一個圖，這個圖實際上是一個報價的連線表。對於每一個標記（即報價），與之連線的標記對解釋它的波動情況是有用的。

聚類

我們使用聚類的方法將相似的報價分到一起。具體地，我們使用AP聚類法(Affinity propagation Clustering). AP不要求各類大小相等，而且能根據資料自動確定類數。

聚類與圖的區別在於，圖反映了變數間的條件關係，而聚類反映了邊際屬性，即，被聚在一起的變數對完全的股票市場有相似的影響。

視覺化

我們在一個2D圖裡同時輸出3個模型，圖中的節點代表股票，邊代表：

類標籤被用來定義節點的顏色
稀疏的協方差模型被用來表示節點力
2D嵌入被用來表示節點的位置

這個例子涉及大量的視覺化程式碼，因為視覺化對於圖形表示是重要的。挑戰之一是如何定位標籤的位置，使重疊最少，這樣圖形更清楚可見。為此，我們沿著每個軸的最近鄰方向使用一個啟發式的方法。

例項詳解

首先，載入必需的模組和函式庫。

from __future__ import print_function

# Author: Gael Varoquaux  
[email protected]
# License: BSD 3 clause

import sys
from datetime import datetime

import numpy as np
import matplotlib.pyplot as plt
from matplotlib.collections import LineCollection

import pandas as pd

from sklearn import cluster, covariance, manifold

print(__doc__)

從因特網獲得資料

本例使用的資料來自2003年——2008年的股票市場歷史資料。這種歷史資料能夠從quandl.com

,
alphavantage.co這樣的API獲得。我們將獲得的資料定義成一個數組物件，定義股票變異為收盤價與開盤價的差。

# The data is from 2003 - 2008. This is reasonably calm: (not too long ago so
# that we get high-tech firms, and before the 2008 crash). This kind of
# historical data can be obtained for from APIs like the quandl.com and
# alphavantage.co ones.

start_date = datetime(2003, 1, 1).date()
end_date = datetime(2008, 1, 1).date()

symbol_dict = {
    'TOT': 'Total',
    'XOM': 'Exxon',
    'CVX': 'Chevron',
    'COP': 'ConocoPhillips',
    'VLO': 'Valero Energy',
    'MSFT': 'Microsoft',
    'IBM': 'IBM',
    'TWX': 'Time Warner',
    'CMCSA': 'Comcast',
    'CVC': 'Cablevision',
    'YHOO': 'Yahoo',
    'DELL': 'Dell',
    'HPQ': 'HP',
    'AMZN': 'Amazon',
    'TM': 'Toyota',
    'CAJ': 'Canon',
    'SNE': 'Sony',
    'F': 'Ford',
    'HMC': 'Honda',
    'NAV': 'Navistar',
    'NOC': 'Northrop Grumman',
    'BA': 'Boeing',
    'KO': 'Coca Cola',
    'MMM': '3M',
    'MCD': 'McDonald\'s',
    'PEP': 'Pepsi',
    'K': 'Kellogg',
    'UN': 'Unilever',
    'MAR': 'Marriott',
    'PG': 'Procter Gamble',
    'CL': 'Colgate-Palmolive',
    'GE': 'General Electrics',
    'WFC': 'Wells Fargo',
    'JPM': 'JPMorgan Chase',
    'AIG': 'AIG',
    'AXP': 'American express',
    'BAC': 'Bank of America',
    'GS': 'Goldman Sachs',
    'AAPL': 'Apple',
    'SAP': 'SAP',
    'CSCO': 'Cisco',
    'TXN': 'Texas Instruments',
    'XRX': 'Xerox',
    'WMT': 'Wal-Mart',
    'HD': 'Home Depot',
    'GSK': 'GlaxoSmithKline',
    'PFE': 'Pfizer',
    'SNY': 'Sanofi-Aventis',
    'NVS': 'Novartis',
    'KMB': 'Kimberly-Clark',
    'R': 'Ryder',
    'GD': 'General Dynamics',
    'RTN': 'Raytheon',
    'CVS': 'CVS',
    'CAT': 'Caterpillar',
    'DD': 'DuPont de Nemours'}


symbols, names = np.array(sorted(symbol_dict.items())).T

quotes = []

for symbol in symbols:
    print('Fetching quote history for %r' % symbol, file=sys.stderr)
    url = ('https://raw.githubusercontent.com/scikit-learn/examples-data/'
           'master/financial-data/{}.csv')
    quotes.append(pd.read_csv(url.format(symbol)))

close_prices = np.vstack([q['close'] for q in quotes])
open_prices = np.vstack([q['open'] for q in quotes])

# The daily variations of the quotes are what carry most information
variation = close_prices - open_prices

根據相關性學習圖結構

edge_model = covariance.GraphicalLassoCV(cv=5)

# standardize the time series: using correlations rather than covariance
# is more efficient for structure recovery
X = variation.copy().T
X /= X.std(axis=0)
edge_model.fit(X)

使用AP演算法聚類

_, labels = cluster.affinity_propagation(edge_model.covariance_)
n_labels = labels.max()

for i in range(n_labels + 1):
    print('Cluster %i: %s' % ((i + 1), ', '.join(names[labels == i])))

定位節點的最佳位置

# We use a dense eigen_solver to achieve reproducibility (arpack is
# initiated with random vectors that we don't control). In addition, we
# use a large number of neighbors to capture the large-scale structure.
node_position_model = manifold.LocallyLinearEmbedding(
    n_components=2, eigen_solver='dense', n_neighbors=6)

embedding = node_position_model.fit_transform(X.T).T

視覺化股票結構圖


plt.figure(1, facecolor='w', figsize=(10, 8))
plt.clf()
ax = plt.axes([0., 0., 1., 1.])
plt.axis('off')

# Display a graph of the partial correlations
partial_correlations = edge_model.precision_.copy()
d = 1 / np.sqrt(np.diag(partial_correlations))
partial_correlations *= d
partial_correlations *= d[:, np.newaxis]
non_zero = (np.abs(np.triu(partial_correlations, k=1)) > 0.02)

# Plot the nodes using the coordinates of our embedding
plt.scatter(embedding[0], embedding[1], s=100 * d ** 2, c=labels,
            cmap=plt.cm.nipy_spectral)

# Plot the edges
start_idx, end_idx = np.where(non_zero)
# a sequence of (*line0*, *line1*, *line2*), where::
#            linen = (x0, y0), (x1, y1), ... (xm, ym)
segments = [[embedding[:, start], embedding[:, stop]]
            for start, stop in zip(start_idx, end_idx)]
values = np.abs(partial_correlations[non_zero])
lc = LineCollection(segments,
                    zorder=0, cmap=plt.cm.hot_r,
                    norm=plt.Normalize(0, .7 * values.max()))
lc.set_array(values)
lc.set_linewidths(15 * values)
ax.add_collection(lc)

# Add a label to each node. The challenge here is that we want to
# position the labels to avoid overlap with other labels
for index, (name, label, (x, y)) in enumerate(
        zip(names, labels, embedding.T)):

    dx = x - embedding[0]
    dx[index] = 1
    dy = y - embedding[1]
    dy[index] = 1
    this_dx = dx[np.argmin(np.abs(dy))]
    this_dy = dy[np.argmin(np.abs(dx))]
    if this_dx > 0:
        horizontalalignment = 'left'
        x = x + .002
    else:
        horizontalalignment = 'right'
        x = x - .002
    if this_dy > 0:
        verticalalignment = 'bottom'
        y = y + .002
    else:
        verticalalignment = 'top'
        y = y - .002
    plt.text(x, y, name, size=10,
             horizontalalignment=horizontalalignment,
             verticalalignment=verticalalignment,
             bbox=dict(facecolor='w',
                       edgecolor=plt.cm.nipy_spectral(label / float(n_labels)),
                       alpha=.6))

plt.xlim(embedding[0].min() - .15 * embedding[0].ptp(),
         embedding[0].max() + .10 * embedding[0].ptp(),)
plt.ylim(embedding[1].min() - .03 * embedding[1].ptp(),
         embedding[1].max() + .03 * embedding[1].ptp())

plt.show()

聚類過程：
在這裡插入圖片描述

股票關係結構圖：
在這裡插入圖片描述

閱讀更多精彩內容，請關注微信公眾號：統計學習與大資料

【Python例項第10講】視覺化股票市場結構

機器學習訓練營——機器學習愛好者的自由交流空間（qq 群號：696721295）本例採用幾個無監督學習技術，從股票的歷史報價變異裡提取股票市場結構。這裡，我們使用的數量是每日的報價變異。學習一個圖結構我們使用稀疏的可逆協方差估計尋找哪些報價是條件相關的，即，給

【Python例項第8講】模型複雜度影響

機器學習訓練營——機器學習愛好者的自由交流空間（qq 群號：696721295）本講介紹模型複雜度怎樣影響預測精度和計算效能。我們使用的資料集仍然是波士頓房價資料集。對於模型的每一類，我們通過選擇有關的模型引數，度量計算效能和預測功效的影響，以此考察模型的複雜度。下面，我

【Python例項第7講】真實資料集的異常檢測

機器學習訓練營——機器學習愛好者的自由交流空間（qq 群號：696721295）在這個例子裡，我們闡述在真實資料集上的穩健協方差估計的必要性。這樣的協方差估計，對異常點檢測，以及更好地理解資料結構都是有益的。為了方便資料視覺化，我們選擇來自波士頓房價資料集的兩個變數

【Python例項第9講】物種分佈模型

機器學習訓練營——機器學習愛好者的自由交流空間（qq 群號：696721295）建立物種的地理分佈模型，是保護生物學的一個重要問題。在這個例子裡，我們將根據已有的歷史觀測和14個環境變數，建立兩個南美洲哺乳動物類的地理分佈模型。這兩個物種分別是：褐喉樹懶(B

【Python例項第15講】分類概率圖

機器學習訓練營——機器學習愛好者的自由交流空間（qq 群號：696721295）這個例子將用圖形表示不同分類器的分類概率。所謂“分類概率”，是指某個資料點屬於各個類別的概率。將所有資料點屬於任何類的概率，用顏色深淺表示，作出分類概率圖。在這裡，我們使用一個三類的資料

【Python例項第14講】普通判別分析與縮水判別分析

機器學習訓練營——機器學習愛好者的自由交流空間（qq 群號：696721295）這個例子說明在判別分析裡使用縮水(shrinkage)的方法，可以提高分類的準確率。所謂“縮水”，是指減少預測的特徵。我們使用的資料集是模擬資料，你也可以在真實資料集上驗證縮水判別分析的分類效

【Python例項第13講】識別手寫數字

機器學習訓練營——機器學習愛好者的自由交流空間（qq 群號：696721295）這個例子顯示怎樣使用scikit-learn識別手寫數字影象。關於手寫數字資料集的詳細介紹，請看《Python例項第3講》。例項詳解首先，載入matplotlib.pyplot繪相

【Python例項第12講】譜系共聚類法

機器學習訓練營——機器學習愛好者的自由交流空間（qq 群號：696721295）這個例子演示如何產生一個數據集，並且用譜系共聚類法(Spectral Co-Clustering algorithm)對它進行雙向聚類。所謂“雙向聚類”，是指對變數和例項同時聚類。這裡，

【Python例項第11講】文字的核外分類

機器學習訓練營——機器學習愛好者的自由交流空間（qq 群號：696721295）這個例子顯示scikit-learn怎樣進行OOC(out-of-core)分類。所謂核外方法(OOC approach), 指的是從未經記憶體的資料學習。在這裡，我們利用一個支援partia

【Python例項第20講】手寫數字識別問題的K-Means聚類

機器學習訓練營——機器學習愛好者的自由交流空間（qq 群號：696721295）在這個例子裡，我們在手寫數字識別資料集上，比較 K-means 聚類演算法對於不同的初始化策略對執行時間和結果質量的影響。我們也利用不同的聚類質量測度判別聚類標籤對於參考標籤的擬合優度。這裡使

【Python例項第18講】affinity propagation聚類演算法

機器學習訓練營——機器學習愛好者的自由交流空間（qq 群號：696721295）在統計和資料探勘裡，affinity propagation(AP)是一種基於資料點之間的“資訊傳遞”的聚類演算法。與k-means等其它聚類演算法不同的是，AP不需要在聚類前確定或估計類的個

【Python例項第17講】均值偏移聚類演算法

機器學習訓練營——機器學習愛好者的自由交流空間（qq 群號：696721295）均值偏移(mean shift)是一個非引數特徵空間分析技術，用來尋找密度函式的最大值點。它的應用領域包括聚類分析和影象處理等。均值偏移演算法均值偏移是一個迭代地求密度函式極值點的

【Python例項第16講】特徵集聚

機器學習訓練營——機器學習愛好者的自由交流空間（qq 群號：696721295）本例演示如何使用特徵集聚(feature agglomeration)將相似的特徵合併到一起。所謂“特徵集聚”，是指迭代地將相似的特徵合併到一起，類似於聚類，但這裡聚的是特徵而不是樣本。本例使

【Python例項第21講】確定類個數的silhouette分析法

機器學習訓練營——機器學習愛好者的自由交流空間（qq 群號：696721295）在聚類問題中，Silhouette分析用來研究聚類結果的類間距離。Silhouette數值度量在相同類中的點，與不同類中的點相比的緊密程度。Silhouette圖視覺化這一測度，這樣就提供了一

【UE4】第10講 Matinee相機過場動畫

（版權宣告，禁止轉載） &

【2017CS231n】第十二講：視覺化和理解卷積神經網路

一.特徵視覺化1.1理解神將網路的層下面我們瞭解一下神經網路內部發生了什麼。第一層：第一個卷積層由一個卷積核組成在AlexNet中第一個卷積層由許多卷積核組成，每個卷積核的形狀是3*11*11，卷積核在影象上來回滑動，我們取影象塊和卷積核權重的內積，這就是第一

【python 第10日】打飛機的小遊戲

安裝pygame 首先安裝pip， python -m ensurepip --default-pip 或者下載安裝包安裝安裝完pip，安裝模組可以python -m pip install Packagename 也可以直接pip install Pack

【python下使用OpenCV實現計算機視覺讀書筆記2】圖像與字節的變換

ng- == color and pytho avi data- imwrite center import cv2 import numpy import os # Make an array of 120,000 ran

【第10天】Java面向物件的高階特徵（修飾符的介紹）

1 訪問許可權 2 static 2.1 靜態成員 2.2 程式碼塊 2.3 載入順序 3 final 4 abstract 1 訪問許可權修飾符：（√：可訪問

【python自動化第八篇：網路程式設計】

一、拾遺動態匯入模組　　目的是為了在匯入模組的過程中將模組以字元的格式匯入。 1 2 3 4 5 6 7 8 9 #!/usr/bin/env python # -*- coding:utf-8 -*- #Author:wanghu

【Python例項第10講】視覺化股票市場結構

學習一個圖結構

聚類

視覺化

例項詳解

從因特網獲得資料

根據相關性學習圖結構

使用AP演算法聚類

定位節點的最佳位置

視覺化股票結構圖

相關推薦