基於Keras的attention實戰

阿新 • • 發佈：2019-01-13

要點：
該教程為基於Kears的Attention實戰，環境配置：
Wn10+CPU i7-6700
Pycharm 2018
python 3.6
numpy 1.14.5
Keras 2.0.2
Matplotlib 2.2.2
強調：各種庫的版本型號一定要配置對，因為Keras以及Tensorflow升級更新比較頻繁，很多函式更新後要麼更換了名字，要麼沒有這個函數了，所以大家務必重視。
相關程式碼我放在了我的程式碼倉庫裡哈，歡迎大家下載，這裡附上地址：基於Kears的Attention實戰
筆者資訊：Next_Legend QQ:1219154092 人工智慧自然語言處理影象處理神經網路
——2018.8.21於天津大學

一、導讀

最近兩年，尤其在今年，注意力機制(Attention)及其變種Attention逐漸熱了起來，在很多頂會Paper中都或多或少的用到了attention,所以小編出於好奇，整理了這篇基於Kears的Attention實戰，本教程僅從程式碼的角度來看Attention。通過一個簡單的例子，探索Attention機制是如何在模型中起到特徵選擇作用的。

二、程式碼實戰（一）

1、匯入相關庫檔案

import numpy as np
from attention_utils import get_activations, get_data

np.random.seed(1337 
)  # for reproducibility
from keras.models import *
from keras.layers import Input, Dense, merge
import tensorflow as tf

2、資料生成函式

def get_data(n, input_dim, attention_column=1):
    """
    Data generation. x is purely random except that it's first value equals the target y.
    In practice, the network should learn that the target = x[attention_column].
    Therefore, most of its attention should be focused on the value addressed by attention_column.
    :param n: the number of samples to retrieve.
    :param input_dim: the number of dimensions of each element in the series.
    :param attention_column: the column linked to the target. Everything else is purely random.
    :return: x: model inputs, y: model targets
    """ 

    x = np.random.standard_normal(size=(n, input_dim))
    y = np.random.randint(low=0, high=2, size=(n, 1))
    x[:, attention_column] = y[:, 0]
    return x, y

3、模型定義函式

將輸入進行一次變換後，計算出Attention權重，將輸入乘上Attention權重，獲得新的特徵。

def build_model():
    inputs = Input(shape=(input_dim,))

    # ATTENTION PART STARTS HERE
    attention_probs = Dense(input_dim, activation='softmax', name='attention_vec')(inputs)
    attention_mul =merge([inputs, attention_probs], output_shape=32, name='attention_mul', mode='mul')
    # ATTENTION PART FINISHES HERE

    attention_mul = Dense(64)(attention_mul)
    output = Dense(1, activation='sigmoid')(attention_mul)
    model = Model(input=[inputs], output=output)
    return model

4、主函式

if __name__ == '__main__':
    N = 10000
    inputs_1, outputs = get_data(N, input_dim)

    m = build_model()
    m.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
    print(m.summary())

    m.fit([inputs_1], outputs, epochs=20, batch_size=64, validation_split=0.5)

    testing_inputs_1, testing_outputs = get_data(1, input_dim)

    # Attention vector corresponds to the second matrix.
    # The first one is the Inputs output.
    attention_vector = get_activations(m, testing_inputs_1,
                                       print_shape_only=True,
                                       layer_name='attention_vec')[0].flatten()
    print('attention =', attention_vector)

    # plot part.
    import matplotlib.pyplot as plt
    import pandas as pd

    pd.DataFrame(attention_vector, columns=['attention (%)']).plot(kind='bar',
                                                                   title='Attention Mechanism as '
                                                                         'a function of input'
                                                                         ' dimensions.')
    plt.show()

5、執行結果

程式碼中，attention_column為1，也就是說，label只與資料的第1個特徵相關。從執行結果中可以看出，Attention權重成功地獲取了這個資訊。

三、程式碼實戰（二）

1、匯入相關庫檔案

from keras.layers import merge
from keras.layers.core import *
from keras.layers.recurrent import LSTM
from keras.models import *

from attention_utils import get_activations, get_data_recurrent
INPUT_DIM = 2
TIME_STEPS = 20
# if True, the attention vector is shared across the input_dimensions where the attention is applied.
SINGLE_ATTENTION_VECTOR = False
APPLY_ATTENTION_BEFORE_LSTM = False

2、資料生成函式

def attention_3d_block(inputs):
    # inputs.shape = (batch_size, time_steps, input_dim)
    input_dim = int(inputs.shape[2])
    a = Permute((2, 1))(inputs)
    a = Reshape((input_dim, TIME_STEPS))(a) # this line is not useful. It's just to know which dimension is what.
    a = Dense(TIME_STEPS, activation='softmax')(a)
    if SINGLE_ATTENTION_VECTOR:
        a = Lambda(lambda x: K.mean(x, axis=1), name='dim_reduction')(a)
        a = RepeatVector(input_dim)(a)
    a_probs = Permute((2, 1), name='attention_vec')(a)
    output_attention_mul = merge([inputs, a_probs], name='attention_mul', mode='mul')
    return output_attention_mul

def model_attention_applied_after_lstm():
    inputs = Input(shape=(TIME_STEPS, INPUT_DIM,))
    lstm_units = 32
    lstm_out = LSTM(lstm_units, return_sequences=True)(inputs)
    attention_mul = attention_3d_block(lstm_out)
    attention_mul = Flatten()(attention_mul)
    output = Dense(1, activation='sigmoid')(attention_mul)
    model = Model(input=[inputs], output=output)
    return model

def model_attention_applied_before_lstm():
    inputs = Input(shape=(TIME_STEPS, INPUT_DIM,))
    attention_mul = attention_3d_block(inputs)
    lstm_units = 32
    attention_mul = LSTM(lstm_units, return_sequences=False)(attention_mul)
    output = Dense(1, activation='sigmoid')(attention_mul)
    model = Model(input=[inputs], output=output)
    return model

4、主函式

 if __name__ == '__main__':

    N = 300000
    # N = 300 -> too few = no training
    inputs_1, outputs = get_data_recurrent(N, TIME_STEPS, INPUT_DIM)

    if APPLY_ATTENTION_BEFORE_LSTM:
        m = model_attention_applied_before_lstm()
    else:
        m = model_attention_applied_after_lstm()

    m.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
    print(m.summary())

    m.fit([inputs_1], outputs, epochs=1, batch_size=64, validation_split=0.1)

    attention_vectors = []
    for i in range(300):
        testing_inputs_1, testing_outputs = get_data_recurrent(1, TIME_STEPS, INPUT_DIM)
        attention_vector = np.mean(get_activations(m,
                                                   testing_inputs_1,
                                                   print_shape_only=True,
                                                   layer_name='attention_vec')[0], axis=2).squeeze()
        print('attention =', attention_vector)
        assert (np.sum(attention_vector) - 1.0) < 1e-5
        attention_vectors.append(attention_vector)

    attention_vector_final = np.mean(np.array(attention_vectors), axis=0)
    # plot part.
    import matplotlib.pyplot as plt
    import pandas as pd

    pd.DataFrame(attention_vector_final, columns=['attention (%)']).plot(kind='bar',
                                                                         title='Attention Mechanism as '
                                                                               'a function of input'
                                                                               ' dimensions.')
    plt.show()

基於Keras的attention實戰

一、導讀

二、程式碼實戰（一）

1、匯入相關庫檔案

2、資料生成函式

3、模型定義函式

4、主函式

5、執行結果

三、程式碼實戰（二）

1、匯入相關庫檔案

2、資料生成函式

4、主函式

AngularJS進階(三十九)基於專案實戰解析ng啟動載入過程

AngularJS進階三十九基於專案實戰解析ng啟動載入過程

基於OpenLayers實戰地理資訊系統（離線地圖，通過基站轉經緯度，Quartz深入，軌跡實戰）

基於OpenLayers實戰地理資訊系統視訊

電子書 flaskweb開發：基於Python的Web應用開發實戰.pdf

Android實戰簡易教程-第二十六槍（基於ViewPager實現微信頁面切換效果）

【推薦系統實戰】：C++實現基於用戶的協同過濾（UserCollaborativeFilter）

Linux實戰第五篇：RHEL7.3下Nginx虛擬主機配置實戰（基於別名）

機器學習之分類問題實戰(基於UCI Bank Marketing Dataset)

selenium自動化實戰-基於python語言（二：編寫腳本）

下載基於大數據技術推薦系統實戰教程(Spark ML Spark Streaming Kafka Hadoop Mahout Flume Sqoop Redis)

基於ASP.NET WebAPI OWIN實現Self-Host項目實戰

nginx基於域名的虛擬主機配置實戰

基於centos7.3安裝部署jewel版本ceph集群實戰演練

企業實戰-實現基於LVS負載均衡集群的電商網站架構

企業實戰（4）-實現基於Haproxy負載均衡集群的電子商務網站架構

iKcamp｜基於Koa2搭建Node.js實戰（含視頻）? 代碼分層

Linux實戰第八篇：CentOS7.3下Nginx虛擬主機配置實戰（基於端口）

PK2153-BAT大牛親授基於ElasticSearch的搜房網實戰

基於Storm構建實時熱力分布項目實戰

基於Keras的attention實戰

一、導讀

二、程式碼實戰（一）

1、匯入相關庫檔案

2、資料生成函式

3、模型定義函式

4、主函式

5、執行結果

三、程式碼實戰（二）

1、匯入相關庫檔案

2、資料生成函式

4、主函式

相關推薦