基於Python的卷積神經網路和特徵提取

阿新 • • 發佈：2018-12-07

基於Python的卷積神經網路和特徵提取

發表於2015-08-27 21:39| 4577次閱讀| 來源blog.christianperone.com/| 13 條評論| 作者Christian S.Peron

深度學習特徵提取神經網路 Python nolearn theano

摘要：本文展示瞭如何基於nolearn使用一些卷積層和池化層來建立一個簡單的ConvNet體系結構，以及如何使用ConvNet去訓練一個特徵提取器，然後在使用如SVM、Logistic迴歸等不同的模型之前使用它來進行特徵提取。

卷積神經網路（ConvNets）是受生物啟發的MLPs（多層感知器），它們有著不同類別的層，並且每層的工作方式與普通的MLP層也有所差異。如果你對ConvNets感興趣，這裡有個很好的教程

CS231n – Convolutional Neural Newtorks for Visual Recognition。CNNs的體系結構如下所示：

常規的神經網路（來自CS231n網站）

ConvNet網路體系結構（來自CS231n網站）

如你所見，ConvNets工作時伴隨著3D卷積並且在不斷轉變著這些3D卷積。我在這篇文章中不會再重複整個CS231n的教程，所以如果你真的感興趣，請在繼續閱讀之前先花點時間去學習一下。

Lasagne 和 nolearn

Lasagne和nolearn是我最喜歡使用的深度學習Python包。Lasagne是基於Theano的，所以GPU的加速將大有不同，並且其對神經網路建立的宣告方法也很有幫助。nolearn庫是一個神經網路軟體包實用程式集（包含Lasagne），它在神經網路體系結構的建立過程上、各層的檢驗等都能夠給我們很大的幫助。

在這篇文章中我要展示的是，如何使用一些卷積層和池化層來建立一個簡單的ConvNet體系結構。我還將向你展示如何使用ConvNet去訓練一個特徵提取器，在使用如SVM、Logistic迴歸等不同的模型之前使用它來進行特徵提取。大多數人使用的是預訓練ConvNet模型，然後刪除最後一個輸出層，接著從ImageNets資料集上訓練的ConvNets網路提取特徵。這通常被稱為是遷移學習，因為對於不同的問題你可以使用來自其它的ConvNets層，由於ConvNets的第一層過濾器被當做是一個邊緣探測器，所以它們可以用來作為其它問題的普通特徵探測器。

載入MNIST資料集

MNIST資料集是用於數字識別最傳統的資料集之一。我們使用的是一個面向Python的版本，但先讓我們匯入需要使用的包：

[py] view plain copy

import matplotlib
import matplotlib.pyplot as plt
import matplotlib.cm as cm
from urllib import urlretrieve
import cPickle as pickle
import os
import gzip
import numpy as np
import theano
import lasagne
from lasagne import layers
from lasagne.updates import nesterov_momentum
from nolearn.lasagne import NeuralNet
from nolearn.lasagne import visualize
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix

[py] view plain copy

import matplotlib
import matplotlib.pyplot as plt
import matplotlib.cm as cm
from urllib import urlretrieve
import cPickle as pickle
import os
import gzip
import numpy as np
import theano
import lasagne
from lasagne import layers
from lasagne.updates import nesterov_momentum
from nolearn.lasagne import NeuralNet
from nolearn.lasagne import visualize
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix

正如你所看到的，我們匯入了用於繪圖的matplotlib包，一些用於下載MNIST資料集的原生Python模組，numpy， theano，lasagne，nolearn 以及 scikit-learn庫中用於模型評估的一些函式。

然後，我們定義一個載入MNIST資料集的函式（這個功能與Lasagne教程上使用的非常相似）

[py] view plain copy

def load_dataset():
url = 'http://deeplearning.net/data/mnist/mnist.pkl.gz'
filename = 'mnist.pkl.gz'
if not os.path.exists(filename):
print("Downloading MNIST dataset...")
urlretrieve(url, filename)
with gzip.open(filename, 'rb') as f:
data = pickle.load(f)
X_train, y_train = data[0]
X_val, y_val = data[1]
X_test, y_test = data[2]
X_train = X_train.reshape((-1, 1, 28, 28))
X_val = X_val.reshape((-1, 1, 28, 28))
X_test = X_test.reshape((-1, 1, 28, 28))
y_train = y_train.astype(np.uint8)
y_val = y_val.astype(np.uint8)
y_test = y_test.astype(np.uint8)
return X_train, y_train, X_val, y_val, X_test, y_test

[py] view plain copy

def load_dataset():
url = 'http://deeplearning.net/data/mnist/mnist.pkl.gz'
filename = 'mnist.pkl.gz'
if not os.path.exists(filename):
print("Downloading MNIST dataset...")
urlretrieve(url, filename)
with gzip.open(filename, 'rb') as f:
data = pickle.load(f)
X_train, y_train = data[0]
X_val, y_val = data[1]
X_test, y_test = data[2]
X_train = X_train.reshape((-1, 1, 28, 28))
X_val = X_val.reshape((-1, 1, 28, 28))
X_test = X_test.reshape((-1, 1, 28, 28))
y_train = y_train.astype(np.uint8)
y_val = y_val.astype(np.uint8)
y_test = y_test.astype(np.uint8)
return X_train, y_train, X_val, y_val, X_test, y_test

正如你看到的，我們正在下載處理過的MNIST資料集，接著把它拆分為三個不同的資料集，分別是：訓練集、驗證集和測試集。然後重置影象內容，為之後的Lasagne輸入層做準備，與此同時，由於GPU/theano資料型別的限制，我們還把numpy的資料型別轉換成了uint8。

隨後，我們準備載入MNIST資料集並檢驗它：

[py] view plain copy

X_train, y_train, X_val, y_val, X_test, y_test = load_dataset()
plt.imshow(X_train[0][0], cmap=cm.binary)

[py] view plain copy

X_train, y_train, X_val, y_val, X_test, y_test = load_dataset()
plt.imshow(X_train[0][0], cmap=cm.binary)

這個程式碼將輸出下面的影象（我用的是IPython Notebook）

一個MNIST資料集的數字例項（該例項是5）

ConvNet體系結構與訓練

現在，定義我們的ConvNet體系結構，然後使用單GPU/CPU來訓練它（我有一個非常廉價的GPU，但它很有用）

[py] view plain copy

[py] view plain copy

如你所視，在layers的引數中，我們定義了一個有層名稱/型別的元組字典，然後定義了這些層的引數。在這裡，我們的體系結構使用的是兩個卷積層，兩個池化層，一個全連線層（稠密層，dense layer）和一個輸出層。在一些層之間也會有dropout層，dropout層是一個正則化矩陣，隨機的設定輸入值為零來避免過擬合（見下圖）。

Dropout層效果（來自CS231n網站）

呼叫訓練方法後，nolearn包將會顯示學習過程的狀態，我的機器使用的是低端的的GPU，得到的結果如下：

[py] view plain copy

# Neural Network with 160362 learnable parameters
## Layer information
# name size
--- -------- --------
0 input 1x28x28
1 conv2d1 32x24x24
2 maxpool1 32x12x12
3 conv2d2 32x8x8
4 maxpool2 32x4x4
5 dropout1 32x4x4
6 dense 256
7 dropout2 256
8 output 10
epoch train loss valid loss train/val valid acc dur
------- ------------ ------------ ----------- --------- ---
1 0.85204 0.16707 5.09977 0.95174 33.71s
2 0.27571 0.10732 2.56896 0.96825 33.34s
3 0.20262 0.08567 2.36524 0.97488 33.51s
4 0.16551 0.07695 2.15081 0.97705 33.50s
5 0.14173 0.06803 2.08322 0.98061 34.38s
6 0.12519 0.06067 2.06352 0.98239 34.02s
7 0.11077 0.05532 2.00254 0.98427 33.78s
8 0.10497 0.05771 1.81898 0.98248 34.17s
9 0.09881 0.05159 1.91509 0.98407 33.80s
10 0.09264 0.04958 1.86864 0.98526 33.40s

[py] view plain copy

# Neural Network with 160362 learnable parameters
## Layer information
# name size
--- -------- --------
0 input 1x28x28
1 conv2d1 32x24x24
2 maxpool1 32x12x12
3 conv2d2 32x8x8
4 maxpool2 32x4x4
5 dropout1 32x4x4
6 dense 256
7 dropout2 256
8 output 10
epoch train loss valid loss train/val valid acc dur
------- ------------ ------------ ----------- --------- ---
1 0.85204 0.16707 5.09977 0.95174 33.71s
2 0.27571 0.10732 2.56896 0.96825 33.34s
3 0.20262 0.08567 2.36524 0.97488 33.51s
4 0.16551 0.07695 2.15081 0.97705 33.50s
5 0.14173 0.06803 2.08322 0.98061 34.38s
6 0.12519 0.06067 2.06352 0.98239 34.02s
7 0.11077 0.05532 2.00254 0.98427 33.78s
8 0.10497 0.05771 1.81898 0.98248 34.17s
9 0.09881 0.05159 1.91509 0.98407 33.80s
10 0.09264 0.04958 1.86864 0.98526 33.40s

正如你看到的，最後一次的精度可以達到0.98526，是這10個單元訓練中的一個相當不錯的效能。

預測和混淆矩陣

現在，我們使用這個模型來預測整個測試集：

[py] view plain copy

preds = net1.predict(X_test)

[py] view plain copy

preds = net1.predict(X_test)

我們還可以繪製一個混淆矩陣來檢查神經網路的分類效能：

[py] view plain copy

cm = confusion_matrix(y_test, preds)
plt.matshow(cm)
plt.title('Confusion matrix')
plt.colorbar()
plt.ylabel('True label')
plt.xlabel('Predicted label')
plt.show()

[py] view plain copy

cm = confusion_matrix(y_test, preds)
plt.matshow(cm)
plt.title('Confusion matrix')
plt.colorbar()
plt.ylabel('True label')
plt.xlabel('Predicted label')
plt.show()

上面的程式碼將繪製下面的混淆矩陣：

混淆矩陣

如你所視，對角線上的分類更密集，表明我們的分類器有一個良好的效能。

過濾器的視覺化

我們還可以從第一個卷積層中視覺化32個過濾器：

[py] view plain copy

visualize.plot_conv_weights(net1.layers_['conv2d1'])

[py] view plain copy

visualize.plot_conv_weights(net1.layers_['conv2d1'])

上面的程式碼將繪製下面的過濾器：

第一層的5x5x32過濾器

如你所視，nolearn的plot_conv_weights函式在我們指定的層中繪製出了所有的過濾器。

Theano層的功能和特徵提取

現在可以建立theano編譯的函數了，它將前饋輸入資料輸送到結構體系中，甚至是你感興趣的某一層中。接著，我會得到輸出層的函式和輸出層前面的稠密層函式。

[py] view plain copy

dense_layer = layers.get_output(net1.layers_['dense'], deterministic=True)
output_layer = layers.get_output(net1.layers_['output'], deterministic=True)
input_var = net1.layers_['input'].input_var
f_output = theano.function([input_var], output_layer)
f_dense = theano.function([input_var], dense_layer)

[py] view plain copy

dense_layer = layers.get_output(net1.layers_['dense'], deterministic=True)
output_layer = layers.get_output(net1.layers_['output'], deterministic=True)
input_var = net1.layers_['input'].input_var
f_output = theano.function([input_var], output_layer)
f_dense = theano.function([input_var], dense_layer)

如你所視，我們現在有兩個theano函式，分別是f_output和f_dense（用於輸出層和稠密層）。請注意，在這裡為了得到這些層，我們使用了一個額外的叫做“deterministic”的引數，這是為了避免dropout層影響我們的前饋操作。

現在，我們可以把例項轉換為輸入格式，然後輸入到theano函式輸出層中：

[py] view plain copy

instance = X_test[0][None, :, :]
%timeit -n 500 f_output(instance)
500 loops, best of 3: 858 µs per loop

[py] view plain copy

instance = X_test[0][None, :, :]
%timeit -n 500 f_output(instance)
500 loops, best of 3: 858 µs per loop

如你所視，f_output函式平均需要858µs。我們同樣可以為這個例項繪製輸出層啟用值結果：

[py] view plain copy

pred = f_output(instance)
N = pred.shape[1]
plt.bar(range(N), pred.ravel())

[py] view plain copy

pred = f_output(instance)
N = pred.shape[1]
plt.bar(range(N), pred.ravel())

上面的程式碼將繪製出下面的圖：

輸出層啟用值

正如你所看到的，數字被認為是7。事實是為任何網路層建立theano函式都是非常有用的，因為你可以建立一個函式（像我們以前一樣）得到稠密層（輸出層前一個）的啟用值，然後你可以使用這些啟用值作為特徵，並且使用你的神經網路作為特徵提取器而不是分類器。現在，讓我們為稠密層繪製256個啟用單元：

[py] view plain copy

pred = f_dense(instance)
N = pred.shape[1]
plt.bar(range(N), pred.ravel())

[py] view plain copy

pred = f_dense(instance)
N = pred.shape[1]
plt.bar(range(N), pred.ravel())

上面的程式碼將繪製下面的圖：

稠密層啟用值

現在，你可以使用輸出的這256個啟用值作為線性分類器如Logistic迴歸或支援向量機的特徵了。

最後，我希望你會喜歡這個教程。

基於Python的卷積神經網路和特徵提取

基於Python的卷積神經網路和特徵提取發表於2015-08-27 21:39| 4577次閱讀| 來源blog.christianperone.com/| 13 條評論| 作者Christian S.Peron 深度學習特徵提取神經網路Pythonnolea

基於卷積神經網路和tensorflow實現的人臉識別

以前在學習卷積神經網路的時候，發現了很多很有趣的demo，有一次發現了上面這個人臉識別的例子，不過當時還看不懂，經過一段時間之後決定試試能不能將上面的例子改一下，調以調參什麼的，於是就有了這篇文章。本以為我的程式碼和原文沒有什麼太大的區別，應該不會出現什麼錯誤，但是實際自己上

基於深度卷積神經網路的高光譜遙感影象分類---PCA+2D-CNN(偽空譜特徵)

論文地址基於深度卷積神經網路的高光譜遙感影象分類西華大學學報同時利用高光譜影象的光譜資訊和空間資訊的深度卷積神經網路分類模型。基於深度學習到的深度特徵，用邏輯迴歸分類器進行分類訓練。高光譜影象面臨的挑戰

用卷積神經網路和自注意力機制實現QANet（問答網路）

歡迎大家關注我們的網站和系列教程：http://www.tensorflownews.com/，學習更多的機器學習、深度學習的知識！在這篇文章中，我們將解決自然語言處理（具體是指問答）中最具挑戰性但最有趣的問題之一。我們將在Tensorflow中實現Google的QANet。就像它

基於深度卷積神經網路的單通道人聲與音樂的分離-論文翻譯

主體內容：作為當前的一大熱門，語音識別在得到快速應用的同時，也要更適應不同場景的需求，特別是對於智慧手機而言，由於元器件的微型化導致對於語音處理方面的器件不可能很大，因此單通道上的語音分離技術就顯得極為重要，而語音分離正是語音識別的前端部分。而傳統的技術由於資

卷積神經網路和Word Embeddings 在中文分詞領域的應用

Convolutional Neural Network withWord Embeddings for Chinese Word Segmentation 近年來，許多基於特徵的神經模型已被應用於CWS。雖然已經有很好的表現了，但是都有兩大缺點：第一，分詞模型很大程度需要依賴人

基於深度卷積神經網路（D-CNN）的影象去噪方法

基於深度卷積神經網路的影象去噪方法摘要：影象去噪在影象處理中仍然是一個具有挑戰性的問題。作者提出了一種基於深度卷積神經網路（DCNN）的影象去噪方法。作者設計的不同於其他基於學習的方法：一個DCNN來實現噪聲影象。因此，通過從汙染影象中分離噪聲影

基於3D卷積神經網路的行為識別

人工智慧/機器學習/深度學習交流QQ群：811460433程式設計師深度學習微信公眾號：最近看Deep Learning的論文，看到這篇論文：3D Convolutional Neural

keras 實現簡單卷積神經網路和視覺化

from keras.preprocessing.image import ImageDataGenerator from keras.models import Sequential from keras.layers import Conv2D, MaxPooli

基於深度卷積神經網路進行人臉識別的原理是什麼？

我這裡簡單講下OpenFace中實現人臉識別的pipeline，這個pipeline可以看做是使用深度卷積網路處理人臉問題的一個基本框架，很有學習價值，它的結構如下圖所示：1、Input Image -> Detect輸入：原始的可能含有人臉的影象。輸出：人臉位置的bounding box。這一步一般我

開源的卷積神經網路和醫療影像分析平臺 NiftyNet

NiftyNet 是一個基於 TensorFlow 的開源卷積神經網路平臺，用來研究醫療影像分析和影像導向的治療。NiftyNet 有著模組化的架構設計，能夠共享網路架構和預訓練模型。使用該模組架構，你可以：使用內建工具，從建立好的預訓練網路開始；根據自己的影象資料改造已有的網路；根據自己的影象分析問題快速構

基於卷積神經網路特徵圖的二值影象分割

目標檢測是當前大火的一個研究方向，FasterRCNN、Yolov3等一系列結構也都在多目標檢測的各種應用場景或者競賽中取得了很不錯的成績。但是想象一下，假設我們需要通過影象檢測某個產品上是否存在缺陷，或者通過衛星圖判斷某片海域是否有某公司的船隻

卷積神經網路CNN與基於MNIST的Python程式碼示例

卷積神經網路入門學(1) 原文地址：http://blog.csdn.net/hjimce/article/details/47323463 作者：hjimce 卷積神經網路演算法是n年前就有的演算法，只是近年來因為深度學習相關演算法為多層網路的訓練提供了新方法，然後現在

【基於tensorflow的學習】經典卷積神經網路、模型的儲存和讀取

CNN發展史： 1.經典卷積神經網路以下僅列出關於CNN的深層次理解：卷積層 tensorflow中卷積層的建立函式：_conv1 = tf.nn.conv2d(_input_r, tf.Variable(tf.random_normal([3, 3, 1, 6

深度學習（十五）基於級聯卷積神經網路的人臉特徵點定位

基於級聯卷積神經網路的人臉特徵點定位作者：hjimce一、相關理論本篇博文主要講解2013年CVPR的一篇利用深度學習做人臉特徵點定位的經典paper：《Deep Convolutional Netwo

卷積神經網路特徵圖視覺化（自定義網路和VGG網路）

藉助Keras和Opencv實現的神經網路中間層特徵圖的視覺化功能，方便我們研究CNN這個黑盒子裡到發生了什麼。自定義網路特徵視覺化程式碼： # coding: utf-8 from keras.models import Model import c

深度學習(DL)與卷積神經網路(CNN)學習筆記隨筆-03-基於Python的LeNet之LR

　　0階張量叫標量(scarlar)；1階張量叫向量(vector)；2階張量叫矩陣(matrix) 　　　　本文主要內容：如何用python中的theano包實現最基礎的分類器–LR(Logistic Regression)。　　一、模型

使用Python+TensorFlow2構建基於卷積神經網路（CNN）的ECG心電訊號識別分類（二）

## 心律失常資料庫目前，國際上公認的標準資料庫包含四個，分別為美國麻省理工學院提供的MIT-BIH（Massachusetts Institute of Technology-Beth Israel Hospital Database, MIT-BIH）資料庫、美國心臟學會提供的AHA（ America

深度學習（十九）基於空間金字塔池化的卷積神經網路物體檢測

原文地址：http://blog.csdn.net/hjimce/article/details/50187655 作者：hjimce 一、相關理論本篇博文主要講解大神何凱明2014年的paper：《Spatial Pyramid Pooling in Dee

學習筆記之——基於pytorch的卷積神經網路

本博文為本人的學習筆記。參考材料為《深度學習入門之——PyTorch》 pytorch中文網：https://www.pytorchtutorial.com/ 關於反捲積：https://github.com/vdumoulin/conv_arithmetic/blob/ma