MatConvNet卷積神經網路（三）【影象滑動窗】

阿新 • • 發佈：2018-12-30

利用滑動窗搜尋影象中的特定內容

Matconvnet官方給出的神經網路分類器imagenet-googleNet-dag.mat已經具備了較強的識別能力，能識別1000種標籤。利用它再編寫一個滑動窗函式，即可實現對大影象的內容搜尋（如在一棵果樹上尋找果子）。

分析：

由於影象中目標物件的大小往往不同，所以採用多個不同尺寸的滑動視窗對影象進行處理。處理時，視窗由左向右，由上向下依照一定的步長逐次移動，每次移動，將框內的影象輸入神經網路進行處理，然後通過得到的結果做出相應。

在本例中，若分類得到的標籤號大於900（考慮到干擾，只需分類結果滿足為水果），且置信度大於0.90，則記錄該視窗的位置，在原圖上用黑框將這個位置標出。

首先先來編寫視窗尺寸不變的滑動窗函式：（MATLAB）

%slide.m

function [ out_image,n ] = slide( image, rows, cols, step,net )
%視窗尺寸不變的滑動窗函式
%   引數：影象變數矩陣，視窗行數，列數，步長，神經網路物件 輸出為符合要求的視窗的左上角的位置和個數
win = zeros(rows, cols, 3);
out_image = zeros(1,2);
n = 0;
for i = 1:step:(size(image,1)-rows)                                     %垂直滑動
    for j = 1:step:(size(image,2)-cols)                                 %水平滑動
        win = image(i:i+rows-1,j:j+cols-1,:);                           %提取視窗
        %imshow(win);
        im_ = single(win) ; % note: 0-255 range
        im_ = imresize(im_, net.meta.normalization.imageSize(1:2)) ;
        im_ = bsxfun(@minus, im_, net.meta.normalization.averageImage) ;
        % run the CNN
        net.eval({'data', im_}) ;

        % obtain the CNN otuput
        scores = net.vars(net.getVarIndex('prob')).value ;
        scores = squeeze(gather(scores)) ;

        % show the classification results
        [bestScore, best] = max(scores) ;
        if(best>940 && bestScore>0.80) %識別並判斷
            n=n+1;
            out_image(n,:)=[i,j];  %儲存位置 [行數，列數]
            %pause;
        end
    end
end
end<u>
</u>

接下來利用上面的函式，完成多尺寸視窗，並返回帶有黑框標記的影象，及黑框數量。

%var_slide.m

function [ out_image,sum ] = var_slide( image, mrows, mcols, lrows, lcols,net  )
%返回具有黑框標記的影象，及黑框個數
%  輸入引數：影象矩陣，滑動窗的最小行數，最小列數，最大行數，最大列數，神經網路
out_image = image;
sum = 0;
winn = 1;
if(winn==1)
    dr=0;dc=0;
else
    dr = round((lrows-mrows)/(winn-1));
    dc = round((lcols-mcols)/(winn-1));
end
for i = 0:winn-1;
    [ locat, n ] = slide( image, mrows+dr*i, mcols+dc*i, round((mrows+dr*i)/2) ,net);
    sum = sum + n ;
    for k=1:n
        out_image(locat(k,1):(locat(k,1)-1+mrows+dr*i),locat(k,2),:)=0;
        out_image(locat(k,1):(locat(k,1)-1+mrows+dr*i),(locat(k,2)-1+mcols+dc*i),:)=0;
        out_image(locat(k,1),locat(k,2):(locat(k,2)-1+mcols+dc*i),:)=0;
        out_image((locat(k,1)-1+mrows+dr*i),locat(k,2):(locat(k,2)-1+mcols+dc*i),:)=0;
    end
end

最後，寫指令碼完成最終功能

%test_slide.m

% setup MatConvNet
run  matlab/vl_setupnn
% load the pre-trained CNN
net = dagnn.DagNN.loadobj(load('imagenet-googlenet-dag.mat')) ;
net.mode = 'test' ;
a = zeros(1,1);
a = input('Please input the pngs name.\n','s');
a = ['photos/',a];
   
% load and preprocess an image
im = imread(a);

addpath test;
[ out_image,n ] = var_slide( im, 100, 100, 100, 100, net  );figure;imshow(out_image);
saveas(gcf,'myfig.jpg');

如果有什麼問題，歡迎在下面留言。

MatConvNet卷積神經網路（三）【影象滑動窗】

利用滑動窗搜尋影象中的特定內容 Matconvnet官方給出的神經網路分類器imagenet-googleNet-dag.mat已經具備了較強的識別能力，能識別1000種標籤。利用它再編寫一個滑動窗

搭建簡單圖片分類的卷積神經網路（三）-- 模型的測試和運用

兩個功能都在同一個檔案中一、新建Disimage.py檔案 import tensorflow as tf from PIL import Image import os import numpy as np import matplotlib.pyplot as plt from Get

卷積神經網路（三）：權值初始化方法之Xavier與MSRA

基礎知識首先介紹一下Xavier等初始化方法比直接用高斯分佈進行初始化W的優勢所在：一般的神經網路在前向傳播時神經元輸出值的方差會不斷增大,而使用Xavier等方法理論上可以保證每層神經元輸入輸出方差一致。這裡先介紹一個方差相乘的公式，以便理解Xav

卷積神經網路（三）：卷積神經網路CNN的簡單實現（部分Python原始碼）

上週末利用python簡單實現了一個卷積神經網路，只包含一個卷積層和一個maxpooling層，pooling層後面的多層神經網路採用了softmax形式的輸出。實驗輸入仍然採用MNIST影象使用10個feature map時，卷積和pooling的結果分別如下所示。

MatConvNet卷積神經網路（四）——用自己的資料訓練

嘗試過從Matconvnet官網上下載的已經訓練好的神經網路之後，最近自己訓練了能夠識別果樹上紅蘋果的神經網路。先上圖。原始碼放在https://github.com/YunpengZhai/MATCONVNET 10/21/2016 更新：把滑動窗的程式碼放到了githu

卷積神經網路（CNN）之一維卷積、二維卷積、三維卷積詳解

由於計算機視覺的大紅大紫，二維卷積的用處範圍最廣。因此本文首先介紹二維卷積，之後再介紹一維卷積與三維卷積的具體流程，並描述其各自的具體應用。 1. 二維卷積圖中的輸入的資料維度為14×1414×14，過濾器大小為5×55×5，二者做卷積，輸出的資料維度為10×1

卷積神經網路（CNN）在語音識別中的應用

卷積神經網路（CNN）在語音識別中的應用作者：侯藝馨前言總結目前語音識別的發展現狀，dnn、rnn/lstm和cnn算是語音識別中幾個比較主流的方向。2012年，微軟鄧力和俞棟老師將前饋神經網路FFDNN（Feed Forward Deep Neural Network）引入到聲學模

卷積神經網路（CNN）_相關知識

斯坦福公開課 CS231n Convolutional Neural Networks for Visual Recognition ： http://cs231n.stanford.edu/syllabus.html 網路引數初始化：https://www.cnblogs.com/yinheyi

卷積神經網路（CNN）一之概念原理

　　什麼是卷積神經網路呢？這個的確是比較難搞懂的概念，特別是一聽到神經網路，大家腦海中第一個就會想到複雜的生物學，讓人不寒而慄，那麼複雜啊．卷積神經網路是做什麼用的呢？它到底是一個什麼東東呢？卷積神經網路的靈感源一種生物程序，其中神經元之間的聯結模式和動物視覺皮層組織非常相似。所以發明者把它叫做卷積神經網

機器學習之卷積神經網路（九）

摘要：　　卷積神經網路（Convolutional Neural Network,CNN）是一種前饋神經網路，它的人工神經元可以響應一部分覆蓋範圍內的周圍單元，對於大型影象處理有出色表現。引言：　　在傳統的機器學習中，通常是我們自己來尋找特徵，而深度學習中我們通過神經網路來自主的學習特診。在大量資

【6年人工智慧開發】簡述卷積神經網路（CNN）

在百度做了6年人工智慧方面的程式設計開發，也有很多這方面的經驗吧，從古至今，機器人一直承載著人類巨大的夢想。隨著各類感測器、語音互動、機器識別、SLAM等技術的蓬勃發展，機器人開始從科幻作品中走出

搭建簡單圖片分類的卷積神經網路（二）-- CNN模型與訓練

一、首先，簡單來說CNN卷積神經網路與BP神經網路主要區別在於： 1、網路的層數的多少（我這裡的CNN是比較簡單的，層數較少，真正應用的話，層數是很多的）。 2、CNN名稱來說，具有卷積運算的特點，對於大型的圖片或者數量多的圖片，卷積運算可以大量提高計算效能，而BP神經網路大都為全連線層，計

搭建簡單圖片分類的卷積神經網路（一）-- 訓練模型的圖片資料預處理

一、訓練之前資料的預處理主要包括兩個方面 1、將圖片資料統一格式，以標籤來命名並存到train資料夾中（假設原始圖片按類別存到資料夾中）。 2、對命名好的圖片進行訓練集和測試集的劃分以及圖片資料化。先對整個專案檔案進行說明：專案資料夾

用於說明卷積神經網路（ConvNet）的Python指令碼

借鑑：https://github.com/gwding/draw_convnet 直接上程式碼： import os import numpy as np import matplotlib.pyplot as plt plt.rcdefaults() from matplotlib.li

卷積神經網路（4）----目標檢測

一、分類、定位和檢測簡單來說，分類、定位和檢測的區別如下：分類：是什麼？定位：在哪裡？是什麼？（單個目標）檢測：在哪裡？分別是什麼？（多個目標） (1)目標分

卷積神經網路（CNN）基礎

CNN的基本結構原文地址：https://www.jianshu.com/p/da0c4cc76a06 CNN分為幾層 CNN一共有卷積層（CONV）、ReLU層（ReLU）、池化層（Pooling）、全連線層（FC（Full Connection））下面是各個層的

吳恩達深度學習筆記（deeplearning.ai）之卷積神經網路（CNN）（上）

1. Padding 在卷積操作中，過濾器（又稱核）的大小通常為奇數，如3x3，5x5。這樣的好處有兩點：在特徵圖（二維卷積）中就會存在一箇中心畫素點。有一箇中心畫素點會十分方便，便於指出過濾器的位置。在沒有padding的情況下，經過卷積操作，輸出的資

深入學習卷積神經網路（CNN）的原理知識

　　網上關於卷積神經網路的相關知識以及數不勝數，所以本文在學習了前人的部落格和知乎，在別人部落格的基礎上整理的知識點，便於自己理解，以後複習也可以常看看，但是如果侵犯到哪位大神的權利，請聯絡小編，謝謝。好了下面言歸正傳：　　在深度學習領域中，已經經過驗證的成熟演算法，目前主要有深度卷積網路（DNN）和遞迴網

簡單介紹卷積神經網路（CNN）

前言：原創： Python開發者內容取自公眾號——Python開發者，有興趣的可以關注一下什麼是卷積神經網路，它為何重要？卷積神經網路（也稱作 ConvNets 或 CNN）是神經網路的一種，它在影象識別和分類等領域已被證明非常有效。卷積神經網路除了為機器人

吳恩達深度學習系列課程筆記：卷積神經網路（一）

本系列文章將對吳恩達在網易公開課“深度學習工程師”微專業內容進行筆記總結，這一部分介紹的是“卷積神經網路”部分。 1、計算機視覺計算機視覺在我們還是生活中有非常廣泛的應用，以下幾個是最常見的例子：影象分類：可以對影象中的物體種類進行判斷，如確定影象中

MatConvNet卷積神經網路（三）【影象滑動窗】

相關推薦