1. 程式人生 > >吳恩達deeplearning之CNN—目標檢測(1)

吳恩達deeplearning之CNN—目標檢測(1)

1 目標定位

  這一週學習的主要內容是物件檢測,它是計算機視覺領域一個新興的應用方向,相比兩年前,它的效能也越來越好,在構建物件檢測之前,需要先了解一下物件定位。
這裡寫圖片描述
  對於圖片分類任務大家都耳熟能詳,演算法通過遍歷如下圖片來判斷其中是不是汽車。而物件定位不僅需要演算法判斷圖片中是不是汽車,還要在圖片中標記處它的位置,用邊框或紅色方框把車圈出來,這就是定位分類問題,在後面的章節我們還會分享如果同一幅圖片中有多個目標時應該如何檢測,比如,你正在做一個自動駕駛程式,程式需要檢測出其它的車輛、行人、摩托車等等。這裡我們研究的定位分類問題,通常只有一個較大的物件位於圖片正中間位置。
這裡寫圖片描述
  對於圖片分類問題,把圖片輸入到多層卷積神經網路,神經網路會輸出一個特徵向量並反饋給softmax單元來預測圖片型別,如果你還想定點陣圖片中物件的位置的話可以讓神經網路多輸出幾個單元,具體來說就是多四個標識物件邊界框位置的引數b

x,by,bh,bw
  本週課程的一些符號約定:圖片左上角座標(0,0),圖片右下角座標(1,1),物件邊框中心點座標(bx,by),邊框的高度bh,邊框的寬度(bw),因此訓練集不僅包含物件的分類標籤還要包含標識邊框位置的四個引數。之後就可以按照監督學習演算法輸出一個分類標籤還有四個引數值,從而給出被檢測物件的邊框位置,此例子中bx的理想值是0.5,因為它標識汽車位於圖片水平方向的中間位置,by大約是0.7,表示汽車位於距離圖片底部3/10的位置,bh約為0.3,因為紅色方框的高度是圖片高度的大約0.3倍,bw約為0.4,因為紅色方框的寬度是圖片寬度的0.4倍。
這裡寫圖片描述
  這裡有pedestrain、car、motorcycle、background四個類,神經網路輸出的是b
x
,by,bh,bw
四個數字和一個分類標籤,或分類標籤出現的概率,目標標籤y可以表示為一個向量,第一個元素Pc表示是否含有物件,如果物件屬於pedestrain、car、motorcycle則Pc=1否則為Pc=0,如果檢測到引數就同時輸出物件的邊框引數bx,by,bh,bwc1,c2,c3表示該物件屬於1-3中的哪一類,這裡我們假設我們影象中只有一個物件。
  以含有汽車圖片為例的話標籤y可以表示為:[1,bx,by,bh,bw,0,1,1]
  以不包含任何物件的圖片為例標籤y可以表示為:[0,?,?,?,?,?,?,?] ?表示對應位置上的值沒有任何的含義。
這裡寫圖片描述
  這類問題的損失函式可以表示為L
(yˆ,y)
,如果採用平方誤差策略損失函式可以寫成:

L(yˆ,y)={8i=1(yiˆyi)2(yˆ1y1)y1=1y1=0
  從公式可以看出,如果影象中包含物件那麼需要考慮所有的目標輸出,如果影象中不包含物件那麼只需要考慮第一個表示是否包含物件的元素是否預測正確即可,也就是隻考慮神經網路評估pc的準確度。
  這裡為了讓大家瞭解物件定位的細節,用平方誤差簡化了描述過程,實際應用中可以
1)對pc應用邏輯迴歸函式
2)對邊界框bx,by,bh,bw用平法誤差或其他類似的方法。
3)對類別c1,c2,c3用softmax函式

2 特徵點檢測

  在上一節中主要闡述瞭如何利用神經網路進行物件定位,即通過輸出四個引數值bx,by,bh,bw給出影象中物件的邊界框,更概括的說神經網路可以輸出圖片上特徵點的(x,y)座標,來實現對目標特徵的識別。
  假設你正在構建一個人臉識別應用,如果你希望演算法可以給出眼角的具體位置,眼角的座標為(x,y),你可以讓神經網路的最後一層多輸出兩個數字lx,ly,作為眼角的座標,如果你想知道兩隻眼睛的四個眼角的具體位置,那麼從左到右,依次用四個特徵點l1x,l1y)(l2x,l

相關推薦

deeplearningCNN目標檢測(1)

1 目標定位   這一週學習的主要內容是物件檢測,它是計算機視覺領域一個新興的應用方向,相比兩年前,它的效能也越來越好,在構建物件檢測之前,需要先了解一下物件定位。   對於圖片分類任務大家都耳熟能詳,演算法通過遍歷如下圖片來判斷其中是不是汽車。而物件定

deeplearningCNN—卷積神經網路入門

1.邊界檢測示例 假如你有一張如下的影象,你想讓計算機搞清楚影象上有什麼物體,你可以做的事情是檢測影象的垂直邊緣和水平邊緣。  如下是一個6*6的灰度影象,構造一個3*3的矩陣,在卷積神經網路中通常稱之為filter,對這個6*6的影象進行卷積運算,以左上角的-5計算為例  3*1+

deeplearningCNN—人臉識別與風格化轉換(1)

1.什麼是人臉識別   這部分演示了百度總部大樓的人臉識別系統,員工刷臉進出辦公區,在這個演示中主要應用到了人臉識別技術和活體檢測。 人臉識別的術語: 1)face verification:輸入影象、名字ID判斷輸入影象是不是名字ID指定的使用者 2)

DeepLearning.ai筆記(5-1)-- 迴圈序列模型

吳恩達DeepLearning.ai筆記(5-1)– 迴圈序列模型 1.一些序列資料例子 2.數學符號 x<1>x<1>輸入序列X第一個單詞,TixTxi輸入序列X的單詞個數,X(i)<t>X(i)&l

deeplearning人臉檢測

吳恩達deeplearning課程的人臉檢測程式碼。所需要的人臉檢測資料和一些庫檔案在人臉檢測資料 Face Recognition for the Happy House Welcome to the first assignment of week

Deeplearning.ai筆記神經網路和深度學習1

Introduction to Deep Learning What is a neural neural network? 當對於房價進行預測時,因為我們知道房子價格是不可能會有負數的,因此我們讓面積小於某個值時,價格始終為零。 其實對於以上這麼一個預測的模型就可以看

Deeplearning.ai筆記神經網路和深度學習3

Shallow Neural Network Neural Networks Overview 同樣,反向傳播過程也分成兩層。第一層是輸出層到隱藏層,第二層是隱藏層到輸入層。其細節部分我們之後再來討論。 Neural Network Representation

DeepLearning.ai 課程提煉筆記(4-2)卷積神經網絡 --- 深度卷積模型

mes and shift abd actual 應用 比賽 特征 通道 1. 經典的卷積網絡 介紹幾種經典的卷積神經網絡結構,分別是LeNet、AlexNet、VGGNet。 LeNet-5: LeNet-5主要是針對灰度設計的,所以其輸入較小,為 ,其結構如下:

DeepLearning 第二課第三週程式設計 tensorflow

TensorFlow Tutorial Welcome to this week's programming assignment. Until now, you've always used numpy to build neural networks. Now we will step yo

DeepLearning 第一課第二週 測驗 · Neural Network Basics

      ————————————————–中文翻譯—————————————————————————————– 1、神經元的計算是什麼?(B) A. 在將輸出應用到啟用函式之前, 神經元計算所有特徵的平均值 B. 神經元計算一個線性函式 (z = Wx + b), 然後是一個啟用函

Deeplearning.ai 知識點梳理(course 5,week 3)

  本週主要講了多種sequence to sequence結構,包括conditional language model,beam searching,bleu,attention,speech recognition,以及trigger word detec

DeepLearning.ai《深度學習》課程筆記目錄總集

本文釋出在知乎的專欄中,為了方便習慣使用CSDN的使用者,更改了下面文章的直鏈到CSDN中的筆記。 同時,也歡迎大家關注我的知乎:大樹先生,會不定期有新的乾貨更新。一起學習一起進步呀!^_^ DeepLearning.ai簡介 deepLearning.

-機器學習(9)-異常檢測、協同過濾

文章目錄 Density Estimation Problem Motivation Gaussian Distribution Algorithm Building an Anomaly

【Coursera】 deeplearning.ai 05.序列模型 第一週 迴圈序列模型 課程筆記

迴圈序列模型 為什麼選擇序列模型 在語音識別、音樂生成、情感分類、DNA序列分析、機器翻譯、視訊識別、命名實體識別等任務中,共同特點是輸入X和/或輸出Y都是序列。 數學符號 例如,對於命名實體識別的問題: 對於輸入序列,用 x&l

【Coursera】 deeplearning.ai 04.卷積神經網路 第二週 深度卷積神經網路 課程筆記

深度卷積神經網路 2.1 為什麼要進行例項化 實際上,在計算機視覺任務中表現良好的神經網路框架,往往也適用於其他任務。 2.2 經典網路 LeNet-5 AlexNet VGG LeNet-5 主要針對灰度影象 隨著神經網路的加深

deeplearning.ai第四課學習心得:卷積神經網路與計算機視覺

不久前,Coursera 上放出了吳恩達 deeplearning.ai 的第四門課程《卷積神經網路》。本文是加拿大國家銀行首席分析師 Ryan Shrott 在完成該課程後所寫的學習心得,有助於大家直觀地瞭解、學習計算機視覺。 我最近在 Coursera 上完成了吳恩達教授的計算機視覺課程。吳恩達

Deeplearning.ai 第五課 Sequence Model 第一週------Deep RNNs

這一節主要講解了深度RNN網路的結構。 左邊是在一般的神經網路中DNN的結構,由輸入經過多層網路最終得到輸出 與此類似,Deep RNN也有類似的結構,之前的RNN網路都只是一層,如圖畫出了三層。 用a[l]<t>來表示第l層激勵的第t個t

DeepLearning 神經網路基礎 第一課第三週程式設計題目及作業

宣告 此周的作業放在下面的連結那裡,裡面包含了所有資料。 作業連結 在一些程式碼上我寫上了註釋,再次明確了建立一個模型的步驟,此作業由於並不是很複雜,所以一些步驟合併了,但是總體的建模步驟還是跟部

deeplearning.ai五項課程完整筆記了解一下?

來源:機器之心本文共3744字,建議閱讀8分鐘。通過本文為大家解讀如何構建自然語言、音訊和其他序

DeepLearning.ai系列課後程式設計題實踐總結week3

# -*- coding: utf-8 -*- """ Created on Sun Sep 24 09:09:10 2017 @author: Jay """ import numpy as np import matplotlib.pyplot as p