學習筆記 -- 斯坦福課程：CNN for Visual Recognition（一）

阿新 • • 發佈：2019-01-02

去年就想聽聽這“接地氣”的課程了，但最終也沒有堅持下來。今年既然有了線上的課程視訊，我也開個筆記系列，好好地從基礎開始學起吧。由於課程內容還是比較基礎，這裡只紀錄一些個人覺得有趣或者有用的點，更多的內容大家直接去網站上看吧，相信會有不少收穫的。

Lecture 1：機器視覺歷史簡介

生物視覺的誕生可以追溯到距今五億四千多萬年前的物種大爆炸時期
公元16世紀出現了照相機的雛形紀錄，人們開始考慮用儀器（光學鏡片）來複制（duplicate）所看到的世界
1959年，Hubeli & Wiesel著名的工作嘗試通過實驗研究生物視覺系統的工作原理（測量視覺神經元對不同刺激的反應）。
- 生物視覺系統中，底層視覺是由簡單的結構
  
  （邊緣等）組成的。
1963年，出現了機器視覺的先導性工作“Block world”。作者Larry Roberts在他的博士論文中首次提出通過計算機提取圖片中物體的邊緣。
1966年夏，MIT一個研究組提出的“The Sumer Vision Project”專案被認為是機器視覺誕生。（當時的教授認為：視覺是多麼簡單的東西，我們一個夏天就能夠搞定！。。。）
1970年代，David Marr撰寫了“Vision”一書。書中講述了視覺系統具有一個層次性的結構（hierarchical）。
1987年，人們開始對圖片中的真實物體進行識別，如David Lowe的工作。
1997年，Shi&Malik具有影響力的工作 Normalized Cut，開始研究稱為”Perceptual Grouping“的問題：將影象分割成不同可被感知的小塊或區域。

2001年，Viola&Jones發表了富有影響力的人臉檢測工作。
- 文中所用的特徵是通過訓練學習得到的
- 第一次實現了實時的機器視覺演算法（之前的演算法都非常的慢）
- 這個時期，機器視覺的關注點有所轉移：從之前的視覺重構轉到“識別”問題（更接近AI問題）
1999年，David Lowe提出了著名的SIFT特徵，並用於目標識別當中。
2009年，Felzenswalb等人提出了Deformable Part Model，將目標分成各個相關的部分，並用SVM識別各個部分。（用於行人識別）
2006年左右，機器視覺領域逐漸成熟，學術界出現了一些公開的標準資料集，如：PASCAL，ImageNet。

Lecture 2：圖片分類基礎

介紹了圖片分類問題的挑戰性（視角、光照、變形、遮擋、背景影響、類內差異等）
採用資料驅動（data-driven）的方法來解決，如：最鄰近分類器（Nearest Neighbor classifier）
最鄰近分類器的一個缺點：雖然訓練速度很快（不需要訓練），測試時的分類速度卻隨著訓練資料量的增大而線性增大。然而在實際應用中我們一般認為測試速度比訓練速度更為重要。（CNN則與之相反，訓練時需要大量時間，但是測試時間卻很短，與訓練資料大小無關）
加速最鄰近分類器的一些近似演算法，如FLANN
通過驗證集確定超引數（如k鄰近演算法中的k）
引數化模型（Parametric approach）：線性分類器 f(x,W,b)=Wx+b
線性分類器到底在做什麼？
- 利用訓練得到的權值（weights）對特徵的各個分量進行加權求和，得到該各類別的分數輸出。如果我們直接拿影象畫素值作為特徵，則可以得到如下圖的視覺化結果：
- 如果我們將每張影象的特徵看作高維空間中的一個點，線性分類器可以得到一些超平面，其中的權值即使這些超平面的法線方向，如下圖：

Lecture 3：損失函式和優化問題

與上節課不同，這節課雖然也是介紹一些非常基本的概念，但其中對於損失函式的討論比較有意思，值得一聽。

Multiclass SVM Loss：給定(資料，標籤)對(xi,yi) 和分類器輸出s=f(xi,W)，損失函式為 L=1N∑iLi，Li=∑j≠yimax(0,sj−syi+1)
- 權值正則化（Regularization）：L(x,W)+λR(W)
Softmax Loss：將分類器輸出分數看作各類“未歸一化”的指數概率（unnormalized log probabilities of the classes），Li=−log(esyi∑jesj)
SVM vs. Softmax
- SVM 對於滿足間隔要求的資料點更具有魯棒性（當資料點遠離間距時，微小的變動不會影響損失函式值（就是零））。SVM只對於資料空間中的一部分區域性（margin附近）有影響，而Softmax對於整個空間都有影響。
- 實際應用中兩者差異不大
- 一個視覺化demo
優化：梯度下降
- 數值梯度：近似值，計算慢，易實現 –> 常用於梯度檢測
- 微積分計算梯度：精確，快速，易犯錯
一些不同優化演算法的視覺化demo，非常好看。

學習筆記 -- 斯坦福課程：CNN for Visual Recognition（一）

去年就想聽聽這“接地氣”的課程了，但最終也沒有堅持下來。今年既然有了線上的課程視訊，我也開個筆記系列，好好地從基礎開始學起吧。由於課程內容還是比較基礎，這裡只紀錄一些個人覺得有趣或者有用的點，更多的內容大家直接去網站上看吧，相信會有不少收穫的。 Lectu

CNN for Visual Recognition（6）-lecture5預處理、正則化、損失函式

本節主要講了資料預處理、正則化以及損失函式資料預處理關於資料預處理我們有3種常用的方式，假設資料矩陣X，假設其尺寸是[N,D]（N是資料樣本的數量，D是資料的維度）。去均值去均值是預處理最常見的。對待訓練的每一張圖片的特徵，都減去

《C++ Primer Plus》學習筆記——第五章迴圈和關係表示式（一）

本章內容： for迴圈和while迴圈表示式和語句運算子組合複合語句逗號運算子以及關係運算符 typedef工具字元輸入方法get() 檔案尾條件巢狀迴圈和二維陣列計算機除了儲存資料外，還可以做很多其他工作。可以對資料進

模式識別與機器學習筆記專欄之貝葉斯分類決策（一）

[toc] > 這是模式識別與機器學習筆記專欄的第一篇，我會持續更新。在所有的生活場景中，我們無時無刻不在進行著模式識別。比如你看見迎面走來一個人，根據他的長相來辨認出他好像是你一年前某個活動小組的組長，然後你開始決策要不要和他打個招呼。或者你走進水果店，把西瓜拍了個遍來決定最後買哪一個。或者你突

論文閱讀筆記二十四：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition（SPPNet CVPR2014）

分享圖片介紹 bin con strong map com 提高 https 論文源址：https://arxiv.org/abs/1406.4729 tensorflow相關代碼：https://github.com/peace195/sppnet 摘要

【Vue.js學習筆記】7：v-for渲染,Vue的小Demo

v-for渲染 v-for是Vue中常用的列表渲染方法，可以將一個列表渲染為一系列的HTML元素，也可以用來遍歷物件內的k-v對。另外關於模板元素渲染在官方文件上見這裡。 index.html <!DOCTYPE html> <html lang="en"

吳恩達深度學習系列課程筆記：卷積神經網路（一）

本系列文章將對吳恩達在網易公開課“深度學習工程師”微專業內容進行筆記總結，這一部分介紹的是“卷積神經網路”部分。 1、計算機視覺計算機視覺在我們還是生活中有非常廣泛的應用，以下幾個是最常見的例子：影象分類：可以對影象中的物體種類進行判斷，如確定影象中

學習筆記=>《你不知道的JavaScript（上卷）》第五章：作用域閉包

什麼是詞法作用域？　　在之前講過，我們平常寫程式碼的時候，建立一個變數和方法的時候在其書寫的位置（所在環境）會形　　成一個作用域，即為詞法作用域，該作用域中的屬性和方法只能在當前環境內使用。閉包　　最簡單的一個閉包例項： function fun(){ va

讀書筆記32：PoTion: Pose MoTion Representation for Action Recognition（CVPR2018）

摘要首先介紹背景，很多一流的動作識別方法都依賴於two-stream的架構，一個處理appearance，另一個處理motion。接著介紹本文工作，本王呢認為將這兩個合起來考慮比較好，引入了一個新的representation，可以將semantic keypoints的

讀書筆記31：What have we learned from deep representations for action recognition?（CVPR2018）

摘要：首先是背景，深度模型在計算機視覺的每個領域都有部署，因此，理解這些深度模型得到的representation到底是怎麼工作的，以及這些representation到底抓去了什麼資訊就變得越來越重要。接著說本文的工作，本文通過視覺化two-stream模型在進行動作識

設計模式（一）：單例模式 JVM類載入機制 JDK原始碼學習筆記——Enum列舉使用及原理 Java併發（七）：雙重檢驗鎖定DCL Java併發（二）：Java記憶體模型 Java併發（二）：Java記憶體模型 Java併發（七）：雙重檢驗鎖定DCL JDK原始碼學習筆記——Enum列舉使用及原理

單例模式是一種常用的軟體設計模式，其定義是單例物件的類只能允許一個例項存在。單例模式一般體現在類宣告中，單例的類負責建立自己的物件，同時確保只有單個物件被建立。這個類提供了一種訪問其唯一的物件的方式，可以直接訪問，不需要例項化該類的物件。適用場合：需要頻繁的進行建立和銷燬的物件；建立物

學習筆記 -- 斯坦福課程：CNN for Visual Recognition（一）

Lecture 1：機器視覺歷史簡介

Lecture 2：圖片分類基礎

Lecture 3：損失函式和優化問題

學習筆記 -- 斯坦福課程：CNN for Visual Recognition（一）

CNN for Visual Recognition（6）-lecture5預處理、正則化、損失函式

《C++ Primer Plus》學習筆記——第五章迴圈和關係表示式（一）

模式識別與機器學習筆記專欄之貝葉斯分類決策（一）

論文閱讀筆記二十四：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition（SPPNet CVPR2014）

【Vue.js學習筆記】7：v-for渲染,Vue的小Demo

吳恩達深度學習系列課程筆記：卷積神經網路（一）

學習筆記=>《你不知道的JavaScript（上卷）》第五章：作用域閉包

讀書筆記32：PoTion: Pose MoTion Representation for Action Recognition（CVPR2018）

讀書筆記31：What have we learned from deep representations for action recognition?（CVPR2018）

OpenCV學習筆記（04）：Mat類詳解（一）

讀書筆記29：A Closer Look at Spatiotemporal Convolutions for Action Recognition（CVPR2018）

【深度學習：CNN】Dropout解析（1）

HTML學習筆記 CSS背景樣式案例第六節（原創）參考使用表

HTML學習筆記 cs2D3D展示基礎第十四節（原創）參考使用表

【機器學習筆記】自組織映射網絡（SOM）

Spark學習筆記--Spark在Windows下的環境搭建（轉）

HTML學習筆記 CSS表格及輪廓案例第八節（原創）參考使用表

LWIP學習筆記之用戶編程接口（NETCONN）(八)

學習筆記 -- 斯坦福課程：CNN for Visual Recognition（一）

Lecture 1：機器視覺歷史簡介

Lecture 2：圖片分類基礎

Lecture 3：損失函式和優化問題

相關推薦