1. 程式人生 > >《計算機視覺-一種現代方法(第2版)》讀書筆記四:中層視覺

《計算機視覺-一種現代方法(第2版)》讀書筆記四:中層視覺

本篇思維導圖

這裡寫圖片描述

注:中層視覺主要關注的是影象中的幾何結構以及特定物件和目標,應用領域包括目標分割和跟蹤

通過聚類分割

分割的目的是為了得到一幅圖片中有用部分的一個精簡的表示,其具體的理論和方法取決於應用的需求

1 人類視覺:分類和格式塔(Gestalt)

  • 分割的普遍經驗認為:一幅影象能分解為圖形(一般是有意義的、重要的物體)和背景
  • 心理學格式塔學派根據人類視覺系統中周圍環境影響著事物的感知的特徵,制定了一系列的規則,用來將影象元素分類和分組
  • 元素集合分組的一些規律性質
    這裡寫圖片描述

2 重要應用

2.1 背景差分

  • 在很多應用中,物體總是出現在一個相對穩定的背景中
  • 在這些應用中,通常可以通過從影象中減去背景影象的估計值,然後從結果中尋找絕對值比較大的部分來獲得有用的分割
  • 背景差分演算法
    這裡寫圖片描述
    注:使用運動平均方法估計背景畫素點的值

2.2 鏡頭的邊界檢測

  • 鏡頭:指基本顯示的是同一物體的較短視訊流
  • 關鍵幀:一個鏡頭通常可以用一個關鍵幀來表示,這種表示可以用於視訊的檢索或者概況視訊內容以便使用者進行瀏覽
  • 鏡頭邊界檢測演算法
    這裡寫圖片描述
  • 計算距離的幾種準則:幀差分演算法、基於直方圖的演算法、塊比較演算法、邊緣差分演算法

2.3 互動分割

人為指定一些分離區域,計算機在此基礎上完成自動分割
這裡寫圖片描述

3 基於聚類畫素的影象分割

3.1 基本聚類方法

3.1.1 凝聚式聚類(合併聚類)

定義每個點為獨立的一個類
直到聚類達到所要求的
    將類間距離最小的兩類合併
end

3.1.2 分解式聚類(分裂聚類)

定義一個包含所有點的類
直到聚類達到所要求的
    將一個類分裂成兩個類,條件時所產生的兩個類的類間距離最大
end

3.1.3 類間距離計算方法

  • 單連線聚類:選擇兩類之間最近的兩個元素之間的距離作為類間距離
  • 全連線聚類:選擇兩類之間最遠的兩個元素之間的距離作為類間距離
  • 基於集團均值的聚類:選擇聚類中元素間距離的平均值

3.1.4 應劃分多少類
通過樹狀圖(一種顯示類間距離的層次結構表示),讓使用者據其做出一個適當的聚類選擇

3.2 分水嶺演算法

分水嶺演算法可以較好地得到超畫素(具有相似顏色或紋理的影象塊)

3.3 K-均值演算法

3.3.1 基本步驟

  1. 假設聚類中心已知,並且分配每個點到最近的聚類中心
  2. 假設分配已確定,選擇一個新的聚類中心(每個中心是分佈在這個類中各個點的平均值)集

隨機的選擇聚類中心作為起始點,並輪流迭代執行這些步驟,直至收斂於目標函式的區域性最小值。

3.3.2 實現細節
具體細節會略有差異,比如初始化聚類中心後,將其它點一次性就近分配到各聚類,然後重新計算聚類中心再不斷調整樣本點分配;也可一次將一個樣本點依順序歸入就近的聚類,並立即重新計算該類的聚類中心,然後再計算下一個樣本的歸類,直到所有的樣本都歸到相應的類中。

基於模型擬合的分割

與基於聚類的分割不同的是,基於模型擬合的分割中模型是已知的,而且是從更大尺度的關係看問題,而不僅僅是樣本到樣本的關係。通常選擇一個模型,然後確定一個擬合好壞的準則,來審視一組樣本是否具有擬合該模型的屬性。

1 哈夫(Hough)變換

1.1 基本思想

通過記錄所有樣本點能具有的所有結構,然後看看哪一個結構有最多的投票來把在同樣結構上的點聚類

1.2 用哈夫變換擬合直線

哈夫變換最成功的應用是在直線檢測上,利用點-線對偶性原理尋找引數空間網格中投票最多的網格來確定對應的直線

1.3 用哈夫變換擬合圓

原理與擬合直線大體上類似,只是點對應的二維極徑極角空間被三維的圓心點x, y還有半徑r空間取代,實際實現中是通過哈夫梯度法求解。

1.4 哈夫變換在實際中的問題及應對措施

問題:

  • 量化誤差(合適的網格尺寸很難選擇)
  • 受噪聲影響大

應對措施:

  • 減少不相關樣本(包括去噪)
  • 小心地選擇網格(試演算法)

2 擬合直線

  • 最小二乘直線擬合
  • 增量直線擬合:通過沿著曲線走,對曲線上的點擬合直線,當殘差足夠大時截斷曲線
  • k-均值直線擬合:通過把點分配到最近的直線然後重新擬合

3 擬合曲線結構

4 魯棒性

最小二乘擬合對外點非常敏感,為了增強模型,通常將噪聲的影響削弱,或者允許一個顯式表示外點的模型(也可搜尋看上去好的點)

4.1 M估計

  • 最好的估計是在接近引數模型的最壞分佈下還可以表現得非常好的估計。
  • 一個M估計可以認為是一種策略,其可以保證外點作用被衰減的概率要比它們產生平方誤差的概率要高
  • 一個M估計通過最小化後面的表示式來估計引數Σiρ(ri(xi,θ);σ),ri(xi,θ)

4.2 隨機取樣一致演算法(RANSAC)

基於在資料點中搜索好的點的思想,具體搜尋一個隨機取樣,對其進行擬合,並判斷其是否得到許多資料點支援
這裡寫圖片描述

跟蹤

1 概述

1.1 定義

跟蹤(tracking)是根據一組給定影象序列(視訊),對影象中物體的運動形態進行分析。

1.2 應用

  • 運動捕捉
  • 從運動中識別
  • 監視
  • 定位

1.3 術語

  • 狀態(跟蹤的基本假設為當前狀態僅依賴於前一狀態)
  • 觀測:是對運動物體狀態的測量(當前觀測僅僅依賴當前狀態)

跟蹤包括利用觀測去推測狀態,狀態和觀測的基本假設意味著跟蹤問題的推理結構是個隱馬爾可夫模型。

2 簡單跟蹤策略

  • 通過檢測來跟蹤:當視訊中只有一個簡單物件時,可以通過報告檢測器在視訊每一幀中響應的位置來跟蹤物件;有多個物體或複雜情況可以採取軌跡跟蹤
  • 通過匹配平移來跟蹤:在相鄰幀間可以把物件看作是緩慢運動的box,通過在幀間鄰近位置搜尋最佳匹配的平移後的box來跟蹤物件
  • 利用仿射變換來確認匹配:如果觀測時間較長,物件有可能發生形變(如三維旋轉),需要修改為基於仿射變換的匹配

相關推薦

計算機視覺-現代方法2讀書筆記早期視覺幅影象

本篇思維導圖 線性濾波器 線性濾波器的主要策略是用不同的加權模式計算畫素加權和,以尋找不同的影象模式 1.線性濾波和卷積 二維卷積公式:Rij=∑u,vHi−u,j−vFu,v,使用卷積核H將圖像F卷積到域R 幾種常見的線性濾波:平均平滑、

計算機視覺-現代方法2讀書筆記中層視覺

本篇思維導圖 注:中層視覺主要關注的是影象中的幾何結構以及特定物件和目標,應用領域包括目標分割和跟蹤 通過聚類分割 分割的目的是為了得到一幅圖片中有用部分的一個精簡的表示,其具體的理論和方法取決於應用的需求 1 人類視覺:分類和格式塔(Gesta

計算機視覺-現代方法2讀書筆記導論大綱

前言 作為CV(Computer Vision)方向的研究生,一直想要系統地瞭解和學習一下CV的基本知識,理清CV發展的脈絡。而David Forsyth的《Computer Vision-A Modern Approach(2nd edition)》是CV領

計算機視覺-現代方法2讀書筆記高層視覺

本篇思維導圖影象配準(Registration)1.配準剛性物體變換:旋轉(rotation)、平移(translation)、縮放(scale) ∑i[(sR(θ)xi+t)−yc(i)]2∑i[(sR(θ)xi+t)−yc(i)]2迭代最近點:通過估計對應點尋找正確的變換

《C語言程式設計現代方法2K.N.King 著》學習筆記C語言概述

1.1 C語言的歷史 1.1.1 起源 C語言是美國貝爾實驗室的 Dennis Ritchie、Ken Thompson 等人為開發 UNIX 作業系統而於 1972 年設計的一種計算機程式語言。

《C語言程式設計現代方法2K.N.King 著》學習筆記C語言基本概念2

2.3 註釋 每一個程式都應該包含識別資訊,即程式名、編寫日期、作者、程式的用途以及其他相關資訊。C語言把這類資訊放在註釋(comment)中。 符號 /* 標記註釋的開始,而符號 */ 則標記註釋

《C語言程式設計現代方法2K.N.King 著》學習筆記C語言基本概念3

2.5 讀入輸入 為了獲取輸入,就要用到 scanf 函式。它是C函式庫中與 printf 相對應的函式。scanf 中的字母 f 和 printf 中的字母 f 含義相同,都是表示“格式化”的意思

《C語言程式設計現代方法2K.N.King 著》學習筆記C語言基本概念4

2.7 識別符號 在編寫程式時,需要對變數、函式、巨集和其他實體進行命名。這些名字稱為識別符號(identifier)。在C語言中,識別符號可以含有字母、數字和下劃線,但是必須以字母或者下劃線開頭。

《C語言程式設計現代方法2K.N.King 著》學習筆記C語言基本概念5

問與答 GCC 最初是 GNU C Compiler 的簡稱。現在指 GNU Compiler Collection,這是因為最新版本的 GCC 能夠編譯用 Ada、C、C++、Fortran、Ja

《C語言程式設計現代方法2K.N.King 著》學習筆記格式化輸入/輸出2

3.2 scanf 函式 就如同 printf 函式用特定的格式顯示輸出一樣,scanf 函式也根據特定的格式讀取輸入。像 printf 函式的格式串一樣,scanf 函式的格式串也可以包含普通字元

計算機程序的構造和解釋2》【PDF】下載

ger car 教材 推薦 教育 5.5 系統 log nbsp 《計算機程序的構造和解釋(第2版)》【PDF】下載鏈接: https://u253469.pipipan.com/fs/253469-230382255 內容簡介 《計算機程序的構造和解釋(原書第2

《 Spring 實戰 》4 讀書筆記

Pxx  表示在書的第 xx 頁。 Spring 框架的核心是 Spring 容器。 1. (P7.) 構造器注入是依賴注入的方式之一。 緊耦合:在 A 類的無參構造器中直接 new 出一個 B 類。 Spring 鬆耦合:在 A 類中使用有參構造器,把 B 類的超類型

unix環境高階程式設計-讀書筆記2

限制 unix系統實現定義了很多幻數和常量,其中有很多已被硬編碼到程式中,或用特定的技術確定。 已下兩種型別是必須的。 (1)編譯時限制(例如,短整型的最大值是什麼?) (2)執行時限制(例如,檔名有多少個字串?) 編譯時限制可在標頭檔案中定義。程式在編譯時包含這些標頭檔案。但是執行

組合語言讀書筆記 2

第2章  暫存器 前一章所說的匯流排,相對於CPU內部來說是外部匯流排。內部匯流排實現了CPU內部各個器件(運算器,控制器,暫存器)之間的聯絡,外部匯流排實現了CPU和主機板上其他器件的聯絡。 不同的CPU,暫存器的個數、結構是不相同的。8086 CPU有14個暫存器

JavaScript入門經典7讀書筆記

斷斷續續看了十來天,終於看完了,還是學到些東西,這本書還是不錯的,各方面都有涉及。 補充了下之前不完善的JS 知識 筆記一般只記必要的東西。‎ Table of Contents 1. JavaScript 基礎 1.1. JavaScript 簡介

《黑客攻防技術寶典Web實戰篇@2讀書筆記1了解Web應用程序

金融 主機 border ket 邊界 輕量 在線 讀書 目的 讀書筆記第一部分對應原書的第一章,主要介紹了Web應用程序的發展,功能,安全狀況。 Web應用程序的發展歷程 早期的萬維網僅由Web站點構成,只是包含靜態文檔的信息庫,隨後人們發明了Web瀏覽器用來檢索和

《人工智慧現代方法17章複雜決策問題學習筆記

前言 本篇文章來自Artificial Intelligence: A Modern Approach一書第17章“複雜決策問題”,進行了翻譯和整理,僅供學習參考。 正文 在之前的章節中討論了單個決策問題,這些問題特點是行動帶來的效用是完全知道的,而接下來討論的序貫決策問題,效用

計算機網路自頂向下方法Wireshark實驗指南

計算機網路:自頂向下方法(第七版)Wireshark實驗指南 這個資源在網上好像很難找,我歷經千辛萬苦找到之後,在文件的內部發現這些文件其實是免費公開在一個網站上的……,連結如下: http://gaia.cs.umass.edu/wireshark-labs/?tdsourcetag=s_pcqq_ai

分享《OpenCV 3計算機視覺Python語言實現2》中文PDF+英文PDF+原始碼

下載:https://pan.baidu.com/s/1gGgEk8Y6X58gfvsmD8U8Xw 更多資料分享:https://www.cnblogs.com/javapythonstudy/ 《OpenCV 3計算機視覺:Python語言實現(第2版)》中文PDF+英文PDF+原始碼中文PDF,20

分享《OpenCV計算機視覺編程攻略3》高清中文版PDF+英文版PDF+源代碼

nag 代碼 經典書籍 pen fff ffffff vpd 9.png image 下載:https://pan.baidu.com/s/1QF4MXrlc0JZlO1zSuBLmKQ 《OpenCV計算機視覺編程攻略(第3版)》高清中文版PDF+英文版PDF+源代碼 高