1. 程式人生 > >計算機視覺(四)

計算機視覺(四)

迴圈神經網路

1、迴圈神經網路使用的輸出為什麼不是得分最大的而是其概率分佈:這樣更具有多樣性,相同輸入的情況下使用概率分佈能得到更多樣的輸出,這取決於第一個時間步的輸入。(這裡還有一個取樣的概念,這個還是不太懂)
2、反向傳播並非沿時間步整個進行傳播,而是通過時間的截斷一部分一部分的進行。
3、使用LSTM的好處:有效的控制了梯度消失與爆炸,而且有利於梯度的傳播(具體原理不太瞭解)

識別與分割

1、語義分割的一種思路是將影象分成不同的小塊輸入到卷積神經網路中進行分類,通過引數共享來減小運算量
2、上取樣:一種思路是去池化,示意圖如下:
這裡寫圖片描述
轉置卷積也是去池化的一種,它可以類比於下采樣中的跨卷積,跨卷積示意圖如下:
這裡寫圖片描述


反捲積其實是用特徵值這個標量做輸入給卷積核加權,示意圖如下:
這裡寫圖片描述
3、目標識別
1)對於目標識別來說,使用滑窗法的代價太大,因為不知道目標的尺寸大小,這裡比較常用的是候選區域,先使用傳統的方法劃定許多個候選區域,之後針對這些候選區域進行識別等操作;fastrcnn的進一步改進是先將圖片進行卷積得到高解析度的特徵圖,然後劃分候選區域進行操作,之後fasterrcnn還有進一步改進,自動學習候選框,這裡不再細講。
這裡寫圖片描述
2)另一種是yolo或ssd的方法,將影象劃分成不同的網格,使用幾個不同的候選框,要做的就是在每個網格中預測候選框的偏移以及相應的類別
這裡寫圖片描述