1. 程式人生 > >CNN in MRF: Video Object Segmentataion via Inference in A CNN-Based Higher-Order Spatio-Temporal MRF

CNN in MRF: Video Object Segmentataion via Inference in A CNN-Based Higher-Order Spatio-Temporal MRF

    問題:時間的依賴變數通過光流建立,空間的依賴由於空間限制表達能力,無法建模複雜依賴,一些高階概率結合學習模式或強化預分割區域中標籤一致性

    使用CNN進行高階空間可能性編碼,可以基於CNN定義目標函式來評估給定的掩碼整體。每幀畫素空間potential可以使用基於CNNDA方法進行定義,更復雜的依賴也可以通過這種方式進行定義,因此MRF模型將強制每幀中的推斷結果更像特定的物件。

    對MRF以及相關定義的說明

    馬爾科夫核心:當前節點只與和它相連的有關,而與其他無關,具有條件獨立性求取聯合概率分佈

    團塊:團塊中節點集合是全連線的,每對節點間都存在連線

    因子:定義為團塊中變數的函式

    重新回到文章,在一整個視訊序列中定義隨機場X,每幀中每個畫素都是一個變數,值在{0,1}之間(二值分類),用x表示X中變數可能的label。場中的團用C定義,團中變數集用xc表示。

    隨機場最大後驗概率時,x的標籤

表示受圖片資料限制時,各團能量總和最小時x應取什麼label

    通過最小能量函式實現最大後驗概率


一元能量函式,表示每個畫素點取當前label 的概率的對數值。

    Et使用forward-backward consistency check進行過濾。


用兩幀之間對應的標籤(畫素)作差,Wij用於表示時空連線可信度,該能量函式用於保證時空一致性。

    空間:一幀中所有畫素作為一個團,也即一幀中的某個畫素的label與當前幀中其餘所有畫素都有關。

    計算一幀影象的能量函式f(·),評價一整個mask的質量,如直接用當前mask與真值mask直接作差,但實際上真值也是不知道的。空間能量函式定義如下


    基於CNN能量函式的MRF推斷比較困難

    公式太多我就直接放圖了