1. 程式人生 > >百度 PaddlePaddle開源視訊分類模型Attention Cluster,曾奪挑戰賽冠軍

百度 PaddlePaddle開源視訊分類模型Attention Cluster,曾奪挑戰賽冠軍

開發十年,就只剩下這套架構體系了! >>>   

Attention Cluster 模型

視訊分類問題在視訊標籤、監控、自動駕駛等領域有著廣泛的應用,但它同時也是計算機視覺領域面臨的一項重要挑戰之一。

目前的視訊分類問題大多是基於 CNN 或者 RNN 網路實現的。眾所周知,CNN 在影象領域已經發揮了重大作用。它具有很好的特徵提取能力,通過卷積層和池化層,可以在影象的不同區域提取特徵。RNN 則在獲取時間相關的特徵方面有很強的能力。

Attention Cluster 在設計上僅利用了 CNN 模型,而沒有使用 RNN,主要是基於視訊的以下幾個特點考慮:

圖 1 視訊幀的分析

首先,一段視訊的連續幀常常有一定的相似性。在圖 1(上)可以看到,除了擊球的動作以外,不同幀幾乎是一樣的。因此,對於分類,可能從整體上關注這些相似的特徵就足夠了,而沒有必要去特意觀察它們隨著時間的細節變化。

其次,視訊幀中的區域性特徵有時就足夠表達出視訊的類別。比如圖 1(中),通過一些區域性特徵,如牙刷、水池,就能夠分辨出『刷牙』這個動作。因此,對於分類問題,關鍵在於找到幀中的關鍵的區域性特徵,而非去找時間上的線索。

最後,在一些視訊的分類中,幀的時間順序對於分類不一定是重要的。比如圖 1(下),可以看到,雖然幀順序被打亂,依然能夠看出這屬於『撐杆跳』這個類別。

基於以上考慮,該模型沒有考慮時間相關的線索,而是使用了 Attention 機制。它有以下幾點好處:

1. Attention 的輸出本質上是加權平均,這可以避免一些重複特徵造成的冗餘。

2. 對於一些區域性的關鍵特徵,Attention 能夠賦予其更高的權重。這樣就能夠通過這些關鍵的特徵,提高分類能力。

3. Attention 的輸入是任意大小的無序集合。無序這點滿足我們上面的觀察,而任意大小的輸入又能夠提高模型的泛化能力。

當然,一些視訊的區域性特徵還有一個特點,那就是它可能會由多個部分組成。比如圖 1(下)的『撐杆跳』,跳、跑和著陸同時對這個分類起到作用。因此,如果只用單一的 Attention 單元,只能獲取視訊的單一關鍵資訊。而如果使用多個 Attention 單元,就能夠提取更多的有用資訊。於是,Attention Cluster 就應運而生了!在實現過程中,百度計算機視覺團隊還發現,將不同的 Attention 單元進行一次簡單有效的『位移操作』(shifting operation),可以增加不同單元的多樣性,從而提高準確率。

接下來我們看一下整個 Attention Cluster 的結構。

整個模型可以分為三個部分:

1. 區域性特徵提取。通過 CNN 模型抽取視訊的特徵。提取後的特徵用 X 表示,如公式(1)所示:

(1)。X 的維度為 L,代表 L 個不同的特徵。

2. 區域性特徵整合。基於 Attention 來獲取全域性特徵。Attention 的輸出本質上相當於做了加權平均。如公式(2)所示,v 是一個 Attention 單元輸出的全域性特徵,a 是權重向量,由兩層全連線層組成,如公式(3)所示。實際實現中,v 的產生使用了 Shifting operation,如公式(4)所示,其中α和β是可學習的標量。它通過對每一個 Attention 單元的輸出新增一個獨立可學習的線性變換處理後進行 L2-normalization,使得各 Attention 單元傾向於學習特徵的不同成分,從而讓 Attention Cluster 能更好地學習不同分佈的資料,提高整個網路的學習表徵能力。由於採用了 Attention clusters,這裡會將各個 Attention 單元的輸出組合起來,得到多個全域性特徵 g,如公式(5)所示。N 代表的是 clusters 的數量。

3. 全域性特徵分類。將多個全域性特徵拼接以後,再通過常規的全連線層和 Softmax 或 Sigmoid 進行最後的單標籤或多標籤分類。

用 PaddlePaddle 訓練 Attention Cluster

PaddlePaddle 開源的 Attention Cluster 模型,使用了 2nd-Youtube-8M 資料集。該資料集已經使用了在 ImageNet 訓練集上 InceptionV3 模型對特徵進行了抽取。

如果執行該模型的樣例程式碼,要求使用 PaddlePaddle Fluid V1.2.0 或以上的版本。

資料準備:首先請使用 Youtube-8M 官方提供的連結下載訓練集和測試集,或者使用官方指令碼下載。資料下載完成後,將會得到 3844 個訓練資料檔案和 3844 個驗證資料檔案(TFRecord 格式)。為了適用於 PaddlePaddle 訓練,需要將下載好的 TFRecord 檔案格式轉成了 pickle 格式,轉換指令碼請使用 PaddlePaddle 提供的指令碼 dataset/youtube8m/tf2pkl.py。

訓練集:http://us.data.yt8m.org/2/frame/train/index.html

測試集:http://us.data.yt8m.org/2/frame/validate/index.html

官方指令碼:https://research.google.com/youtube8m/download.html

模型訓練:資料準備完畢後,通過以下方式啟動訓練(方法 1),同時我們也提供快速啟動指令碼 (方法 2)

# 方法 1

# 方法 2

使用者也可下載 Paddle Github 上已釋出模型通過--resume 指定權重存放路徑進行 finetune 等開發。

資料預處理說明: 模型讀取 Youtube-8M 資料集中已抽取好的 rgb 和 audio 資料,對於每個視訊的資料,均勻取樣 100 幀,該值由配置檔案中的 seg_num 引數指定。

模型設定: 模型主要可配置引數為 cluster_nums 和 seg_num 引數。其中 cluster_nums 是 attention 單元的數量。當配置 cluster_nums 為 32, seg_num 為 100 時,在 Nvidia Tesla P40 上單卡可跑 batch_size=256。

訓練策略:

採用 Adam 優化器,初始 learning_rate=0.001

訓練過程中不使用權重衰減

引數主要使用 MSRA 初始化

模型評估:可通過以下方式(方法 1)進行模型評估,同樣我們也提供了快速啟動的指令碼(方法 2):

# 方法 1

# 方法 2

使用 scripts/test/test_attention_cluster.sh 進行評估時,需要修改指令碼中的--weights 引數指定需要評估的權重。

若未指定--weights 引數,指令碼會下載已釋出模型進行評估

模型推斷:可通過如下命令進行模型推斷:

模型推斷結果儲存於 AttentionCluster_infer_result 中,通過 pickle 格式儲存。

若未指定--weights 引數,指令碼會下載已釋出模型 model 進行推斷

模型精度:當模型取如下引數時,在 Youtube-8M 資料集上的指標為:

引數取值:

評估精度:

相關推薦

PaddlePaddle開源視訊分類模型Attention Cluster挑戰賽冠軍

開發十年,就只剩下這套架構體系了! >>>   

Familia:NLP開源的中文主題模型應用工具包

ica 用戶 font 文本內容分析 adb 文本相似度 表示 2.0 wiki 參考:Familia的Github項目地址、百度NLP專欄介紹 Familia 開源項目包含文檔主題推斷工具、語義匹配計算工具以及基於工業級語料訓練的三種主題模型:Latent Dir

【深度學習系列】一起來參加 PaddlePaddle AI 大賽吧!

人工 領域 而且 標註數據 sea nload 類型 指定路徑 ear   寫這個系列寫了兩個月了,對paddlepaddle的使用越來越熟悉,不過一直沒找到合適的應用場景。最近百度搞了個AI大賽,據說有四個賽題,現在是第一個----綜藝節目精彩片段預測 ,大家可以去檢測一

主從庫同步與讀寫分離(雲教學視訊分享)

目錄 一、理論解析  二、教學視訊 一、理論解析  第一步,Master 及主伺服器將對資料的操作記錄到二進位制日誌當中(Binary log)當中。在每個事務更新資料完成之前,Master 在日誌裡記錄這些改變,MySql 將日誌序列的寫入二進位制當中,在事

Apollo開源架構搭建(VMware虛擬機器版)

https://blog.csdn.net/BIT20091643/article/details/78887508 一、虛擬機器 主機作業系統為Win 10,虛擬機器版本VMware Workstation12.5.7.20721,百度搜索即可下載。 二、Ubuntu14.04系統安裝 A

人工智慧深度學習計算機視覺自然語言處理機器學習網盤視訊教程

人工智慧,深度學習,計算機視覺,自然語言處理,機器學習視訊教程下載: 1. CS224D 2. NLP到Word2vec 3. Opencv3影象處理 4. Tensorflow 5. 機器學習 6. 人工智慧課程 7. 聊天機器人視訊教程 8. 自然語言處理 獲取檔案下載連結

【備忘】web全棧架構師-56階段對標T6-T7視訊

階段1:初識ES6 階段2:ES6詳解   階段3:軟體的使用(2017.11.5) 階段4:Markdown,git(2017.11.6) 階段5:generator,模組化與babel(2017.11.8) 階段6:資料互動(2017.11.10) 階段7:答疑+webS

PaddlePaddle常規賽NLP賽道火熱開啟

作為人工智慧時代的基礎,深度學習一直是人工智慧最熱門、企業投入最多的研究領域之一,百度PaddlePaddle深度學習框架應運而生,這是國內唯一一家擁有自主智慧財產權的開源深度學習框架。在此框架中,匯聚了更多的AI科學家、架構師、AI愛好者,設定常規賽,提供豐富

Unity呼叫地圖(可實現模型、UI覆蓋)

相信如果在看我這篇部落格的朋友應該都已經將度娘上【Unity】+【百度地圖】下的搜尋結果的都看過一遍了,大概列舉一下: 1、使用百度地圖的Android SDK,將自己寫好的建立地圖View的方法打成jar包,並在Unity中呼叫。 2、使用百度地圖的靜

雲音視訊直播服務(LSS)的使用流程

音視訊直播LSS(Live Streaming Service)是一個直播PaaS服務平臺,旨在幫助企業及個人開發者快速搭建自己的直播平臺及應用,關於LSS的相關介紹請採參考百度雲官網指導文件:https://cloud.baidu.com/doc/LSS/ProductDe

在 Soui 中嵌入 MiniBlink 初體驗(一):支援 ECharts 開源視覺化庫顯示

一、引言 最近在工作中遇到了這麼一個需求: 產品想要讓我們的桌面客戶端中顯示覆雜的圖表,類似下圖所示的樣子(圖片來自網路),不排除後期會增加更多複雜圖示的可能性,因此我們需要考慮如何實現這種需求,並能夠支援其需求的擴充套件性 那麼,看到這個需求

PaddlePaddle再獲新技能 智能推薦、對話系統、控制領域都能搞定!

案例 轉移 深度學習 碰撞 成功 不足 相對 近日 處理 引言:人工智能技術越來越廣泛的應用於各行各業,而這一切都離不開底層深度學習框架的支持。近日,百度深度學習PaddlePaddle正式發布了強化學習框架PARL,同時開源了基於該框架,在NeurIPS 2018強化學習

一塊GPU就能訓練語義分割網絡PaddlePaddle是如何優化的?

rac 更多 分割 不同 進行 you 不可 use 測試設備 一、 圖像語義分割模型DeepLab v3 隨著計算機視覺的發展,語義分割成為了很多應用場景必不可少的一環。 比如網絡直播有著實時剔除背景的要求,自動駕駛需要通過語義分割識別路面,與日俱增的應用場景對語義分割的

UEditor新增視訊 增加支援“通用程式碼”功能支援微信

/** * Created by JetBrains PhpStorm. * User: taoqili * Date: 12-2-20 * Time: 上午11:19 * To change this template use File | Settings | File Templates.

全面擁抱視訊重回流量生態李彥巨集缺席背後的選擇題

智造觀點處於輿論漩渦的李彥巨集,此次罕見未出席今天的百度聯盟峰會,在百度宣稱要擁抱

拋卻紛爭開源世界帶來了什麼?

百度,一個人人悉知的詞,曾經的風靡使它變成了一個日常用語。不過近年來,百度的風評每況愈下。 直到在昨天的百度的AI開發者大會上,李彥巨集被觀眾用礦泉水澆頭羞辱,百度又一次被推到聚光燈下。 如果拋卻紛爭,用技術平等的眼光去看待,百度給開源世界帶來什麼?本期將介紹幾個由百度發起的核心開源專案。 1、incub

圖表】頁面引入多個圖表讓其只適應

++ i++ top color win setoption 實例 get logs 【百度圖表】頁面引入多個圖表,讓其只適應 網上發現有個這樣的方法讓圖表自適應,window.onresize = myChart.resize; 但是發現好像只有最後一個有效,於是就有了

php獲取ios或android通過文件頭(header)傳過來的坐標通過接口獲取具體城市和地址並存入到session中。

word 請求 sse 百度 頭文件 reac session ray 位置 首先,在function.php方法文件中封裝一個獲取header頭文件的方法。 if (!function_exists(‘getallheaders‘)) {   function g

智能視頻音箱發布搭載DuerOS系統李彥宏說這是新品類

小度音箱智能音箱大家都很熟悉,但帶屏的智能音箱並不多。 昨天,百度對外發布了“小度在家”帶屏智能音箱。百度CEO李彥宏現場助陣。李彥宏說“有屏幕的智能音箱和沒屏幕的智能音箱是有本質區別的,小度在家這樣一款產品是一個新的品類,代表了新的方向,未來的中國很大的趨勢會來自智能制造”。 pgc-image/15221

架構師雲連接(有失效期快點保存1天後刪除)

HP ava SQ 從入門到精通 開發 AC nod PQ 連接 1. PS大師之路視頻教程鏈接: https://pan.baidu.com/s/1mjYbcJA密碼:pqdt2.HTML5+CSS3從入門到精通.iso 鏈接:https://pan.baidu.com/