5G 時代下:多模態理解做不到位註定要掉隊
微博使用者可以以文字、圖片、視訊等多媒體形式,且有自己的特點,微博博文內容形式多樣,包含文字、影象和視訊等媒體,且文字較短,大部分不超過 140 字,文字表述簡潔,簡稱、不規範用語以及網路流行用語被廣泛使用。
隨著 4G、5G 網路的發展,影象視訊在社交網路中的比重越來越大,僅僅使用文字理解的方法無法滿足微博物料召回和物料分發的需求。因此,結合文字、影象、音訊、影象序列等多模態內容理解勢在必行。
本文是多模態內容理解專題的第三篇,在前兩篇文章 《語義鴻溝、異構鴻溝、資料缺失,多模態技術如何跨過這些坎?》 和 《視訊剪輯師飯碗恐不保?AI 剪片又快又好!》 中,AI 前線分別介紹了快手和優酷在多模態內容理解方面的技術和應用實踐,本文將詳解多模態內容理解在微博場景中的實踐和應用,希望讀者可以對這項技術有更好的瞭解。
微博場景中的內容理解背景
微博(Weibo)是一種基於使用者關係資訊和關注機制來分享、傳播以及獲取簡短實時資訊的廣播式的社交媒體、網路平臺。2018 年 12 月,微博的月活躍使用者數達到 4.62 億,12 月平均日活躍使用者數達到 2 億。使用者可以通過 PC、手機等多種終端接入,以文字、圖片、視訊等多媒體形式,實現資訊的即時分享、傳播互動。對於如此龐大的使用者體量和廣泛的興趣標籤,內容理解是社交媒體平臺不可或缺的技術,在資訊分發、計算廣告、個性化推薦等領域都起著重要的作用。
微博又有其自有的特點。微博博文內容形式多樣,微博一條博文包含文字、影象和視訊等媒體。並且,微博文字較短,大部分不超過 140 字(其中大約 20% 的微博文字少於 10 個字),文字表述簡潔,簡稱、不規範用語以及網路流行用語被廣泛使用。隨著 4G、5G 網路的發展,影象視訊在社交網路中的比重越來越大,僅僅使用文字理解的方法無法滿足微博物料召回和物料分發的需求。因此,結合文字、影象、音訊、影象序列等多模態內容理解勢在必行。
本文主要介紹多模態內容理解在微博場景中的實踐和應用,本文接下來結構安排如下:首先簡單介紹多模態資訊處理,然後介紹微博場景中的典型應用和實踐,最後是對多模態未來的展望。
多模態資訊處理簡介
在多媒體資訊處理領域,所謂“模態”,用通俗的話說,就是“感官”,包括視覺、聽覺、語義等,多模態即使用計算機將多種“感官”資訊的融合。近年來,人工智慧技術的蓬勃發展使得機器智慧不斷進步,多模態機器學習讓機器像人類一樣具有視覺、聽覺和語義感知、理解和決策能力,正成為未來人工智慧發展的必然方向,在自然人機互動、自動駕駛、VR/AR 等領域有巨大的應用價值。
從多模態的資訊融合角度劃分,可以分為鬆耦合的方法和緊耦合的方法。鬆耦合的方法,也就是單獨處理各個模態,比如分別對影象和文字進行分析理解,包括人臉檢測識別、OCR、實體識別等,然後將文字和影象的結果進行後期融合,得到最終的結果。這種方法好處在於各個模態單獨處理,相互不存在強依賴關係,但這種方式對單模態的要求比較高,單模態做不好,多模態也不會做的很好。緊耦合則採用一種端到端的方式,將文字、影象、語音等模態同時輸入到一個模型中進行訓練,得到最終的結果,但這種方法難度較大。目前工業界應用主要以鬆耦合方法為主,緊耦合方法也逐漸從學術界向工業界邁進。
多模態在微博影象理解中的應用實踐
微博平臺上圖片微博和視訊微博廣泛流行,如何有效理解這些內容成為了新的挑戰。只依賴微博文字或者影象某一種模態進行理解存在如下幾點侷限性和困難:
1.文字分析對歧義理解,隱喻處理存在較大困難。
文字存在歧義性,只依賴自然語言處理很難給出正確結果,比如圖 1 中文字提到了“蘋果”。如果僅僅依賴 NLP 技術很難識別出“蘋果”在這裡是指食物還是電子產品,但檢視影象就能明確指的是蘋果手機。
2.文字打標籤無法處理短文字或者無文字微博。
博主有時候也會發純影象微博或者配短文字的微博,文字分析無法理解作者的意圖,如圖 2。
3. 影象理解需要大量的標註樣本。
對於無文字或短文字微博,通過影象理解技術可以達到博文理解的目的。然而,目前影象理解需要大量的人工標註,且不利於標籤數量的快速增加。
多模態內容理解框架
微博的內容理解輸出影象標籤和微博標籤兩種標籤。一條帶圖微博包含的影象個數不等(0< 影象個數 <10),影象標籤主要表達單張影象表達的主題,可以進一步用於微博理解,或者單獨用於影象推薦和分發;微博標籤主要表達整條微博(包括文字和影象)表達的資訊,可以通過文字標籤和影象標籤融合得到。
我們假定長文字微博中文字和影象表達的意思是基本一致的,因此可以採用多模態內容理解方式給影象打標籤,基本框架結構如圖 3。通過多模態方式得到影象標籤後,可以進一步結合文字資訊和影象標籤給微博打標籤。同時,利用多模態方式,可以生產一批帶標籤的影象樣本,用於訓練影象分類模型的影象打標籤(如 Inception-Resnet V2),用於只包含影象,或短文字(少於 10 字)的影象理解。反過來也可用於多模態內容理解的資料預處理。利用此框架結構,可以逐漸自動擴充套件標籤個數,減少人工標註成本。
另外,通過多模態內容理解,可以為影象提供更準確更精細的標籤。如圖 4,基於文字的標籤結果為“投資”、“谷歌”、“無人駕駛汽車”, 影象標籤為“交通工具”、“汽車”。通過多模態方式,可以為此影象打上 “無人駕駛汽車”這一精細的標籤,有利於物料分發和個性化推薦。
訓練樣本獲取
微博標籤體系是一種樹形結構,分為一、二、三級。文字標籤反映著文字的一個主題資訊,圖片標籤反映著圖片的主題資訊,只有它們的主題資訊重合時,認為它們反映同一主題,具有語義一致性。優質微博一般語義一致性較好,所以訓練樣本儘量選擇優質微博物料。然後刪除文字過短樣本(小於 10 個漢字),表情包等無意義的影象樣本。同時我們使用 Inception-Resnet v2 網路結構訓練了只包含一級標籤的影象分類模型。為了保證影象和文字表達的一致性,我們選取了文字一級標籤(來源文字打標籤及人工稽核標籤)和影象一級標籤一致或相關的物料,然後將圖文標籤二級及以下標籤合併做為樣本標籤。流程如圖 5。
多模態影象理解演算法
我們採用緊耦合的方法,主體結構為 Encoder-Decoder 框架,輸入部分兩個源:一個為微博文字,一個為對應圖片,輸出為影象對應的多標籤類別。Encoder 部分對微博文字和圖片兩個模態融合,影象是看成一個二維空間維度資訊表達,而文字句子可以看成是一個時間維度的資訊表達,並且不是影象中的每個畫素和文字中的單詞同樣重要,對內容理解幫助最大的可能只是區域性資訊,因此,我們採用基於 Spatial-Temporal Attention 模型融合文字和影象,在 Spatial Attention 部分通過文字增強影象特徵,而在 Temporal Attention 部分通過影象增強文字特徵。最後將 Encoder 的輸出的多模態特徵作為 Decoder 的輸入,通過 Decoder 解碼部分輸出多個標籤。Decoder 部分使用的 LSTM 模型,當然,LSTM 也可以用 GRU、SRU 等替換。
在模型訓練過程中,如果只使用樣本中的文字進行 Embedding 特徵訓練,樣本量偏少並且分佈不均,造成文字編碼的表達能力弱,無法使用。因此,我們採用在大規模的微博文字語料上進行單獨預訓練,保證了文字編碼的多樣性和準確性。影象特徵採用 Inception-ResNet-V2 網路在 ImageNet 資料集訓練得到的特徵。
實驗結果及示例
經過資料清洗及預處理,我們整理了 12 個一級標籤,擴充一二三級標籤總共 26 個,20000 條資料用於訓練,人工標註 4000 條圖文標籤用於測試。
為了結果能夠反映各個標籤,度量指標採用巨集平均 F1 值,即先對每一個標籤統計 F1 值,然後在對所有類求算術平均值。實驗巨集平均 F1 值為 0.94187,得到了預期的結果。
上圖文字為“生活不需多豐富,一碟青菜配紅酒。有生實現中國夢,再添道菜帶點肉。”影象為一碟菜和一杯紅酒。如果只用影象只能打上“美食”的一級標籤,但結合文字的多模態打標籤,可以打上更詳細的標籤“中餐”、“廚藝”等二級標籤。
同樣的,上圖文字為“迷人高階灰,高顏值混搭風”, 影象內容為家裝。只依賴文字,很難理解本條微博所表達的意思。但利用多模態方法,可以得到“家裝家居”的一級標籤,還可以得的二級標籤“家居裝修”。
另外,在得到影象標籤後,我們也嘗試採用投票機制對微博打標籤,選擇具有多圖的微博 10000 條,約 50000 張圖片,投票結果直接選擇 top1 準確率為 0.84881, 修正文字標籤結果佔比達 10% 左右。
利用多模態技術一定程度解決人工標註圖文資料的繁瑣的費力工作,不足之處是初始資料的構建仍然需要圖片分類介面和文字標籤的介面來篩選物料,下一步我們嘗試將 OCR、人臉檢測等特徵也融入到模型中。另外,嘗試通過機器學習直接判斷影象和文字表達是否一致,如果一致則採用多模態方式,否則微博標籤直接使用文字標籤。
未來展望
上面簡單介紹了多模態在影象理解中的應用探索。在當前自媒體時代,視訊在社交網路中的比重也越來越重,視訊內容理解的需求也隨之增加。而視訊本身就包含了多模態資訊(影象序列、語音、影象中的文字等),多模態資訊處理技術將會扮演重要的角色。我們將會加大多模態在視訊理解方面的投入。同時也會在使用者畫像、個性化推薦等方向進行多模態方面的探索及應用落地。
對於整個業界,隨著 4G、5G 網路及感測器技術的發展,在自動駕駛、自然人機互動、AR/VR 等領域資料型別也會有新的變化,如 depth 影象、全景影象、Lidar 影象、立體感音訊等,這也會給多模態內容理解帶來新的需求。
多模態內容理解技術方面,企業界主要還是以鬆耦合的方法為主;緊耦合方法也會逐漸成熟,逐漸應用於業界。主要的方向有:
一. 與知識圖譜的結合。利用基於有監督深度學習的模型分別理解各個模態,同時結合知識圖譜深入理解多模態中各模態的內部關係,進而提供更準確高效的方案。
二. 增加推理能力。目前無論單模態內容理解還是多模態內容理解,都是以資料驅動的技術,如何將所“感知”到的東西進行推理,以避免不合邏輯的識別結果。
另外,藉助於多模態資訊處理,小規模樣本資料和非監督的內容理解將會有一定的突破。當前內容理解主要以資料驅動,需要大量的標註樣本。多模態包含比單模態更豐富的資訊,並且存在一定的資訊冗餘,通過多模態之間資訊相互增強和補充,在小規模樣本資料和非監督內容理解方面比單模態更有優勢。
多模態將會為內容理解帶來新的突破,值得我們關注和期待。
作者簡介
樑清華,微博研發中心演算法工程師,2016 年 4 月畢業於北京交通大學,獲訊號與資訊處理專業工學博士學位。長期從事影象處理和計算機視覺相關的研發工作,主要研究方向有影象內容理解,OCR,三維重建 SLAM 等。