MIT設計跨模態系統,讓模型“聽音識圖”
來源:MIT News
編譯:Bing
最近,麻省理工學院的電腦科學家們提出了一種系統,基於對圖片的語音描述,可以學習在圖片中辨認目標物體,給定一張圖片和音訊解釋,模型可以實時辨認出音訊描述的相關區域。
與現有的語音識別技術不同,該模型不需要對其訓練的樣本進行手動標註,而是模型直接從錄音中學習單詞,並從原始圖片中學習目標物體,將它們相互連線。
目前,模型僅僅可以辨認幾百個不同的單詞和目標物體類別,但是研究者希望,未來他們的這種語音和目標辨認相結合的技術可以節約大量手工勞動,為語音辨認和影象識別開啟新的世界。
像Siri之類的語音識別系統需要對上千小時的錄音進行轉譯。用這些資料,系統學會將語音訊號對映到具體的單詞上。但一旦詞彙中出現了新術語,這種方法就不管用了,系統就要重新訓練。
電腦科學和人工智慧實驗室(CSAIL)的研究者,David Harwath表示:“我們想用一種更自然的方法進行語音識別,使用人類常用的訊號和資訊來訓練。但是那樣的機器學習演算法並不容易獲取。我們想到了一種類似教小孩走路並敘述自己所看到的景象的方法。”Harwath曾參與發表了一篇論文,論文中的模型在最近的計算機視覺歐洲會議上進行了展示。
在上述論文中,研究人員用一張圖片展示了他們的模型,圖片上有一位年輕的金髮小女孩,她有一雙藍色的眼睛,穿著藍色的連衣裙,背景中有一座白色燈塔,燈塔的頂部是紅色的。模型會學習圖片中的哪些畫素與小女孩有關,例如哪些是“女孩”、“金髮”、“藍眼睛”、“藍裙子”等等。隨著音訊的播放敘述,模型會在圖片上對這些區域進行高亮。

其中一種有前景的應用就是在兩種不同的語言之間進行裝換,無需雙語標註器。全世界大約有7000種語言,只有100種左右有足夠的資料進行語音識別。但是,是否有這樣一種情景,當兩種說著不同語言的人描述同一幅圖畫呢?如果模型學會語言A所描述的語言訊號所對應的圖中物體,同時也學會了B所描述的同樣物體,那麼它就能將這兩種訊號看作是彼此的翻譯版本。
Harwath說表示,這有助於解決神話故事中的“巴別塔”問題。
音訊-視覺聯絡
這項工作是Harwath等人早期一項研究的擴充套件,他們當時研究將語音與相關主題的圖片相連線。在早期研究中,他們從Mechanical Turk平臺的分類資料集中選擇不同場景的圖片,之後讓人對圖片進行描述,就像給小孩子講故事,錄製大約10秒鐘的視訊。他們收集了20多萬份圖片和與之對應的音訊註解,分成了上百種不同類別,例如沙灘、購物廣場、城市街道、臥室等等。
之後,他們設計了一款模型,由兩個獨立的卷積神經網路構成。其中一個處理影象,另一個處理光譜(音訊訊號的視覺表示)。模型的最高層會計算兩個網路的輸出,並將語音模式對映到圖片資料上。
例如,研究者會A註釋輸入到圖片A中,這是相對應的。之後又會隨機選擇一個註釋B輸入到圖片A中,這就是錯誤的配對。經過對比上千種錯誤的陪讀,模型學會了與圖片A相對應的語音訊號,然後將這些訊號和註釋中的單詞聯絡起來。正如2016年一份研究中所描述的,模型學會了表示“water”這個詞的語音訊號,然後檢索出了所有帶水的圖片。
但是Harwath表示,這並不能證明當某人說出特定單詞時就指的是某個畫素。
matchmap
在新的論文中,研究人員對之前的模型進行了修改,將特定詞語和特定的畫素補丁聯絡在一起。研究人員在同樣的資料集上訓練模型,但是最終共有40萬個圖片註釋對子,他們從中隨機選取了1000對用作測試。
在訓練時,模型像上述那樣給予不同的註釋,但這次,分析圖片的卷積神經網路將圖片用網格分成不同的部分,每個單元都有對應的畫素補丁。分析音訊的卷積神經網路將聲譜也分成不同片段,也就是說一秒鐘可能會有一到兩個單詞。
在正確的圖片和註釋對子下,模型會將第一個圖片網格與第一段音訊對應起來,然後將同樣的圖片網格與第二段音訊對應,如此下去。對每個網格和音訊片段,模型都會給出一個相似度分數,表示音訊訊號與目標物體的相似程度有多少。
但其中的難題是,在訓練過程中,模型並不知道音訊和圖片對應的標準是什麼。所以這篇論文最大的貢獻就是,它通過教網路哪些圖片和註釋是同屬一類,而哪些不是,就能自動推斷這些跨形態連線。
論文作者將語音和圖片畫素之間的聯絡稱作“matchmap”。訓練了數千對圖片和註釋對子之後,網路會在matchmap中主線縮小與詞語相對的目標物體。

論文的寫作者Florian Metze說:“很高興看到這種神經方法連線起圖片元素和音訊片段,並且不用文字作為中間工具。這並非是模仿熱淚學習,而是完全基於彼此之間的連線。這也許能幫助我們理解,通過音訊和視訊線索如何形成視覺表示。機器翻譯是一種應用,但它也能用於對瀕危語言的記錄上。我們也可以想象如何將這種技術應用到廢除劉的語音中,或者殘障人士身上。”