看圖聊天的騷操作,MIT開發精準到單詞的語音-影象配對系統

ofollow,noindex" target="_blank">機器之心 翻譯
參與:張倩、劉曉坤、王淑婷 作者:Rob Matheson
看圖聊天的騷操作,MIT開發精準到單詞的語音-影象配對系統
MIT 電腦科學家開發了一個系統,可以根據有關影象的語音描述學習識別、定位、檢索其中的目標。給定一幅影象和一份語音描述,模型就能實時找出影象中與特定詞彙描述相符的相關區域,這樣配置了該功能的語音助手也能跟你一起分享看照片的心情了。該方法有望應用於無監督雙語翻譯,相關論文發表在 ECCV2018 上。
與當前語音識別技術不同,該模型不需要人工轉錄和註釋其所訓練的例子,而是直接從原影象的錄音片段和目標中學習詞彙,然後建立它們之間的聯絡。
圖 1:模型的輸入:影象和語音波形的配對。
該模型現在只能識別幾百個單詞和物體型別,但研究人員希望這一「語音-目標」組合識別技術將來能夠為人類節省很多時間,同時為語音和影象識別技術開啟新的大門。
語音識別系統(如 Siri)需要轉錄幾千個小時的錄音。該系統使用這些資料學會匹配語音訊號與特定詞彙。如果有新詞加入詞典,這種方法就不好用了,而且系統必須重新訓練。
「我們想用一種更自然的方式做語音識別,利用人類便於使用的額外訊號和資訊,但機器學習演算法通常無法利用這些資訊。我們訓練模型的方法類似於讓一個小孩走過一個區域,然後描述他看到了什麼,」電腦科學和人工智慧實驗室(CSAIL)及口語系統小組研究員 David Harwath 表示。Harwath 在一篇 ECCV 大會論文中描述了這一模型。
在該論文中,研究人員展示了他們的模型。他們使用的影象中有一個金髮碧眼的小女孩,穿著藍色連衣裙,背景是一座紅頂的白色燈塔。該模型學會了建立影象中的元素與「女孩」、「金髮」、「藍眼睛」、「藍色裙子」、「白色燈塔」和「紅色屋頂」之間的關聯。給出一段音訊描述,模型會根據描述顯示出影象中的每個目標。
圖 7:左邊顯示了兩幅影象及其語音訊號。每種顏色對應於從完全隨機 MISA 網路的兩個匹配圖中匯出的一個連通分量。右邊的掩碼顯示與每個語音片段相對應的片段。掩碼下方展示了從 ASR 轉錄中獲得的描述。請注意,這些詞從未用於學習,只是用於分析。
學習不同語言之間無需雙語註釋的翻譯是該技術一種有前景的應用。全世界大約有 7000 種口語,其中只有大約 100 種具有充足的語音識別轉錄資料。如果模型從與影象中的目標對應的語言 A 中學習語音訊號,同時從對應於相同目標的語言 B 中學習語音訊號,該模型就能假設這兩種訊號(及對應的詞)可以互譯。
「這有可能是一種巴別魚式的機制,」Harwath 說,巴別魚是《銀河系漫遊指南》小說中虛構的一種生物耳機,它將不同的語言翻譯給佩戴者。該論文的合著者包括 CSAIL 的研究生 Adria Recasens、訪問生 Didac Suris、前研究員 Galen Chuang、電氣工程和電腦科學教授兼 MIT-IBM 沃森人工智慧實驗室負責人 Antonio Torralba 及領導 CSAIL 口語系統小組的高階研究科學家 James Glass。
聲音-視覺關聯
這項研究基於早期由 Harwath、Glass、Torralba 開發的將語音與主題相關的影象關聯起來的模型。在早期研究中,他們從眾包的 Mechanical Turk 平臺的分類資料庫提取場景影象。然後他們讓人們按照向嬰兒敘述的方式用大約 10 秒的時間來描述影象。他們編譯了超過 20 萬對影象和音訊描述,涉及數百個不同的類別,例如海灘、購物廣場、城市街道和房間等。
場景識別資料庫:http://places.csail.mit.edu/
然後他們設計了一個由兩個獨立的卷積神經網路構成的模型。一個處理影象,另一個處理聲譜(音訊訊號隨時間變化的視覺化表示)。模型的最頂層計算兩個網路的輸出並對語音模式和影象資料進行對映。
例如,研究人員將描述 A 和影象 A(正確配對)饋送給模型。然後他們再饋送一個隨機描述 B 和影象 A(錯誤配對)。在比較了影象 A 的數千個錯誤配對之後,模型學習到了對應影象 A 的語音訊號,並關聯描述中的單詞訊號。如 2016 年的這篇論文所述,模型學習選取對應單詞「水」的訊號,並檢索包含水的影象。「但它並沒有提供用特定單詞檢索特定影象畫素塊的功能。」Harwath 說。
相關連結:http://news.mit.edu/2016/recorded-speech-images-automated-speech-recognition-1206
製作匹配圖
在這篇新論文中,研究人員修改了模型,將特定單詞與特定畫素塊相關聯。他們在同一個資料庫上訓練了該模型,但影象-描述為 40 萬對。他們隨機拿出了 1000 對用來進行測試。
在訓練中,模型同樣會得到正確和錯誤的影象和描述配對。但這一次,影象分析 CNN 將影象分成了由畫素塊組成的網格。音訊分析 CNN 將聲譜圖分成幾段,比如一秒捕捉一兩個單詞。
對於正確的影象和描述對,模型將網格的第一個單元與第一段音訊匹配,然後將同一單元與第二段音訊匹配,以此類推,一直貫穿每個網格單元,跨越所有時間段。對於每個單元和音訊片段,它提供相似性分數,這取決於訊號與目標的匹配程度。
問題是,在訓練過程中,模型無法獲取語音和影象之間的任何真實對齊資訊。Harwath 說,「該論文的最大貢獻是,通過簡單地教導網路哪些影象和描述屬於同一組,哪些對不屬於同一組,證明了這些跨模態(視-聽)資訊可以自動推斷對齊。」
研究人員將語音說明的波形與影象畫素之間的這種自動學習關聯稱為「匹配圖」。經過成千上萬對影象-描述的訓練,網路將這些對齊縮小到代表匹配圖中特定目標的特定單詞。
圖 3:聲音-視覺匹配圖模型架構(左),匹配圖輸出示例(右),顯示時空相似性的三維密度。
圖 4:幾個詞彙/目標配對的語音提示定點陣圖。
Harwath 還表示,「這有點像大爆炸,物質被分解,然後合併成行星和恆星。預測開始分散開來,但是經過訓練後,它們會匯聚成對,代表語音和視覺目標之間有意義的語義基礎。」
卡內基梅隆大學語言技術研究所的副教授 Florian Metze 說,「看到神經方法現在也能夠將影象元素與音訊片段聯絡起來,而且不需要文字作為中介,真是令人興奮。與人類的學習不同,這種方法完全基於相關性,沒有任何反饋,但它可能幫助我們理解共享表徵是如何由聽覺和視覺線索形成的。」
論文:Jointly Discovering Visual Objects and Spoken Words from Raw Sensory Input
論文連結:http://openaccess.thecvf.com/content_ECCV_2018/papers/David_Harwath_Jointly_Discovering_Visual_ECCV_2018_paper.pdf
參考連結:http://news.mit.edu/machine-learning-image-object-recognition-0918
理論 計算機視覺 語音識別 MIT
相關資料
Artificial Intelligence
在學術研究領域,人工智慧通常指能夠感知周圍環境並採取行動以實現最優的可能結果的智慧體(intelligent agent)
來源: Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.
Convolutional neural network
卷積神經網路(Convolutional Neural Network, CNN)是一種前饋神經網路,它的人工神經元可以響應一部分覆蓋範圍內的周圍單元,對於大型影象處理有出色表現。卷積神經網路由一個或多個卷積層和頂端的全連通層(對應經典的神經網路)組成,同時也包括關聯權重和池化層(pooling layer)。這一結構使得卷積神經網路能夠利用輸入資料的二維結構。與其他深度學習結構相比,卷積神經網路在影象和語音識別方面能夠給出更好的結果。這一模型也可以使用反向傳播演算法進行訓練。相比較其他深度、前饋神經網路,卷積神經網路需要考量的引數更少,使之成為一種頗具吸引力的深度學習結構。 卷積網路是一種專門用於處理具有已知的、網格狀拓撲的資料的神經網路。例如時間序列資料,它可以被認為是以一定時間間隔取樣的一維網格,又如影象資料,其可以被認為是二維畫素網格。
來源:Goodfellow, I.; Bengio Y.; Courville A. (2016). Deep Learning. MIT Press. 維基百科
Machine Learning
機器學習是人工智慧的一個分支,是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、計算複雜性理論等多門學科。機器學習理論主要是設計和分析一些讓計算機可以自動“學習”的演算法。因為學習演算法中涉及了大量的統計學理論,機器學習與推斷統計學聯絡尤為密切,也被稱為統計學習理論。演算法設計方面,機器學習理論關注可以實現的,行之有效的學習演算法。
來源:Mitchell, T. (1997). Machine Learning. McGraw Hill.
Mapping
對映指的是具有某種特殊結構的函式,或泛指類函式思想的範疇論中的態射。 邏輯和圖論中也有一些不太常規的用法。其數學定義為:兩個非空集合A與B間存在著對應關係f,而且對於A中的每一個元素x,B中總有有唯一的一個元素y與它對應,就這種對應為從A到B的對映,記作f:A→B。其中,y稱為元素x在對映f下的象,記作:y=f(x)。x稱為y關於對映f的原象*。*集合A中所有元素的象的集合稱為對映f的值域,記作f(A)。同樣的,在機器學習中,對映就是輸入與輸出之間的對應關係。
來源: Wikipedia
Speech Recognition
自動語音識別是一種將口頭語音轉換為實時可讀文字的技術。自動語音識別也稱為語音識別(Speech Recognition)或計算機語音識別(Computer Speech Recognition)。自動語音識別是一個多學科交叉的領域,它與聲學、語音學、語言學、數字訊號處理理論、資訊理論、電腦科學等眾多學科緊密相連。由於語音訊號的多樣性和複雜性,目前的語音識別系統只能在一定的限制條件下獲得滿意的效能,或者說只能應用於某些特定的場合。自動語音識別在人工智慧領域佔據著極其重要的位置。
categorical data
一種特徵,擁有一組離散的可能值。以某個名為 house style 的分類特徵為例,該特徵擁有一組離散的可能值(共三個),即 Tudor, ranch, colonial。通過將 house style 表示成分類資料,相應模型可以學習 Tudor、ranch 和 colonial 分別對房價的影響。 有時,離散集中的值是互斥的,只能將其中一個值應用於指定樣本。例如,car maker 分類特徵可能只允許一個樣本有一個值 (Toyota)。在其他情況下,則可以應用多個值。一輛車可能會被噴塗多種不同的顏色,因此,car color 分類特徵可能會允許單個樣本具有多個值(例如 red 和 white)。
來源: sary?hl=zh-cn" target="_blank" rel="nofollow,noindex">Google ML glossary

機器之心是國內領先的前沿科技媒體和產業服務平臺,關注人工智慧、機器人和神經認知科學,堅持為從業者提供高質量內容和多項產業服務。