15億引數、1萬元/時熬出最強“假新聞AI”?!馬斯克倡導成立的AI機構放大招
你在鍵盤上輸入開頭:“這是一個關於小狗 Boo 的故事。”
片刻之後,AI 為你返回一個完整的敘事:“這是一個關於小狗 Boo 的故事。Boo 是一隻拉布拉多犬,它愛人類勝過一切。一年多前,弗吉尼亞州阿靈頓市的狗狗救援行動救助了 Boo,它是一隻被遺棄的小狗 ( 現在 2 歲 )。Boo 的故事令人動容。”
這不是假新聞,而是 OpenAI 開發出來的最新語言模型所能實現的效果。
在此前的 DOTA 2 AI 慘敗後,這家馬斯克倡導成立(現已退出董事會)的 AI 機構在今天釋出了其自然語言處理(NLP)模型——GPT-2。GPT-2 最大的亮點是可以生成給定單詞或句子的連貫文字,而且在一系列 NLP 測試中實現最佳 (或接近最佳) 效能。我們可以簡單地將其理解為一款“洋蔥新聞 AI”,但它的價值遠不止於此。
自然語言處理專家、Salesforce 首席科學家 Richard Socher 對《麻省理工科技評論》表示,OpenAI 這次的工作展示了一個更通用的語言學習系統,這些通用學習系統代表著未來。

圖丨GPT-2 根據輸入“Bob最近怎樣”輸出了一個完整的短故事,目前測試只面向研究人員開放(來源:OpenAI)
人類語言的力量已經不必多說,但也正是因為其強大,構建真正理解人類語言的 AI 的過程也異常艱辛。
目前,我們已經迎來幾項標誌性成果,例如谷歌的 BERT,例如谷歌的 BERT,它利用預訓練好的模型,可以在幾個小時內在單個顯示卡上訓練最先進 NLP 模型,而 Facebook 的 PyText,則可以每天為社交網路的應用程式和服務生成超過 10 億個預測。這些成果已經推動了 NLP 相關的研究。但是,在沒有人工製作的語法規則和精心標記的資料集輔助的情況下,AI 目前還難以實現自然“說話”。
這也是為什麼 OpenAI 這次的研究非常值得關注的原因。

圖丨 GPT-2 的表現(來源:OpenAI)
先前的研究表明,無監督學習從非分類、無註釋的資料中學習可以用於從通用模型到特定的語言任務。OpenAI 認為,GPT-2 的誕生表明,足夠大的語言模型可以在不需要特定領域資料集或修改的情況下學習 NLP 任務。
這些模型核心的神經網路由神經元組成,這些神經元仿照生物神經元鬆散建模實現數學功能。這些神經元與層層排列的能傳遞訊號給其他神經元的“突觸”相連。資料訊號從一層傳遞到另一層,然後通過調整每個連線的突觸強度 (權重) 來緩慢地“調整”神經網路。隨著時間的推移,神經網路就能從資料集中提取特徵並識別樣本之間的趨勢,最終學會做出預測。
GPT-2 基於 OpenAI 先前的研究成果 GPT。有意思的是,2018 年轟動 NLP 領域的谷歌 BERT 模型,其很多思想也與 GPT 這個“前輩”有關係。GPT-2 繼承了 GPT 的一些特性,在一定程度上同樣依賴 Transformers 實現其效果。Transformers 是一種相對新穎的神經結構,於 2017 年由 Google Brain 團隊在論文《Attention Is All You Need》中引入。
Transformers 為這一複雜過程增添了“自注意力機制”(self-attention)。神經元群以不同的速率傳遞訊號,並將訊號以某種智慧的方式傳送到下一層。這種結合 40GB、800 萬條網路評論、帖子和文章相當於 100 億個單詞的架構調整,可以讓 OpenAI 模型查詢之前經驗的相關資訊, 而且十分簡單快速。
OpenAI 資料解決方案和語言研究主管 Alec Radford 在一次電話簡報中告訴表示:“一些人工智慧模型強行將上下文的所有資訊彙總或壓縮成一個固定長度,這是一項非常困難的任務。這與以自我關注為基礎的模型截然相反,自我關注模型將所有不同的單詞放在上下文中,並學習如何查詢之前資訊的功能。如果模型看到像‘先生’或‘太太’這樣的單詞,就可以學習如何檢視文件和前面所有的單詞,並判斷出哪一個名字可能跟在這一稱謂後面。”
已有的測試顯示,輸入“敏捷的棕色狐狸躍過了一隻狗”,模型處理後寫到:“敏捷的棕色狐狸躍過了一隻狗。這隻狗真懶!’這有什麼了不起的?’我問到,棕色狐狸笑了,狗也舔了舔嘴脣。’我不知道。但你不必知道,因為一旦你懂了……’我懂了,我說。
輸入“John 今天早上醒來感覺很餓”,模型返回“John 今天早上醒來感覺很餓。這是因為這家餐廳一般會營業到 7 月份,但由於感恩節假期,餐廳有些視窗關門了。John 的晚飯只有一份拌上乳酪和調味品的新鮮蔬菜沙拉。土豆是棕色的,沙拉很有味道。”
而在另一類 Amazon 模型的測試中(用於指定產品類別、產品名稱、評論得分和評論摘要),輸入“一個很棒的手機”,隨後,產品切換設定為“手機及配件”,評論等級設定為“5”。
它生成的是:“這款手機太棒了! 我是 2013 年 7 月買的。我還會購買第二部的。它能通過麥克風發簡訊、播放音樂和與他人交談,而且音質很好。不過耳塞戴上幾個小時後,耳朵有點不舒服。我遇到的唯一問題是電池的壽命。這只是技術上的問題,手機使用一段時間後就會耗電嚴重。除此之外,我喜歡這款手機。這是我用過的最好的手機。這是一款很棒的手機。機殼的觸感很好,但是很容易變髒。如果你的手機上有攝像頭,你可以用它拍照。我上傳了自從我有了手機後的照片。
不得不說上面這個評論已經和人類使用者給出的評論非常接近了,無論是表達還是資訊組織的邏輯。

(來源:OpenAI)
對此,OpenAI 表示,模型在第一次執行時,大約有一半的時間會生成“有趣的”和“連貫的”文字。Radford 說:“它試圖在儘可能少的資訊下預測下一個單詞。你能給出的上下文越多,它就會表現得越好。”
而在 zero-shot 任務遷移的實驗中,模型沒有事先在任何特定於測試的資料集上進行訓練,OpenAI 表示,該模型的四種語言系統中最大的語言系統 OpenAI gps -2 在八個基準測試中,成功地在七個測試中獲得了最佳分數,包括 LAMBADA 測試 (模型在文字中建模長期依賴關係能力的測試)、Winograd 模式挑戰 (解決文字中歧義的能力的測試) 和 Penn Treebank(包含數百萬個標記了部分的文字的演講集合)。

(來源:OpenAI)
它還顯示出無監督學習任務的執行能力。在回答問題的測試中,它在獲得上下文的情況下的準確率達到 83.4%。

圖丨問答表現(來源:OpenAI)
“它能夠利用更大的模型和更多的資料成為一個‘多面手’,一般的語言預測任務都能執行得很好。在一些非常有針對性的任務中,如彙總或翻譯,它也展示了初步的潛力。這太令人興奮了,因為我們沒有明確針對這些任務進行訓練。”Radford 說。
儘管如此,Radford 和 OpenAI 技術人員傑弗裡·吳 (Jeffrey Wu) 也承認,這還遠遠不是自然語言處理的終點:這些模型一次只能看到一頁以下的資料,而且在推理時邏輯並不完全一致——有時會有很誇張的數字,或者以一種荒謬的方式跑題了。OpenAI 團隊未來將繼續改進這些問題。
與以往的做法不同的是,這一次,OpenAI 既不釋出用於培訓 NLP 模型的資料集,也不釋出相關的語言模型或培訓程式碼。它認為,釋出這些資訊可能會為濫用開啟大門。
OpenAI 在部落格中寫道:“同樣的工具,一個藝術家可以利用來幫助他們寫一個短篇小說的故事,可以用來製作關於某個公司的財務新聞,也可以在知名網站上建立虛假評論,甚至是強化政治性輿論影響…基於這些考慮,我們本著負責任的態度釋出這個模型,希望貢獻或者得到溝負責任的討論,從而使記者、決策者等其他重要利益相關者也能夠理解和驗證我們所做的事情。”
OpenAI 所做的這項工作,其實也呼應了當下全球資訊傳播中的一個重要議題——可以用來生成誤導性內容的 AI 系統正受到越來越多的審查。2018 年 9 月,美國國會議員就要求情報機構就 deepfake(AI 視訊造假)對國家安全的潛在影響提交報告。在 2018 年末的一次國會聽證會上,國會議員們在與 Facebook 營運長謝麗爾·桑德伯格 (Sheryl Sandberg) 和 Twitter 執行長傑克·多爾西 (Jack Dorsey) 交談時,也表達了對操縱 deepfake 的潛在影響的擔憂。
我們不排除,甚至可以肯定的說,未來 OpenAI 最新的這款語言模型或者其他類似的模型一定會被用來生成不真實或誤導性的故事。資料顯示,2018 年 3 月,半數美國人表示在新聞網站上看到了故意誤導的文章。有機構預測,如果目前的趨勢持續下去,到 2022 年,大多數發達國家的人每天將看到更多的虛假資訊,而非真實資訊。因此, OpenAI 的顧慮是完全合理的。
現在也有不少團隊正在開發能夠與假新聞 AI 對抗的 AI。例如,麻省理工學院的研究人員就在試圖用自動化工具來對抗人工和 AI 編寫的假新聞,這些工具可以判斷訊息來源的準確性或政治偏見。但是,一些專家不相信這樣的做法能取得多顯著的效果。
卡內基梅隆大學機器人研究所 (Carnegie Mellon University Robotics Institute) 的科學家迪安·波默洛 (Dean Pomerleau) 參與組織了“假新聞挑戰賽”(Fake News Challenge),這是一項眾包偏見檢測演算法的競賽。他在一次採訪中透露,AI 缺乏對語言的細微理解,而這些理解是研究不真實和虛假陳述所必需的。
“實際上,我們一開始就有一個更巨集偉的目標,那就是建立一個能夠回答‘這是假新聞嗎,是還是不是?’這個問題的系統。”“他說。“但我們很快意識到機器學習無法勝任這項任務。”

(來源:麻省理工科技評論)
但也不用如此消極。很明顯,各國在政策領域還有很多改善的空間。OpenAI 也希望通過這次研究,不僅能展示它在 NLP 領域取得的成果,還能在研究人員和監管機構之間引發辯論。
OpenAI 說:“我們在組織內部的初步共識的指導下得出一個結論,即這個模型在質量上優於以往,而且被濫用的可能性比我們參與的此前專案更高。我們最終希望建立一個由人工智慧從業者組成的全球社群,讓他們思考特定型別資訊釋出的風險。”
不過,除了對假新聞的擔憂以外,這次的研究還繼續佐證了目前深度學習研究領域的一個“法則”(甚至可以認為是“詛咒”):資料、計算資源和人才三大關鍵因素缺一不可,突破性成果越來越可能只有大機構大企業才能支撐完成。無論是去年 3 億引數的 BERT,還是現在動用了 15 億引數、每小時訓練價格高達 2048 美元的 GPT-2 ,都沒有避開。